サイト内検索やタグ検索などはmt-search.cgiというCGIを呼び出してページを表示させていますが、そのページをGoogleなど検索エンジンのクローラーにインデックスさせないようにすれば、 mt-search.cgiの負荷が軽減されると考えました。
このムジログの場合は下記URLに設置しています。
http://mtosasp.geo.jp/mtos/mt-search.cgi
つまりこの検索cgiがあるURL「http://mtosasp.geo.jp/mtos/mt-search.cgi」をクロールさせないことにしてしまえ!ということでrobot.txtを書いてファイルを設置しました。
同じコンテンツの公開に注意:SEO「重複コンテンツ」問題 :: SEM Rより引用:
まず robots.txt の活用だ。ニュースサイトの例に挙げた「印刷用/Web閲覧用」のようなコンテンツが発生してしまう場合、例えば印刷用のWebページが格納されるフォル ダをWeb閲覧用とは別のものになるように指定した上で、robots.txt を用いて検索エンジンのクロールを拒否すればよい。例えば、印刷用Webページのフォルダが /print/ だった場合、検索エンジンがクロールしないように robots.txt で設定するには次のように記述すればよい。▼
User-agent: *
Disallow: /print/
▲
これを参考にして(というか引用もとの趣旨をかなり無視して)
User-agent: *
Disallow: /←訂正。これだとmt-serch.cgi以外の全ファイルがクロールされませんDisallow: /mtos/mt-search.cgi
と書いたものをrobot.txtという名前で保存してアップしました。
前々から気づいていたのですが、これにより人為的な検索以外のロボットによるクロール(=mt-search.cgiに負荷がかかる)というのを排除することができます(たぶん)。ただ、モバイル用のmt4iも同じフォルダなんで(忘れそうw)、対策方法はほかにもありそうな気がするんですが、とりあえず、これで対処します。←訂正。上記のようにすることで解決しました
コメント
タグまわりがどうなるのかも、
知りたいな~(^^
※ログを見たらタグをなにかがすごく巡回している気がするんです…。気のせいでしょうか?
もかりさん>
気のせいじゃないですよ。
クローラーがタグのリンク先(つまりmt-search.cgi)にアクセスしています。
たとえば、ログを見て「65.55.208.43」というIPアドレスが連続して見られるのですが、
IP広場で調べると(http://www.iphiroba.jp/index.php)
msnbotでした。
つまり今回の手当をしたことによりタグの検索先もクロールされなくなります。
(検索エンジンが検索窓にキーワードを入れているのではなくて、タグのリンク先をやたらとまわっているのが大きいです)
robots.txt の置き場所は、
http://mtosasp.geo.jp/mtos/robots.txt ではなく、
http://mtosasp.geo.jp/robots.txt (ルート)だったかと!
たつをさん>
すいません!ご指摘いただいたとおりでした!
ありがとうございます。