サイト内検索やタグ検索などはmt-search.cgiというCGIを呼び出してページを表示させていますが、そのページをGoogleなど検索エンジンクローラーにインデックスさせないようにすれば、 mt-search.cgiの負荷が軽減されると考えました。


このムジログの場合は下記URLに設置しています。

http://mtosasp.geo.jp/mtos/mt-search.cgi

つまりこの検索cgiがあるURL「http://mtosasp.geo.jp/mtos/mt-search.cgi」をクロールさせないことにしてしまえ!ということでrobot.txtを書いてファイルを設置しました。

同じコンテンツの公開に注意:SEO「重複コンテンツ」問題 :: SEM Rより引用:
まず robots.txt の活用だ。ニュースサイトの例に挙げた「印刷用/Web閲覧用」のようなコンテンツが発生してしまう場合、例えば印刷用のWebページが格納されるフォル ダをWeb閲覧用とは別のものになるように指定した上で、robots.txt を用いて検索エンジンのクロールを拒否すればよい。例えば、印刷用Webページのフォルダが /print/ だった場合、検索エンジンがクロールしないように robots.txt で設定するには次のように記述すればよい。


User-agent: *
Disallow: /print/

これを参考にして(というか引用もとの趣旨をかなり無視して)

User-agent: *
Disallow: / ←訂正。これだとmt-serch.cgi以外の全ファイルがクロールされません
Disallow: /mtos/mt-search.cgi

 と書いたものをrobot.txtという名前で保存してアップしました。

 前々から気づいていたのですが、これにより人為的な検索以外のロボットによるクロール(=mt-search.cgiに負荷がかかる)というのを排除することができます(たぶん)。
ただ、モバイル用のmt4iも同じフォルダなんで(忘れそうw)、対策方法はほかにもありそうな気がするんですが、とりあえず、これで対処します。←訂正。上記のようにすることで解決しました

4 thoughts on “やれることはやろう!2 サイト内検索&タグ検索結果ページをクロールさせない

  1. もかり より:

    タグまわりがどうなるのかも、
    知りたいな~(^^
    ※ログを見たらタグをなにかがすごく巡回している気がするんです…。気のせいでしょうか?

  2. wackey より:

    もかりさん>
    気のせいじゃないですよ。
    クローラーがタグのリンク先(つまりmt-search.cgi)にアクセスしています。
    たとえば、ログを見て「65.55.208.43」というIPアドレスが連続して見られるのですが、
    IP広場で調べると(http://www.iphiroba.jp/index.php)
    msnbotでした。
    つまり今回の手当をしたことによりタグの検索先もクロールされなくなります。
    (検索エンジンが検索窓にキーワードを入れているのではなくて、タグのリンク先をやたらとまわっているのが大きいです)

  3. たつを より:

    robots.txt の置き場所は、
    http://mtosasp.geo.jp/mtos/robots.txt ではなく、
    http://mtosasp.geo.jp/robots.txt (ルート)だったかと!

  4. wackey より:

    たつをさん>
    すいません!ご指摘いただいたとおりでした!
    ありがとうございます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です