« SC430のカタログ~その後~ | メイン | Yahoo-MMCrawler »

Shim-Crawler

「Shim-Crawler」っていうエージェントがWEBログに残ってた。
どこのロボットだろうと思って、WHOISで調べたら、どうやらIPの所有者は東京大学みたいだ。ググってみても、あまり情報が見当たらない。
GoogleやMSNのロボットに比べると、クロール頻度がやたら多いし、片っ端からWEBページをクロールしてるし、あまり行儀の良いロボットじゃなさそう。
東京大学で、新しいサーチエンジンでも作るのだろうか(笑)?

157.82.246.104 - - [14/Nov/2005:02:12:46 +0900] "GET / HTTP/1.1" 200 15234 "-" "Shim-Crawler"


しつこいと、サーバー管理者に嫌われて、情報収集出来なくなるのがオチじゃないの?

Apacheの場合の拒否方法はこんな感じ。

【robots.txtを使う場合】

User-Agent: Shim-Crawler
Disallow: /


でも、紳士的なロボットじゃなかったら、robots.txtなんて無視されちゃうので、Apache側で拒否したほうが良いと思う。robots.txtはあくまでも気休め程度に・・・。

【mod_rewiteを使う場合】

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]


IPがわかっている場合は、IPも付け加えたほうが良いかも。

RewriteEngine on
RewriteCond %{REMOTE_ADDR} ^157\.82\.246\.104 [OR]
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]

コメントを投稿

「荒らし」防止のため、内容を確認後に掲載します。反映されるまで、しばらくお待ちください。
あと「SSLうんぬん・・・」というメッセージが出ると思いますが、気にしないでください・・・。

 (アドレスは公開されません)

« SC430のカタログ~その後~ | メイン | Yahoo-MMCrawler »

 
Copyright © MIZBLOG.COM All Rights Reserved.
Last-Modified: Thu, 19 Jan 2012 11:02:44 +0700