「Shim-Crawler」っていうエージェントがWEBログに残ってた。
どこのロボットだろうと思って、WHOISで調べたら、どうやらIPの所有者は東京大学みたいだ。ググってみても、あまり情報が見当たらない。
GoogleやMSNのロボットに比べると、クロール頻度がやたら多いし、片っ端からWEBページをクロールしてるし、あまり行儀の良いロボットじゃなさそう。
東京大学で、新しいサーチエンジンでも作るのだろうか(笑)?
157.82.246.104 - - [14/Nov/2005:02:12:46 +0900] "GET / HTTP/1.1" 200 15234 "-" "Shim-Crawler"
しつこいと、サーバー管理者に嫌われて、情報収集出来なくなるのがオチじゃないの?
Apacheの場合の拒否方法はこんな感じ。
【robots.txtを使う場合】
User-Agent: Shim-Crawler
Disallow: /
でも、紳士的なロボットじゃなかったら、robots.txtなんて無視されちゃうので、Apache側で拒否したほうが良いと思う。robots.txtはあくまでも気休め程度に・・・。
【mod_rewiteを使う場合】
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]
IPがわかっている場合は、IPも付け加えたほうが良いかも。
RewriteEngine on
RewriteCond %{REMOTE_ADDR} ^157\.82\.246\.104 [OR]
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]
コメントする