Shim-Crawler

| コメント(0) | トラックバック(0)

「Shim-Crawler」っていうエージェントがWEBログに残ってた。
どこのロボットだろうと思って、WHOISで調べたら、どうやらIPの所有者は東京大学みたいだ。ググってみても、あまり情報が見当たらない。
GoogleやMSNのロボットに比べると、クロール頻度がやたら多いし、片っ端からWEBページをクロールしてるし、あまり行儀の良いロボットじゃなさそう。
東京大学で、新しいサーチエンジンでも作るのだろうか(笑)?

157.82.246.104 - - [14/Nov/2005:02:12:46 +0900] "GET / HTTP/1.1" 200 15234 "-" "Shim-Crawler"


しつこいと、サーバー管理者に嫌われて、情報収集出来なくなるのがオチじゃないの?

Apacheの場合の拒否方法はこんな感じ。

【robots.txtを使う場合】

User-Agent: Shim-Crawler
Disallow: /


でも、紳士的なロボットじゃなかったら、robots.txtなんて無視されちゃうので、Apache側で拒否したほうが良いと思う。robots.txtはあくまでも気休め程度に・・・。

【mod_rewiteを使う場合】

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]


IPがわかっている場合は、IPも付け加えたほうが良いかも。

RewriteEngine on
RewriteCond %{REMOTE_ADDR} ^157\.82\.246\.104 [OR]
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]

トラックバック(0)

トラックバックURL: http://www.mizblog.com/mt/mt-tb.cgi/506

コメントする

月別 アーカイブ

ウェブページ

  • images
Powered by Movable Type 5.07

このブログ記事について

このページは、Mizが2005年11月14日 22:20に書いたブログ記事です。

ひとつ前のブログ記事は「SC430のカタログ?その後?」です。

次のブログ記事は「Yahoo-MMCrawler」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Flag Counter