Shim-Crawler

Shim-Crawler

「Shim-Crawler」っていうエージェントがWEBログに残ってた。
どこのロボットだろうと思って、WHOISで調べたら、どうやらIPの所有者は東京大学みたいだ。ググってみても、あまり情報が見当たらない。
GoogleやMSNのロボットに比べると、クロール頻度がやたら多いし、片っ端からWEBページをクロールしてるし、あまり行儀の良いロボットじゃなさそう。
東京大学で、新しいサーチエンジンでも作るのだろうか（笑）？

157.82.246.104 - - [14/Nov/2005:02:12:46 +0900] "GET / HTTP/1.1" 200 15234 "-" "Shim-Crawler"

しつこいと、サーバー管理者に嫌われて、情報収集出来なくなるのがオチじゃないの？

Apacheの場合の拒否方法はこんな感じ。

【robots.txtを使う場合】

User-Agent: Shim-Crawler
Disallow: /

でも、紳士的なロボットじゃなかったら、robots.txtなんて無視されちゃうので、Apache側で拒否したほうが良いと思う。robots.txtはあくまでも気休め程度に・・・。

【mod_rewiteを使う場合】

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]

IPがわかっている場合は、IPも付け加えたほうが良いかも。

RewriteEngine on
RewriteCond %{REMOTE_ADDR} ^157\.82\.246\.104 [OR]
RewriteCond %{HTTP_USER_AGENT} Shim-Crawler
RewriteRule ^.*$ - [F]

コメントする

名前

電子メール

URL

ログイン情報を記憶

コメント (スタイル用のHTMLタグを使えます)

カテゴリ:

トラックバック(0)

コメントする

カテゴリ

月別アーカイブ

ウェブページ

検索

メール

このブログ記事について

Shim-Crawler

カテゴリ:

トラックバック(0)

コメントする

カテゴリ

月別 アーカイブ

ウェブページ

検索

メール

このブログ記事について

月別アーカイブ