Baiduspider+

久しぶりにログをチェックしたら，User-Agentが"Baiduspider+(+http://www.baidu.com/search/spider_jp.html)“なアクセスが大量にきている．CNのBaiduのcrawlerを拒否するために書いてあったrobots.txtの

User-agent: baiduspider
Disallow: /

は無視らしい¹．『日本語サイトのwebページの収集Spider（クローラ）問題についてプレスリリース』を読むと，

Baidu SpiderのUser Agent：
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)

日本IDCのIPアドレス：
122.152.128.0 ~ 122.152.128.255
122.152.129.0 ~ 122.152.129.255

と書いてあり，『BaiduspiderQ&A』には，

百度のウェブ検索は、Baiduspiderと呼ばれるスパイダープログラムを利用してページの情報収集を実施しております。

とあるので，

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider+
Disallow: /

を書いて²おくが，

Baiduspiderのほかに、いくつかのクローラーがありますがアクセスを禁止したい場合は、webmaster-jp@baidu.com宛までご連絡ください。

なんてことも書いてあるので，“122.152.128.0/23"からのアクセスも拒絶するようにした…

先頭の"b"が大文字では無いせいか? ↩︎
“+“がついているのは，おまけ． ↩︎

ADVERTISEMENT