久しぶりにログをチェックしたら,User-Agentが"Baiduspider+(+http://www.baidu.com/search/spider_jp.html)“なアクセスが大量にきている.CNのBaiduのcrawlerを拒否するために書いてあったrobots.txtの

User-agent: baiduspider
Disallow: /

は無視らしい1. 『日本語サイトのwebページの収集Spider(クローラ)問題についてプレスリリース』を読むと,

Baidu SpiderのUser Agent:
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)

日本IDCのIPアドレス:
122.152.128.0 ~ 122.152.128.255
122.152.129.0 ~ 122.152.129.255

と書いてあり,『BaiduspiderQ&A』には,

百度のウェブ検索は、Baiduspiderと呼ばれるスパイダープログラムを利用してページの情報収集を実施しております。

とあるので,

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider+
Disallow: /

を書いて2おくが,

Baiduspiderのほかに、いくつかのクローラーがありますがアクセスを禁止したい場合は、webmaster-jp@baidu.com宛までご連絡ください。
なんてことも書いてあるので,“122.152.128.0/23"からのアクセスも拒絶するようにした…


  1. 先頭の"b"が大文字では無いせいか? ↩︎

  2. “+“がついているのは,おまけ. ↩︎