久しぶりにログをチェックしたら,User-Agentが"Baiduspider+(+http://www.baidu.com/search/spider_jp.html)“なアクセスが大量にきている.CNのBaiduのcrawlerを拒否するために書いてあったrobots.txtの
User-agent: baiduspider
Disallow: /
は無視らしい1. 『日本語サイトのwebページの収集Spider(クローラ)問題についてプレスリリース』を読むと,
Baidu SpiderのUser Agent:
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
日本IDCのIPアドレス:
122.152.128.0 ~ 122.152.128.255
122.152.129.0 ~ 122.152.129.255
と書いてあり,『BaiduspiderQ&A』には,
百度のウェブ検索は、Baiduspiderと呼ばれるスパイダープログラムを利用してページの情報収集を実施しております。
とあるので,
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider+
Disallow: /
を書いて2おくが,
Baiduspiderのほかに、いくつかのクローラーがありますがアクセスを禁止したい場合は、webmaster-jp@baidu.com宛までご連絡ください。なんてことも書いてあるので,“122.152.128.0/23"からのアクセスも拒絶するようにした…