2006年05月26日(金) [過去の今日]
#4 google bot の仕事が終る日
ふとアクセスログを眺めていたら、昨日のこのサイトへのアクセスが422を突破していた。ここにbatta、いわゆるcookieを食わないエージェントなどを含めると、757のアクセスがあったようである。
これはこのサイトとしてはかなりのアクセス数で、もしかしたら新記録かもしれない。
が、ログの形式も悪いのだろうが、ずらずらとgooglebot.comからのアクセスが並んでるのは非常にうざったい。今までもずいぶん古い記事までごそっと持ってく事は何度もあったのだが、いったいgoogleはいつになったらうちのサイトの全文を取得してくれるのであろうか。
量としてもたいしたものではない。俺が書くhnf形式の文書は、年間およそ1.2M。昨年はちょっと多めで1.5M程度。2001年からのログ全部あわせても、せいぜい6〜7MBである。こんなのいまどきの回線速度なら、一瞬で持ってけるはずだ。
もちろん、実際にはHTML変換の手間もあるし、その段階で文書以外の部分(サイドバーやヘッダタグなど)も取得するから、実際にはもっと容量が増えるし、サーバの負荷もかかることは重々承知である。しかし、実際に検索エンジンのクローラーが必要としてるのは、それだけのはずだ。
だったら単一ファイルでどこかにおいといて、それを取得するようにできないものだろうか。robots.txtにでも書いとくとか……。
(@297)