迷惑クローラー

このサイトは「来る者は拒まず」を基本にしているが、以下の2条件を満たしたクローラーならブロックする。緊急性がある場合や robots.txt を無視するようなボットには、403レスポンス・コードで対応している。

1:誰が何のために巡回しているのか、明らかにしていないボット。もし user-agent に会社やサービス名があったりホームページへのリンクがあれば、素性や用途を確認できるが、そのような必要な情報が全くない場合。悪質なケースだと他者を名乗ることがある。

2:HTMLフィアル以外の画像・音声・動画を短期間に多くそして複数回取得するクローラー。理由は転送量の増加。転送量が増えるとその分サイトの費用が嵩む。

以前香港と中国本土からクロールするボットをブロックしたが、直近は正体と巡回理由が不明で、1秒毎に1アクセスするという頻度としては全く問題なかったが、ページ上の全ての画像・音声・動画などのメディア・ファイルを一挙に取る Heritrix というボットを弾くようにした。インターネット・アーカイブが開発したクローラーで、ページを完全な形でアーカイブできるスクレイパー。このボットは誰でも自由に利用できる。ユーザー・エージェントを見るかぎりインターネット・アーカイブや国立図書館などではなかった。実質的に名無しだったので、あまり良い気持ちはしなかったし、ログを見た時には既に数ギビバイトの転送量になっていた。特に2分以内に数本の動画を読み込んだのが目立った。数十分の動画が数秒でダウンロードされていた。もうちょっとアクセスとアクセスの間隔が長かったり動画取得に時間をかけていたりしたら、全体的にアクセス・転送量が増えたと思っても、特定のクローラーによるものとは気付かなかっただだろう。全ての画像・音声・動画ファイルをクロールされたとしても、大した金額にはならないが、サイト運営者の私にメリットが全く見当たらないし、どこかでこのサイトの内容が再現されるのも嫌だ。

最近いろいろとこのサイトで変えてみたり実験しているのだが、今度数多くあるSEOツールのボットを robots.txt で弾いてみようか。サーバーに過度な負担をかけないし転送量のコストも極小で上記の迷惑クローラーには当てはまらないが、ツールを使わないサイト運営者としてアクセスを許可する意味とは何だろうかと疑問に思っているので。