クローラが Googlebot などの Google クローラであることを確認する

サーバーへのウェブクローラからのアクセスが本当に Googlebot などの Google クローラによるものかどうかを確認できます。この方法は、スパマーなどが Googlebot であると称してサイトにアクセスしていないかを知りたい場合に便利です。Google では、ウェブサイトの所有者が許可リストに登録するための、IP アドレスの公開リストを掲載していません。こうした IP アドレスの範囲には変更の可能性があり、固定化されたリスト形式でアクセスを管理すると問題が発生するからです。そのため、次のようにして DNS ルックアップを実施する必要があります。

クローラが Googlebot(または他の Google クローラ)であることを確認する

コマンドライン ツールを使用する

  1. ログにアクセスが記録されている IP アドレスについて、host コマンドを使用してリバース DNS ルックアップを実施します。
  2. ドメイン名が googlebot.com または google.com であることを確認します。
  3. 最初の手順で取得したドメイン名で host コマンドを使用して、取得したドメイン名について DNS フォワード ルックアップを実施します。これがログにアクセスが記録されていた元の IP アドレスと同じかどうかを確認します。

例 1:

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

例 2:

> host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

自動ソリューションを使用する

Google では、クローラを識別できるソフトウェア ライブラリを提供していません。オープンソース ライブラリを使用することで、Googlebot を確認できます。