Googlebot

Googlebot は、Google 検索で使用される 2 種類のウェブ クローラーの総称です。

Googlebot のサブタイプは、リクエストの HTTP user-agent リクエスト ヘッダーで確認できます。ただし、両方のクローラー タイプが robots.txt 内の同じプロダクト トークン(ユーザー エージェント トークン)に従うため、robots.txt でスマートフォン用 Googlebot またはパソコン用 Googlebot のどちらかをターゲットにすることはできません。

Google 検索はほとんどのサイトについて、主としてコンテンツのモバイル バージョンをインデックスに登録します。そのため、Googlebot のクロール リクエストの大部分はモバイル クローラーを使用して行われ、一部がデスクトップ クローラーを使用して行われます。

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、遅延などにより、短時間にアクセス頻度が若干増えたように思える場合があります。Google のクロール リクエストへの対応で問題が発生した場合は、クロール頻度を減らすことができます。

Googlebot は、HTML ファイルまたはサポートされているテキストベースのファイルの最初の 15 MB の部分をクロールできます。HTML で参照されるリソース(CSS、JavaScript など)は個別に取得され、取得ごとに同じファイルサイズの制限が適用されます。ファイルの最初の 15 MB を超えると、Googlebot はクロールを停止し、最初の 15 MB のみをインデックス登録の対象として送信します。ファイルサイズの上限は、非圧縮データに適用されます。Google の他のクローラー(動画用 Googlebot、画像用 Googlebot など)では、制限が異なる場合があります。

米国の IP アドレスからクロールする場合、Googlebot のタイムゾーンは太平洋時間です。

その他の Googlebot の技術的特性については、Google クローラーの概要で説明されています。

Googlebot のサイトアクセスをブロックする

Googlebot は、主に以前にクロールしたページに埋め込まれたリンクから、クロールする新しい URL を検出します。サイトへのリンクを公開しないようにして、そのサイトの存在を隠すことはまず不可能です。誰かが「非公開」のサイトからリンクをたどって別のサイトにアクセスすると、「非公開」のサイトの URL がリファラータグに追加され、他のサイトのリファラーログに保存、公開されるからです。

Googlebot によるサイトのコンテンツのクロールをブロックするには、複数の方法があります。なお、クロールとインデックス登録は異なりますのでご注意ください。Googlebot によるページのクロールをブロックしても、そのページの URL が検索結果に表示されなくなるわけではありません。

  • Googlebot がページをクロールできないようブロックする場合は robots.txt ファイルを使用してください。
  • Google がページをインデックス登録するのを望まない場合は noindex を使用してください。
  • クローラーとユーザーによるページへのアクセスを完全にブロックする場合は パスワード保護などの他の方法を使用してください。

Googlebot をブロックすることは、Google 検索(Discover やすべての Google 検索機能を含む)だけでなく、Google 画像検索、Google Video、Google ニュースなどの他のサービスにも影響します。

Googlebot が本物であるか確認する

Googlebot をブロックする前に、他のクローラーが Googlebot の HTTP user-agent リクエスト ヘッダーを使用して Googlebot になりすましていることがよくある点に注意してください。問題のリクエストが本当に Google からのものかどうかを確認することが重要です。リクエストが実際に Googlebot から送信されたものかどうかを確認するには、リクエストの送信元 IP についてリバース DNS ルックアップを実施するか、送信元 IP と Googlebot の IP 範囲を照合します。