Googlebot

Googlebot は、Google のウェブクローラの総称です。デスクトップでユーザーをシミュレートするデスクトップ クローラと、モバイル デバイスでユーザーをシミュレートするモバイル クローラの 2 種類のクローラがあります。

通常、ウェブサイトは Googlebot Desktop と Googlebot Smartphone の両方でクロールされます。Googlebot のサブタイプは、リクエストのユーザー エージェント文字列で確認できます。ただし、両方のクローラタイプが robots.txt 内の同じプロダクト トークン(ユーザー エージェント トークン)に従うため、robots.txt で Googlebot Smartphone または Googlebot Desktop のどちらかをターゲットにすることはできません。

サイトを Google のモバイル ファーストに移行している場合、Googlebot のクロール リクエストの大部分はモバイル クローラを使用して行われ、一部がデスクトップ クローラを使用して行われます。まだ移行していないサイトの場合、クロールの大部分はデスクトップ クローラを使用して行われます。どちらの場合でも、一部を対象とするクローラは、大部分を対象とするクローラがすでにクロールしている URL のみをクロールします。

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、遅延などにより、短時間にアクセス頻度が若干増えたように思える場合があります。

Googlebot は、数千台のマシンで同時に実行することでパフォーマンスを向上させ、ウェブの拡大に伴って拡張できるように設計されています。また、帯域幅の使用量を削減するために、クロール対象のサイトの近くにあるマシンで多数のクローラを実行します。そのため、google.com の複数のマシンからのアクセス(ユーザー エージェントはすべて Googlebot)がログに記録される場合があります。サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイト内のページをできるだけ多くクロールすることを目標にしています。Google のクロール リクエストへの対応で問題が発生した場合は、クロール頻度の変更をリクエストできます。

通常、Googlebot は HTTP/1.1 を介してクロールします。ただし、2020 年 11 月以降、HTTP/2 をサポートしているサイトに対しては、HTTP/2 を介すことでメリットが見込まれる場合、HTTP/2 を介してクロールするようになります。これにより、サイトと Googlebot のコンピューティング リソース(CPU、RAM など)が節約されます。HTTP/2 を介してクロールされない場合でも、それによってサイトのインデックス登録またはランキングに影響が及ぶことはありません。

HTTP/2 を介してクロールされないようにするには、サイトをホストしているサーバーの設定を変更し、Googlebot が HTTP/2 を介してクロールしようとすると 421 の HTTP ステータス コードで応答するようにしてください。この対応ができない場合は、Googlebot チームにメッセージを送信できます(ただし、この解決策は一時的なものです)。

Googlebot のサイトアクセスをブロックする

ウェブサーバーへのリンクを公開しないようにして、そのウェブサーバーの存在を隠すことはまず不可能です。誰かが「非公開」のサーバーからリンクをたどって別のウェブサーバーにアクセスすると、「非公開」の URL がリファラータグに追加され、他のウェブサーバーのリファラーログに保存、公開されるからです。同様に、ウェブ上には、古くなったリンクや無効なリンクが多数存在します。誰かがサイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからクロールしようとします。

Googlebot によるサイトのコンテンツのクロールをブロックするには、複数の方法があります。Googlebot によるページのクロールのブロック、Googlebot によるページのインデックス登録のブロック、クローラとユーザーによるページアクセスの完全なブロックの違いにご注意ください。

Googlebot かどうかの確認

Googlebot をブロックする前に、他のクローラが Googlebot のユーザー エージェント文字列を使用して Googlebot になりすましていることがよくある点に注意してください。問題のリクエストが本当に Google からのものかどうかを確認することが重要です。リクエストが実際に Googlebot から送信されたものかどうかを確認するには、リクエストの送信元 IP についてリバース DNS ルックアップを実施します。

Googlebot や信頼できる検索エンジンの bot はすべて robots.txt のディレクティブに従いますが、一部の悪質な bot やスパムは従っていません。Google は日々スパマーと闘っています。Google 検索の検索結果でスパムページやスパムサイトを見かけた場合は、Google にスパムを報告してください。