クロール頻度の抑制に 403 または 404 を使用しないでください

2023 年 2 月 17 日(金曜日)

ウェブサイトの所有者および一部のコンテンツ配信ネットワーク(CDN)が、404 やその他の 4xx クライアント エラー(429 を除く)を使用して Googlebot のクロール頻度を低減しようとするケースが、ここ数か月間で増加しています。

このブログ投稿で詳しくご説明しますが、まず結論から言うと、この方法でのクロール頻度の低減はおすすめしません。Googlebot のクロール頻度を低減する方法に関するドキュメントをご用意していますので、そちらのドキュメントをご覧になり、Googlebot のクロール頻度を効果的に管理する方法を確認してください。

基本を確認: 4xx エラーはクライアントに関するエラー

サーバーがクライアントに返す 4xx エラーは、サーバーが発信するシグナルで、クライアントのリクエストになんらかの誤りがあったことを示すものです。このカテゴリに属するエラー(「Not Found」のエラー、「Forbidden」、「I'm a teapot」)の大部分はいたって無害なものであり、サーバーで起きている問題を示すものではありません。

1 つ存在する例外は 429 であり、これは「過剰な数のリクエスト」を表します。このエラーは、Google の Googlebot など、仕様どおりに動作しているロボットに、サーバーに過剰な負荷が生じているために動作を抑える必要があることを伝える明確なシグナルです。

429 以外の 4xx エラーが Googlebot のクロール頻度の抑制に適さない理由

クライアント エラーは、あくまでもクライアントのエラーです。通常はサーバーにエラーがあることを示すものではありません。サーバーに過剰な負荷が生じているわけではなく、また重大なエラーが発生してリクエストに応答できない状態でもありません。単純にクライアントのリクエストになんらかの問題があったことを示しています。たとえば、404 エラーを、サーバーに過剰な負荷が生じている状態とみなすことは不適切です。誰かの誤りでサイトの正しいページにリンクされておらず、その結果 404 エラーが急増して Googlebot のクロール頻度が低下していたのだとすれば、どうでしょうか。これはとても適切な状況とはいえません。同じことが 403410418 についても言えます。

ただし、この場合も「過剰な数のリクエスト」として解釈される 429 ステータス コードは例外です。

4xx によるクロール頻度の抑制が Googlebot に与える影響

すべての 4xx HTTP ステータス コード(この場合も 429 を除きます)が Google 検索からコンテンツが削除される原因となります。さらに、クライアントが robots.txt ファイルをリクエストしたときに 4xx HTTP ステータス コードが返されると、このファイル自体が存在しないものとして扱われます。仮に秘匿したい情報のクロールを禁止するルールを定めていた場合、そのことを Googlebot が認識することになります。これは双方にとって望ましいことではありません。

Googlebot のクロール頻度を抑える適切な方法

Googlebot のクロール頻度を抑える方法と、Googlebot(および検索インデックス)で各 HTTP ステータス コードを処理する方法について、詳細なドキュメントを用意していますのでご確認ください。このドキュメントでは、以下のどちらかの方法を使用することをおすすめしています。

その他のヒントやより明確な説明が必要な場合は、Twitter でお問い合わせいただくか、ヘルプ フォーラムにご投稿ください。