2023 年 2 月 17 日(金曜日)
ウェブサイトの所有者および一部のコンテンツ配信ネットワーク(CDN)が、404
やその他の 4xx
クライアント エラー(429
を除く)を使用して Googlebot のクロール頻度を低減しようとするケースが、ここ数か月間で増加しています。
このブログ投稿で詳しくご説明しますが、まず結論から言うと、この方法でのクロール頻度の低減はおすすめしません。Googlebot のクロール頻度を低減する方法に関するドキュメントをご用意していますので、そちらのドキュメントをご覧になり、Googlebot のクロール頻度を効果的に管理する方法を確認してください。
基本を確認: 4xx
エラーはクライアントに関するエラー
サーバーがクライアントに返す 4xx
エラーは、サーバーが発信するシグナルで、クライアントのリクエストになんらかの誤りがあったことを示すものです。このカテゴリに属するエラー(「Not Found」のエラー、「Forbidden」、「I'm a teapot」)の大部分はいたって無害なものであり、サーバーで起きている問題を示すものではありません。
1 つ存在する例外は 429
であり、これは「過剰な数のリクエスト」を表します。このエラーは、Google の Googlebot など、仕様どおりに動作しているロボットに、サーバーに過剰な負荷が生じているために動作を抑える必要があることを伝える明確なシグナルです。
429
以外の 4xx
エラーが Googlebot のクロール頻度の抑制に適さない理由
クライアント エラーは、あくまでもクライアントのエラーです。通常はサーバーにエラーがあることを示すものではありません。サーバーに過剰な負荷が生じているわけではなく、また重大なエラーが発生してリクエストに応答できない状態でもありません。単純にクライアントのリクエストになんらかの問題があったことを示しています。たとえば、404
エラーを、サーバーに過剰な負荷が生じている状態とみなすことは不適切です。誰かの誤りでサイトの正しいページにリンクされておらず、その結果 404
エラーが急増して Googlebot のクロール頻度が低下していたのだとすれば、どうでしょうか。これはとても適切な状況とはいえません。同じことが 403
、410
、418
についても言えます。
ただし、この場合も「過剰な数のリクエスト」として解釈される 429
ステータス コードは例外です。
4xx
によるクロール頻度の抑制が Googlebot に与える影響
すべての 4xx
HTTP ステータス コード(この場合も 429
を除きます)が Google 検索からコンテンツが削除される原因となります。さらに、クライアントが robots.txt ファイルをリクエストしたときに 4xx
HTTP ステータス コードが返されると、このファイル自体が存在しないものとして扱われます。仮に秘匿したい情報のクロールを禁止するルールを定めていた場合、そのことを Googlebot が認識することになります。これは双方にとって望ましいことではありません。
Googlebot のクロール頻度を抑える適切な方法
Googlebot のクロール頻度を抑える方法と、Googlebot(および検索インデックス)で各 HTTP ステータス コードを処理する方法について、詳細なドキュメントを用意していますのでご確認ください。このドキュメントでは、以下のどちらかの方法を使用することをおすすめしています。
- Search Console を使用して一時的にクロール頻度を抑える。
-
Googlebot のクロールが過剰な場合に
500
、503
または429
の HTTP ステータス コードを返す。
その他のヒントやより明確な説明が必要な場合は、Twitter でお問い合わせいただくか、ヘルプ フォーラムにご投稿ください。