robots.txt のサポートされていないルールに関する注意事項

2019 年 7 月 2 日(火曜日)

昨日、私たちは Google の本番環境用 robots.txt パーサーをオープンソース化することを発表しました。これは、将来実施される可能性がある Google 検索のオープンソース化プロジェクトへの端緒となる素晴らしい瞬間でした。Google では皆様のフィードバックをお待ちしております。特にデベロッパーウェブマスターの方からのご質問を積極的に募集しています。この投稿では、次に示す特に注目すべき質問に回答します。
crawl-delay などのルールに対するコードハンドラがコードに含まれていないのはなぜですか?

昨日公開したインターネット ドラフトは、標準に含まれていないルールに対応した拡張可能なアーキテクチャを備えています。つまり、クローラが unicorns: allowed のような独自の行をサポートする必要がある場合は、そうすることができます。これがパーサーでどのように表示されるかを示すため、オープンソースの robots.txt パーサーに、一般的な行である「sitemap」を追加しました。

Google は、パーサー ライブラリをオープンソース化する際に、robots.txt ルールの使用状況を分析しました。特に、crawl-delaynofollownoindex など、インターネット ドラフトでサポートされていないルールに注目しました。これらのルールは Google によってドキュメント化されたことがないため、当然ながら Googlebot に関連する使用は非常に少ない件数にとどまっています。さらに詳しく分析すると、インターネット上の robots.txt ファイル全体のうち、0.001% を除くすべてのケースで、それらのルールの使い方が他のルールと矛盾していることがわかりました。これらの誤りは、おそらくウェブマスターの意図に反して、Google の検索結果におけるウェブサイトのプレゼンスを低下させます。

健全なエコシステムを維持し、将来実施される可能性があるオープンソースのリリースに備えるため、Google は 2019 年 9 月 1 日をもって、サポートされていない非公開のルール(noindex など)を処理するコードをすべて廃止します。クロールを制御する robots.txt ファイル内の noindex インデックス登録ルールを使用している場合は、次に示すいくつかの代替オプションを利用できます。

  • robots meta タグ内の noindex: これは、HTTP レスポンス ヘッダーと HTML の両方でサポートされています。クロールが許可されている場合、インデックスから URL を削除する最も効果的な方法は、noindex ルールを使用することです。
  • HTTP ステータス コード 404 および 410: これらのステータス コードは、いずれもページが存在しないことを示します。クロールされて処理されると、そのような URL は Google のインデックスから削除されます。
  • パスワード保護: 定期購入コンテンツまたはペイウォール コンテンツを示すマークアップが使用されている場合を除き、ログインで保護されているページは、通常、Google のインデックスから削除されます。
  • robots.txt 内の Disallow: 検索エンジンは、ページについて知ることができなければ、そのページをインデックスに登録できません。そのため、ページのクロールをブロックすると、通常、そのページのコンテンツはインデックスに登録されません。検索エンジンは、コンテンツ自体を確認することなく、他のページからのリンクに基づいて URL をインデックスに登録することもあります。Google は、将来的にはそのようなページが検索結果に表示される頻度を減らすことを目指しています。
  • Search Console の URL 削除ツール: このツールは、Google の検索結果から URL を一時的に削除する迅速かつ容易な手段です。

Google の検索結果から情報を削除する方法について詳しくは、ヘルプセンターをご覧ください。ご不明な点がありましたら、Twitterウェブマスター コミュニティでお問い合わせください。オフラインとオンラインの両方で対応しています。