robots.txt のサポートされていないルールに関する注意事項

2019 年 7 月 2 日（火曜日）

昨日、Google の本番環境用 robots.txt パーサーのオープンソース化を発表しました。これは、今後 Google 検索のオープンソースに向けて始動するプロジェクトの端諸となる素晴らしい瞬間でした。皆様のフィードバックをお待ちしております。特にデベロッパーとウェブマスターの方からのご質問を積極的に募集しています。この投稿では、次に示す特に注目すべき質問に回答します。
crawl-delay などのルールに対するコードハンドラがコードに含まれていないのはなぜですか？

昨日公開したインターネットドラフトは、標準に含まれていないルールに対応した拡張可能なアーキテクチャを備えています。つまり、クローラが unicorns: allowed のような独自の行をサポートする必要がある場合は、そうすることができます。これがパーサーでどのように表示されるかを示すため、オープンソースの robots.txt パーサーに、一般的な行である「sitemap」を追加しました。

Google は、パーサーライブラリをオープンソース化する際に、robots.txt ルールの使用状況を分析しました。特に、crawl-delay、nofollow、noindex など、インターネットドラフトでサポートされていないルールに注目しました。これらのルールは Google によってドキュメント化されたことがないため、当然ながら Googlebot に関連する使用は非常に少ない件数にとどまっています。さらに詳しく分析すると、インターネット上の robots.txt ファイル全体のうち、0.001% を除くすべてのケースで、それらのルールの使い方が他のルールと矛盾していることがわかりました。これらの誤りは、おそらくウェブマスターの意図に反して、Google の検索結果におけるウェブサイトのプレゼンスを低下させます。

健全なエコシステムを維持し、将来実施される可能性があるオープンソースのリリースに備えるため、Google は 2019 年 9 月 1 日をもって、サポートされていない非公開のルール（noindex など）を処理するコードをすべて廃止します。クロールを制御する robots.txt ファイル内の noindex インデックス登録ルールを使用している場合は、次に示すいくつかの代替オプションを利用できます。

robots meta タグ内の noindex: これは、HTTP レスポンスヘッダーと HTML の両方でサポートされています。クロールが許可されている場合、インデックスから URL を削除する最も効果的な方法は、noindex ルールを使用することです。
HTTP ステータスコード 404 および 410: これらのステータスコードは、いずれもページが存在しないことを示します。クロールされて処理されると、そのような URL は Google のインデックスから削除されます。
パスワード保護: 定期購入コンテンツまたはペイウォールコンテンツを示すマークアップが使用されている場合を除き、ログインで保護されているページは、通常、Google のインデックスから削除されます。
robots.txt 内の Disallow: 検索エンジンは、ページについて知ることができなければ、そのページをインデックスに登録できません。そのため、ページのクロールをブロックすると、通常、そのページのコンテンツはインデックスに登録されません。検索エンジンは、コンテンツ自体を確認することなく、他のページからのリンクに基づいて URL をインデックスに登録することもあります。Google は、将来的にはそのようなページが検索結果に表示される頻度を減らすことを目指しています。
Search Console の URL 削除ツール: このツールは、Google の検索結果から URL を一時的に削除する迅速かつ容易な手段です。

Google の検索結果から情報を削除する方法について詳しくは、ヘルプセンターをご覧ください。ご不明な点がありましたら、Twitter とウェブマスターコミュニティでお問い合わせください。オフラインとオンラインの両方で対応しています。

Posted by Gary Illyes

robots.txt のサポートされていないルールに関する注意事項 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

robots.txt のサポートされていないルールに関する注意事項