2019 年 7 月 2 日(火曜日)
昨日、私たちは Google の本番環境用 robots.txt パーサーをオープンソース化することを発表しました。これは、将来実施される可能性がある Google 検索のオープンソース化プロジェクトへの端緒となる素晴らしい瞬間でした。Google では皆様のフィードバックをお待ちしております。特にデベロッパーとウェブマスターの方からのご質問を積極的に募集しています。この投稿では、次に示す特に注目すべき質問に回答します。
crawl-delay などのルールに対するコードハンドラがコードに含まれていないのはなぜですか?
昨日公開したインターネット ドラフトは、標準に含まれていないルールに対応した拡張可能なアーキテクチャを備えています。つまり、クローラが unicorns: allowed
のような独自の行をサポートする必要がある場合は、そうすることができます。これがパーサーでどのように表示されるかを示すため、オープンソースの robots.txt パーサーに、一般的な行である「sitemap」を追加しました。
Google は、パーサー ライブラリをオープンソース化する際に、robots.txt ルールの使用状況を分析しました。特に、crawl-delay
、nofollow
、noindex
など、インターネット ドラフトでサポートされていないルールに注目しました。これらのルールは Google によってドキュメント化されたことがないため、当然ながら Googlebot に関連する使用は非常に少ない件数にとどまっています。さらに詳しく分析すると、インターネット上の robots.txt ファイル全体のうち、0.001% を除くすべてのケースで、それらのルールの使い方が他のルールと矛盾していることがわかりました。これらの誤りは、おそらくウェブマスターの意図に反して、Google の検索結果におけるウェブサイトのプレゼンスを低下させます。
健全なエコシステムを維持し、将来実施される可能性があるオープンソースのリリースに備えるため、Google は 2019 年 9 月 1 日をもって、サポートされていない非公開のルール(noindex
など)を処理するコードをすべて廃止します。クロールを制御する robots.txt
ファイル内の noindex
インデックス登録ルールを使用している場合は、次に示すいくつかの代替オプションを利用できます。
- robots
meta
タグ内のnoindex
: これは、HTTP レスポンス ヘッダーと HTML の両方でサポートされています。クロールが許可されている場合、インデックスから URL を削除する最も効果的な方法は、noindex
ルールを使用することです。 -
HTTP ステータス コード
404
および410
: これらのステータス コードは、いずれもページが存在しないことを示します。クロールされて処理されると、そのような URL は Google のインデックスから削除されます。 - パスワード保護: 定期購入コンテンツまたはペイウォール コンテンツを示すマークアップが使用されている場合を除き、ログインで保護されているページは、通常、Google のインデックスから削除されます。
-
robots.txt
内のDisallow
: 検索エンジンは、ページについて知ることができなければ、そのページをインデックスに登録できません。そのため、ページのクロールをブロックすると、通常、そのページのコンテンツはインデックスに登録されません。検索エンジンは、コンテンツ自体を確認することなく、他のページからのリンクに基づいて URL をインデックスに登録することもあります。Google は、将来的にはそのようなページが検索結果に表示される頻度を減らすことを目指しています。 - Search Console の URL 削除ツール: このツールは、Google の検索結果から URL を一時的に削除する迅速かつ容易な手段です。
Google の検索結果から情報を削除する方法について詳しくは、ヘルプセンターをご覧ください。ご不明な点がありましたら、Twitter とウェブマスター コミュニティでお問い合わせください。オフラインとオンラインの両方で対応しています。