2025 年 2 月 24 日(月曜日)
robots.txt や robots メタタグ、そしてそれらが提供する管理機能について質問を受けることがあります。12 月のクロール情報シリーズに続き、今回は簡単なおさらいをまとめてみようと思います。これらの管理機能について興味をお持ちの方は、ぜひ今回のブログ投稿シリーズをお読みください。
最初に、robots.txt から始めましょう。
robots.txt とは何か
「robots.txt」は、どのウェブサイトも提供できるファイルです。一番簡単な形式では、robots.txt はサーバーにテキスト ファイルで格納してあります。ほとんどすべてのウェブサイトに robots.txt ファイルがあります。ファイルを見るには、ドメイン名の末尾に /robots.txt
を加えたアドレスをブラウジングします。たとえば、このウェブサイトの robots.txt ファイルは developers.google.com/robots.txt
にあります。
ほとんどのウェブサイトはコンテンツ マネジメント システム(CMS)を使っているため、これらのファイルが自動的に作られますが、「手動」でウェブサイトを作成している場合でもファイル作成は簡単です。今後の投稿で、さまざまなパターンを紹介する予定です。
ファイルの目的
robots.txt ファイルは、ウェブサイトのどの部分に自動アクセス(Google ではこれをクロールと呼んでいます)できるか、どの部分にはできないかを、ウェブサイトのクローラーに伝えるものです。サイト全体のすべてに対するアクセスを許可したり、サイトの一部、またはサイト内の特定のファイルに限定してアクセスを許可したりできます。robots.txt ファイルは、機械で読み取り可能なだけでなく、人も読むことができます。つまり、特定のクローラーがページに自動アクセスするのを許可するかどうかについて、常にはっきりと可否についての回答が得られることになります。
一般的にクローラーの作成者はこれらのディレクティブを遵守します。デベロッパーは、1,000 以上のオープンソース ライブラリを利用して、簡単に対応できます。robots.txt はクローラーに対して、ウェブサイトの最適なクロール方法を指示します。最新のウェブサイトは複雑なものもあり、自動的に移動させるのは難しい場合がありますが、robots.txt のルールを利用すれば、クローラーが適切なコンテンツに集中できるようになります。また、サーバーに負荷をかけ、不必要に非効率なクロールをさせる可能性のある動的に生成されるページを、クローラーが避けることもできるようになります。robots.txt ファイルは、技術的にもウェブサイトの所有者との関係にも役立つため、ほとんどの商業的クローラー運営者がサポートしています。
公開コミュニティによる構築と拡張
robots.txt は、インターネットができたころから存在しており、インターネットがインターネットとして機能するために不可欠なツールの一つです。ウェブページの基盤である HTML は 1991 年に発明され、最初のブラウザは 1992 年に、robots.txt は 1994 年に登場しました。つまり、1998 年に創業した Google よりも前から存在しています。当時からフォーマットはほとんど変わっておらず、初期の頃からあるファイルは今でも有効です。グローバル コミュニティでの 3 年間の活動を経て、2022 年には IETF の Proposed Standard(提案された標準)になりました。
ウェブサイトがあれば、おそらく robots.txt ファイルもあります。robots.txt に関しては活気あふれる活動的なコミュニティがあり、robots.txt を作成、テスト、管理したり、どのような形式やサイズの robots.txt ファイルでも解析したりできる、何千ものソフトウェア ツールがあります。robots.txt のメリットは特別なツールが必要ないことです。ブラウザでファイルを読むことができ、自分で管理しているウェブサイトであればシンプルなテキスト エディタで調整することもできます。
今後の展望...
robots.txt の形式には柔軟性があります。機能拡大の余地があり、一般のウェブ コミュニティによる拡張が可能です。クローラーは、既存の使用方法を無効にすることなく、必要に応じて機能の拡張を発表できます。実際、2007 年に、検索エンジンが「sitemap」ディレクティブを発表しました。また、クローラー運営者や検索エンジンが AI を利用する目的などで新しい「ユーザー エージェント」をサポートするようになるなか、定期的に拡張が行われています。
robots.txt は今後も浸透していくでしょう。新しいファイル形式がより大きなインターネット コミュニティで最終的に承認されるには数年かかり、エコシステムにとって使いやすい適正なツールが作られるにはさらに時間がかかります。robots.txt は簡単で、詳細に表現力高く作成でき、広く知られて受け入れられています。そして、現在まで数十年にわたって機能し続けているとおり、機能的です。
詳細について興味をお持ちの方は、検索セントラル ブログに掲載される今後の「ロボットに関する復習」シリーズをご覧ください。