実用的な robots.txt のルール

一般的に役に立つ robots.txt のルールは次のとおりです。

実用的なルール
サイト全体でクロールを禁止する	注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。注意: これは、各種広告関連クローラーには適用されません（AdsBot クローラーは、明示的に指定する必要があります）。 User-agent: * Disallow: /
ディレクトリとその内容のクロールを禁止する	ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。注意: 非公開コンテンツへのアクセスをブロックする場合は、robots.txt を使用するのではなく、適切な認証方法を使用してください。URL は、robots.txt ファイルで拒否にしていても、クロールされないままインデックスに登録される場合があります。さらに robots.txt ファイルは誰でも閲覧できるので、非公開コンテンツの場所が公開同然となる可能性があります。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
1 つのクローラーに対してのみアクセスを許可する	次の例では、`googlebot-news` のみがサイト全体をクロールできます。 User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する	次の例では、`Unnecessarybot` はサイトをクロールできず、その他の bot はすべてできます。 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
1 つのウェブページのみクロールを禁止する	次の例では、`https://example.com/useless_file.html` にある `useless_file.html` ページと、`junk` ディレクトリ内の `other_useless_file.html` を禁止しています。 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
1 つのサブディレクトリを除いてサイト全体のクロールを禁止する	クローラーは `public` サブディレクトリにのみアクセスできます。 User-agent: * Disallow: / Allow: /public/
特定の画像を Google 画像検索からブロックする	次の例では、`dogs.jpg` という画像のクロールを禁止しています。 User-agent: Googlebot-Image Disallow: /images/dogs.jpg
サイト上のすべての画像を Google 画像検索からブロックする	Google は、クロールすることなく画像や動画をインデックスに登録できません。 User-agent: Googlebot-Image Disallow: /
特定のファイル形式のファイルに対するクロールを禁止する	次の例では、すべての `.gif` ファイルのクロールを禁止しています。 User-agent: Googlebot Disallow: /*.gif$
`Mediapartners-Google` 以外によるサイト全体のクロールを禁止する	次の例では、ページは検索結果に表示されなくなりますが、`Mediapartners-Google` ウェブクローラーは引き続きページを分析して、サイト訪問者に表示する広告を決定できます。 User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
ワイルドカードとして `*` と `$` を使用すると、特定の文字列で終わる URL を一致させることができます。	次の例では、すべての `.xls` ファイルのクロールを禁止しています。 User-agent: Googlebot Disallow: /*.xls$