実用的な robots.txt のルール

一般的に役に立つ robots.txt のルールは次のとおりです。

実用的なルール
サイト全体でクロールを禁止する

注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。

User-agent: *
Disallow: /
ディレクトリとその内容のクロールを禁止する

ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
1 つのクローラーに対してのみアクセスを許可する

次の例では、googlebot-news のみがサイト全体をクロールできます。

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する

次の例では、Unnecessarybot はサイトをクロールできず、その他の bot はすべてできます。

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

1 つのウェブページのみクロールを禁止する

次の例では、https://example.com/useless_file.html にある useless_file.html ページと、junk ディレクトリ内の other_useless_file.html を禁止しています。

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

1 つのサブディレクトリを除いてサイト全体のクロールを禁止する

クローラーは public サブディレクトリにのみアクセスできます。

User-agent: *
Disallow: /
Allow: /public/

特定の画像を Google 画像検索からブロックする

次の例では、dogs.jpg という画像のクロールを禁止しています。

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

サイト上のすべての画像を Google 画像検索からブロックする

Google は、クロールすることなく画像や動画をインデックスに登録できません。

User-agent: Googlebot-Image
Disallow: /

特定のファイル形式のファイルに対するクロールを禁止する

次の例では、すべての .gif ファイルのクロールを禁止しています。

User-agent: Googlebot
Disallow: /*.gif$

Mediapartners-Google 以外によるサイト全体のクロールを禁止する

次の例では、ページは検索結果に表示されなくなりますが、Mediapartners-Google ウェブ クローラーは引き続きページを分析して、サイト訪問者に表示する広告を決定できます。

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
ワイルドカードとして *$ を使用すると、特定の文字列で終わる URL を一致させることができます。

次の例では、すべての .xls ファイルのクロールを禁止しています。

User-agent: Googlebot
Disallow: /*.xls$