実用的な robots.txt のルール
一般的に役に立つ robots.txt のルールは次のとおりです。
| 実用的なルール | |
|---|---|
| サイト全体でクロールを禁止する |
注意点として、クロールされていなくてもサイトの URL がインデックスに登録される場合があります。 User-agent: * Disallow: / |
| ディレクトリとその内容のクロールを禁止する |
ディレクトリ全体のクロールを禁止するには、ディレクトリ名の後にスラッシュを付けます。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| 1 つのクローラーに対してのみアクセスを許可する |
次の例では、 User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| 特定の 1 クローラーを除くすべてのクローラーに対してアクセスを許可する |
次の例では、 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
1 つのウェブページのみクロールを禁止する |
次の例では、 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
1 つのサブディレクトリを除いてサイト全体のクロールを禁止する |
クローラーは User-agent: * Disallow: / Allow: /public/ |
|
特定の画像を Google 画像検索からブロックする |
次の例では、 User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
サイト上のすべての画像を Google 画像検索からブロックする |
Google は、クロールすることなく画像や動画をインデックスに登録できません。 User-agent: Googlebot-Image Disallow: / |
|
特定のファイル形式のファイルに対するクロールを禁止する |
次の例では、すべての User-agent: Googlebot Disallow: /*.gif$ |
|
|
次の例では、ページは検索結果に表示されなくなりますが、 User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
ワイルドカードとして * と $ を使用すると、特定の文字列で終わる URL を一致させることができます。 |
次の例では、すべての User-agent: Googlebot Disallow: /*.xls$ |