Полезные правила для robots.txt
Ниже перечислено несколько правил, часто используемых в файлах robots.txt.
| Полезные правила | |
|---|---|
| Это правило запрещает сканировать весь сайт |
Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы. User-agent: * Disallow: / |
| Это правило запрещает сканировать каталог со всем его содержимым. |
Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Это правило позволяет сканировать сайт только одному поисковому роботу. |
Сканировать весь сайт может только робот User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Это правило разрешает сканирование всем поисковым роботам за исключением одного. |
Робот User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Это правило запрещает сканирование отдельной страницы. |
Например, можно запретить сканирование страниц User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Это правило запрещает сканировать весь сайт за исключением определенного подкаталога. |
Поисковым роботам предоставлен доступ только к подкаталогу User-agent: * Disallow: / Allow: /public/ |
|
Это правило скрывает определенное изображение от робота Google Картинок. |
Например, вы можете запретить сканировать изображение User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Это правило скрывает все изображения на сайте от робота Google Картинок. |
Google не сможет индексировать изображения и видео, которые недоступны для сканирования. User-agent: Googlebot-Image Disallow: / |
|
Это правило запрещает сканировать все файлы определенного типа. |
Например, вы можете запретить роботам доступ ко всем файлам User-agent: Googlebot Disallow: /*.gif$ |
|
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом |
Робот User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Используйте подстановочные знаки * и $, чтобы сопоставлять URL, которые заканчиваются определенной строкой.
|
Например, вы можете исключить все файлы User-agent: Googlebot Disallow: /*.xls$ |