Полезные правила для robots.txt

Ниже перечислено несколько правил, часто используемых в файлах robots.txt.

Полезные правила
Это правило запрещает сканировать весь сайт

Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы.

User-agent: *
Disallow: /
Это правило запрещает сканировать каталог со всем его содержимым.

Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Это правило позволяет сканировать сайт только одному поисковому роботу.

Сканировать весь сайт может только робот googlebot-news.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Это правило разрешает сканирование всем поисковым роботам за исключением одного.

Робот Unnecessarybot не может сканировать сайт, а все остальные могут.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Это правило запрещает сканирование отдельной страницы.

Например, можно запретить сканирование страниц useless_file.html и other_useless_file.html, размещенных в каталогах https://example.com/useless_file.html и junk соответственно.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Это правило запрещает сканировать весь сайт за исключением определенного подкаталога.

Поисковым роботам предоставлен доступ только к подкаталогу public.

User-agent: *
Disallow: /
Allow: /public/

Это правило скрывает определенное изображение от робота Google Картинок.

Например, вы можете запретить сканировать изображение dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Это правило скрывает все изображения на сайте от робота Google Картинок.

Google не сможет индексировать изображения и видео, которые недоступны для сканирования.

User-agent: Googlebot-Image
Disallow: /

Это правило запрещает сканировать все файлы определенного типа.

Например, вы можете запретить роботам доступ ко всем файлам .gif.

User-agent: Googlebot
Disallow: /*.gif$

Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом Mediapartners-Google.

Робот Mediapartners-Google сможет получить доступ к удаленным вами из результатов поиска страницам, чтобы подобрать объявления для показа тому или иному пользователю.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Используйте подстановочные знаки * и $, чтобы сопоставлять URL, которые заканчиваются определенной строкой.

Например, вы можете исключить все файлы .xls.

User-agent: Googlebot
Disallow: /*.xls$