Полезные правила для robots.txt

Ниже перечислено несколько правил, часто используемых в файлах robots.txt.

Полезные правила
Это правило запрещает сканировать весь сайт	Обратите внимание, что в некоторых случаях URL сайта могут индексироваться, даже если они не были просканированы. Примечание. Это правило не распространяется на роботов AdsBot, которых нужно указывать явно. User-agent: * Disallow: /
Это правило запрещает сканировать каталог со всем его содержимым.	Чтобы запретить сканирование целого каталога, поставьте косую черту после его названия. Внимание: не используйте файл robots.txt, чтобы ограничить доступ к определенному контенту. Вместо этого используйте аутентификацию посетителей. URL, сканирование которых запрещено в файле robots.txt, все же могут быть проиндексированы. Кроме того, злоумышленники могут посмотреть содержимое файла robots.txt и узнать, где находится контент, который вы хотите скрыть. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Это правило позволяет сканировать сайт только одному поисковому роботу.	Сканировать весь сайт может только робот `googlebot-news`. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Это правило разрешает сканирование всем поисковым роботам за исключением одного.	Робот `Unnecessarybot` не может сканировать сайт, а все остальные могут. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Это правило запрещает сканирование отдельной страницы.	Например, можно запретить сканирование страниц `useless_file.html` и `other_useless_file.html`, размещенных в каталогах `https://example.com/useless_file.html` и `junk` соответственно. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Это правило запрещает сканировать весь сайт за исключением определенного подкаталога.	Поисковым роботам предоставлен доступ только к подкаталогу `public`. User-agent: * Disallow: / Allow: /public/
Это правило скрывает определенное изображение от робота Google Картинок.	Например, вы можете запретить сканировать изображение `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Это правило скрывает все изображения на сайте от робота Google Картинок.	Google не сможет индексировать изображения и видео, которые недоступны для сканирования. User-agent: Googlebot-Image Disallow: /
Это правило запрещает сканировать все файлы определенного типа.	Например, вы можете запретить роботам доступ ко всем файлам `.gif`. User-agent: Googlebot Disallow: /*.gif$
Это правило запрещает сканировать весь сайт, но при этом он может обрабатываться роботом `Mediapartners-Google`.	Робот `Mediapartners-Google` сможет получить доступ к удаленным вами из результатов поиска страницам, чтобы подобрать объявления для показа тому или иному пользователю. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Используйте подстановочные знаки `*` и `$`, чтобы сопоставлять URL, которые заканчиваются определенной строкой.	Например, вы можете исключить все файлы `.xls`. User-agent: Googlebot Disallow: /*.xls$