Пятница, 14 марта 2025 г.
Файл robots.txt – это удобный инструмент, позволяющий управлять доступом поисковых роботов к тем или иным разделам сайта.
Чтобы владельцам сайтов было проще сообщать поисковым системам и роботам, какие страницы ресурсов можно сканировать, разработчики веб-стандартов предложили использовать теги meta
с атрибутом robots. Это произошло в 1996 г. – всего через несколько месяцев после того, как в языке HTML появился тег meta
(и была основана компания Google, но это совпадение). А несколько позже были добавлены заголовки HTTP-ответа X-Robots-Tag
.
Они передаются вместе с URL, и поисковые роботы учитывают их, только если файл robots.txt не запрещает сканировать такие адреса. В совокупности все подобные инструкции образуют стандарт исключений для роботов (REP).
Общая информация о теге meta
с атрибутом robots
Теги meta используются, когда нужно добавить машиночитаемые метаданные.
Тег meta
с атрибутом robots – это разновидность тега meta
, которая передает различным роботам, в том числе поисковым, информацию о том, разрешено ли индексирование контента и следует ли переходить по ссылкам на странице в целях сканирования. Предоставлять подобные инструкции очень удобно прямо на странице в тегах meta
с атрибутом robots.
Универсальный стандарт исключений для роботов
Чтобы аналогичным образом можно было управлять контентом не в формате HTML, был создан заголовок HTTP-ответа X-Robots-Tag
. Подобные заголовки HTTP также относятся к стандарту исключений для роботов.
Заголовок поддерживает те же значения, что и тег meta
с атрибутом robots, и совместим с любым контентом, который размещен в интернете.
В частности, такие заголовки можно добавлять как к HTML-контенту, так и к документам в форматах PDF, DOC и даже изображениям.
Заголовок HTTP-ответа полезен в подобных случаях, так как для большинства файлов таких форматов нет решений, действующих аналогично тегам meta
.
Как начать использовать заголовки и теги meta
с атрибутом robots
Синтаксис заголовков прост и поддается расширению. Правила обычно создаются веб-разработчиком. Также их можно внедрить через систему управления контентом (CMS) – для этого владелец сайта сможет использовать флажки или раскрывающиеся меню. Правила могут действовать либо для определенного поискового робота, например Googlebot, либо для всех роботов, которые поддерживают заданные значения. Во втором случае можно исключить роботов, на которые правила распространяться не должны.
Ниже приведены примеры правил, которые запрещают всем поисковым роботам индексировать определенную страницу.
- Тег
meta
формата HTML на веб-странице<meta name="robots" content="noindex">
Изучать теги
meta
и заголовки ответов довольно непросто. Для этого необходимо просматривать непосредственно контент или заголовки на страницах. Тегиmeta
формата HTML можно посмотреть на любой странице – достаточно обратиться к коду страницы или воспользоваться инструментами разработчика Chrome, предназначенными для проверки страниц.
- Заголовок HTTP-ответа
X-Robots-Tag: noindex
Заголовки HTTP-ответов для определенных URL можно просматривать на панели Сеть в инструментах разработчика Chrome.
Дополнительные примеры возможных действий
Не показывать фрагмент страницы или документа. |
В заголовке HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Страница не будет индексироваться роботом Инструкции относятся лишь к одному поисковому роботу. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Робот В каждом случае действуют наиболее строгие правила, поэтому к роботу |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Как выбрать механизм REP
В целом между файлом robots.txt и элементами управления на уровне страницы существуют лишь небольшие различия. Некоторые действия можно выполнить лишь с помощью одного механизма. Например, чтобы запросить прекращение сканирования (для страниц с бесконечными результатами поиска) или управлять FTP-сервером, нужно воспользоваться файлом robots.txt, а чтобы запретить показ фрагмента на странице – элементами управления на уровне страницы. Если вам безразлично, что именно запрещать (сканирование или индексирование), то файл robots.txt больше подойдет для блокировки разделов сайта, а элементы управления на уровне страницы – для блокировки отдельных страниц.
Современный и эффективный стандарт исключений для роботов
Все элементы управления, о которых мы рассказали, постоянно развиваются благодаря совместным усилиям владельцем сайтов и операторов поисковых роботов и систем.
Изначально использовалось лишь несколько значений, таких как noindex
и nofollow
. К ним постепенно добавились и другие, например nosnippet
, noarchive
и max-snippet:
.
А некоторые значения упразднялись. Например, была прекращена поддержка значения noodp
, для которого использовались фрагменты из закрытого впоследствии каталога Open Directory Project (DMOZ).
Владельцы сайтов могут использовать множество значений, которые поддерживаются или роботами Google, или операторами других крупных поисковых роботов.
Используя стандарт исключений для роботов, владельцы сайтов могут управлять тем, какие разделы их ресурсов доступны для сканирования и как собранные роботами данные применяются в поисковых системах. Настройки можно задавать как для целых разделов сайтов, так и для отдельных страниц – и даже для изображений на страницах. Сегодня такие настройки хорошо известны в отрасли, доступны во всех распространенных системах управления контентом, поддерживаются многими операторами роботов и используются на миллиардах хостов в интернете.