Серия "Снова о роботах" – настройки на уровне страницы

Пятница, 14 марта 2025 г.

Файл robots.txt – это удобный инструмент, позволяющий управлять доступом поисковых роботов к тем или иным разделам сайта. Чтобы владельцам сайтов было проще сообщать поисковым системам и роботам, какие страницы ресурсов можно сканировать, разработчики веб-стандартов предложили использовать теги meta с атрибутом robots. Это произошло в 1996 г. – всего через несколько месяцев после того, как в языке HTML появился тег meta (и была основана компания Google, но это совпадение). А несколько позже были добавлены заголовки HTTP-ответа X-Robots-Tag. Они передаются вместе с URL, и поисковые роботы учитывают их, только если файл robots.txt не запрещает сканировать такие адреса. В совокупности все подобные инструкции образуют стандарт исключений для роботов (REP).

Общая информация о теге meta с атрибутом robots

Теги meta используются, когда нужно добавить машиночитаемые метаданные. Тег meta с атрибутом robots – это разновидность тега meta, которая передает различным роботам, в том числе поисковым, информацию о том, разрешено ли индексирование контента и следует ли переходить по ссылкам на странице в целях сканирования. Предоставлять подобные инструкции очень удобно прямо на странице в тегах meta с атрибутом robots.

Универсальный стандарт исключений для роботов

Чтобы аналогичным образом можно было управлять контентом не в формате HTML, был создан заголовок HTTP-ответа X-Robots-Tag. Подобные заголовки HTTP также относятся к стандарту исключений для роботов. Заголовок поддерживает те же значения, что и тег meta с атрибутом robots, и совместим с любым контентом, который размещен в интернете. В частности, такие заголовки можно добавлять как к HTML-контенту, так и к документам в форматах PDF, DOC и даже изображениям. Заголовок HTTP-ответа полезен в подобных случаях, так как для большинства файлов таких форматов нет решений, действующих аналогично тегам meta.

Как начать использовать заголовки и теги meta с атрибутом robots

Синтаксис заголовков прост и поддается расширению. Правила обычно создаются веб-разработчиком. Также их можно внедрить через систему управления контентом (CMS) – для этого владелец сайта сможет использовать флажки или раскрывающиеся меню. Правила могут действовать либо для определенного поискового робота, например Googlebot, либо для всех роботов, которые поддерживают заданные значения. Во втором случае можно исключить роботов, на которые правила распространяться не должны.

Ниже приведены примеры правил, которые запрещают всем поисковым роботам индексировать определенную страницу.

  • Тег meta формата HTML на веб-странице
    <meta name="robots" content="noindex">

    Изучать теги meta и заголовки ответов довольно непросто. Для этого необходимо просматривать непосредственно контент или заголовки на страницах. Теги meta формата HTML можно посмотреть на любой странице – достаточно обратиться к коду страницы или воспользоваться инструментами разработчика Chrome, предназначенными для проверки страниц.

  • Заголовок HTTP-ответа
    X-Robots-Tag: noindex

    Заголовки HTTP-ответов для определенных URL можно просматривать на панели Сеть в инструментах разработчика Chrome.

Дополнительные примеры возможных действий

Не показывать фрагмент страницы или документа.

В заголовке HTTP:
X-Robots-Tag: nosnippet
или в коде HTML:
<meta name="robots" content="nosnippet">

Страница не будет индексироваться роботом ExampleBot-News Для остальных роботов никаких инструкций нет.

Инструкции относятся лишь к одному поисковому роботу.

X-Robots-Tag: examplebot-news: noindex
или
<meta name="examplebot-news" content="noindex">

Робот ExampleBot не будет показывать фрагмент, а всем остальным роботам запрещено переходить по ссылкам со страницы.

В каждом случае действуют наиболее строгие правила, поэтому к роботу ExampleBot будет применено объединенное правило следующего вида: nosnippet, nofollow.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
или
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Как выбрать механизм REP

В целом между файлом robots.txt и элементами управления на уровне страницы существуют лишь небольшие различия. Некоторые действия можно выполнить лишь с помощью одного механизма. Например, чтобы запросить прекращение сканирования (для страниц с бесконечными результатами поиска) или управлять FTP-сервером, нужно воспользоваться файлом robots.txt, а чтобы запретить показ фрагмента на странице – элементами управления на уровне страницы. Если вам безразлично, что именно запрещать (сканирование или индексирование), то файл robots.txt больше подойдет для блокировки разделов сайта, а элементы управления на уровне страницы – для блокировки отдельных страниц.

Современный и эффективный стандарт исключений для роботов

Все элементы управления, о которых мы рассказали, постоянно развиваются благодаря совместным усилиям владельцем сайтов и операторов поисковых роботов и систем. Изначально использовалось лишь несколько значений, таких как noindex и nofollow. К ним постепенно добавились и другие, например nosnippet, noarchive и max-snippet:. А некоторые значения упразднялись. Например, была прекращена поддержка значения noodp, для которого использовались фрагменты из закрытого впоследствии каталога Open Directory Project (DMOZ). Владельцы сайтов могут использовать множество значений, которые поддерживаются или роботами Google, или операторами других крупных поисковых роботов.

Используя стандарт исключений для роботов, владельцы сайтов могут управлять тем, какие разделы их ресурсов доступны для сканирования и как собранные роботами данные применяются в поисковых системах. Настройки можно задавать как для целых разделов сайтов, так и для отдельных страниц – и даже для изображений на страницах. Сегодня такие настройки хорошо известны в отрасли, доступны во всех распространенных системах управления контентом, поддерживаются многими операторами роботов и используются на миллиардах хостов в интернете.


Посмотрите другие записи из серии "Снова о роботах":