Снова о роботах: возможности, которые дает файл robots.txt

Пятница, 7 марта 2025 г.

Файл robots.txt активно используется владельцами сайтов уже более 30 лет и совместим с самыми разными операторами поисковых роботов, в частности инструментами, обеспечивающими работу сервисов и поисковых систем. В этой записи из серии Снова о роботах мы подробнее поговорим о файле robots.txt – удобном инструменте, который позволяет регулировать действия роботов на вашем сайте.

Начало работы с файлом robots.txt

Работать с такими файлами несложно. Вам необходимо создать текстовый файл с названием robots.txt и загрузить его на свой сайт. А при использовании системы управления контентом (CMS), вероятно, все будет ещё проще. Если вы допускаете сканирование на всем сайте, вы можете добавить пустой файл robots.txt (или не создавать его вовсе). Если же вам нужно управлять сканированием, добавьте в файл правила. Например, чтобы поисковые роботы (они также называются "пауками") не сканировали страницу добавления в корзину, в файле robots.txt можно указать следующие инструкции:

user-agent: *
disallow: /cart

Что именно можно делать с помощью файла robots.txt

Файл robots.txt – это универсальный способ руководить действиями разных роботов на вашем сайте. В файле может быть как несколько строк, так и развернутые правила, относящиеся лишь к определенным шаблонам URL. Файл robots.txt можно использовать для решения технических проблем, таких как ненужная разбивка на страницы, а также в личных и иных целях, например для запрета на сканирование некоторых разделов. В частности, вам доступны следующие возможности:

Сообщить об одном правиле сразу нескольким роботам (но не всем)

Эта группа предписывает роботам examplebot и otherbot не обрабатывать путь /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Запретить одному роботу доступ к путям, содержащим определенную строку

Например, можно проинструктировать робота documentsbot не сканировать файлы, в названии которых есть расширение .pdf.

user-agent: documentsbot
disallow: *.pdf

Разрешить определенному роботу сканировать блог, но запретить доступ к материалам в статусе черновика

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Лишить определенного робота доступа к части сайта, но предоставить остальным доступ ко всему сайту

Файл robots.txt разрешает роботу aicorp-trainer-bot доступ только к главной странице, а остальным – ко всему ресурсу.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Оставить комментарий на будущее

Строка, которая начинается с символа #, напомнит вам о том, почему вы добавили то или иное правило.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Вы также можете ознакомиться со списком полезных правил, используемых в файлах robots.txt.

Как изменять файл robots.txt

Вы можете воспользоваться стандартом исключений для роботов. Для этого подготовьте правила (allow или disallow) и укажите, для каких роботов они должны действовать. Нет необходимости осваивать программирование или пользоваться инструментами – достаточно добавить правила в текстовый файл и загрузить его на сайт.

На большинстве сайтов все даже проще. Если вы используете систему управления контентом, в ней уже, вероятно, предусмотрено решение, которое позволяет изменить файл robots.txt. Например, в некоторых подобных системах можно изменить файл robots.txt, установив нужные флажки или заполнив простую форму, а также воспользоваться различными плагинами, которые предназначены для подготовки правил для файла robots.txt. Чтобы узнать, какие возможности предусмотрены в вашей системе управления контентом, выполните поиск, указав в запросе название CMS и текст "изменить файл robots.txt".

Установив необходимые настройки, вы можете проверить файл разными средствами, например инструментом с сайта TametheBot и синтаксическим анализатором файлов robots.txt. Оба они работают на базе библиотеки синтаксических анализаторов файлов robots.txt с открытым исходным кодом.

Если у вас есть вопросы о файле robots.txt, вы можете задать их в LinkedIn или пообщаться с квалифицированными специалистами на форуме сообщества.


Посмотрите другие записи из серии "Снова о роботах":