Открыт исходный код синтаксического анализатора Google для файлов robots.txt

Понедельник, 1 июля 2019 г.

В течение 25 лет стандарт исключений для роботов (REP) являлся стандартом только де-факто. Иногда это имело неприятные последствия. С одной стороны, веб-мастеры не знали, как поступать в тупиковых ситуациях, например, когда текстовый редактор включал символы BOM в файлы robots.txt. С другой стороны, разработчики поисковых роботов и инструментов тоже сталкивались с трудностями, например, не зная, что делать с файлами robots.txt размером в сотни мегабайт.

Распаковка сайта роботом Googlebot

Сегодня мы объявили о том, что прилагаем все усилия, чтобы сделать REP официальным интернет-стандартом. Это очень важный шаг, который подразумевает много дополнительной работы для тех, кому приходится анализировать файлы robots.txt.

Мы открыли исходный код библиотеки C++, которую наша система использует для обработки и сопоставления правил в файлах robots.txt. Этой библиотеке уже около 20 лет, и в ней встречаются фрагменты кода, написанные в 90-х годах. За это время библиотека сильно изменилась. Мы много узнали о том, как веб-мастера создают файлы robots.txt и какие проблемы при этом возникают, и добавили всю собранную информацию в наш проект.

Чтобы вы могли протестировать работу некоторых правил, мы добавили в пакет ПО с открытым исходным кодом специальный инструмент проверки. Его очень легко использовать:

robots_main <robots.txt content> <user_agent> <url>

Если вы хотите воспользоваться библиотекой, перейдите в хранилище GitHub. Расскажите нам, что у вас получилось, оставив комментарий в Твиттере. Если у вас есть вопросы о библиотеке, ищите нас на GitHub.