Более строгая спецификация стандарта исключений для роботов

Понедельник, 1 июля 2019 г.

В течение 25 лет стандарт исключений для роботов (REP) является одним из основных и важных компонентов интернета. С его помощью владельцы могут частично или полностью запретить доступ к своим сайтам для автоматических клиентов, таких как поисковые роботы.

В 1994 году веб-мастер Мартин Костер (Martijn Koster) создал исходный стандарт после того, как поисковые роботы перегрузили его сайт. Стандарт REP был разработан несколькими веб-мастерами и используется поисковыми системами, чтобы владельцам сайтов было проще управлять ресурсами серверов.

Однако REP так и не стал официальным стандартом интернета. Это означает, что на протяжении многих лет разработчики интерпретировали этот протокол по-разному. С момента создания REP не обновлялся, поэтому он не охватывает ситуации, с которыми сталкиваются разработчики сегодня. Это серьезная проблема для владельцев сайтов, поскольку неоднозначные формулировки стандарта затрудняют написание правил.

Мы хотим, чтобы владельцы сайтов и разработчики делали интернет полезным и интересным, а не беспокоились о том, как контролировать поисковых роботов. Поэтому совместно с автором стандарта, веб-мастерами и командами других поисковых систем мы составили документ, в котором описали, как сейчас используется REP, и отправили этот документ в Инженерный совет интернета (IETF).

Предлагаемый проект стандарта REP основан на более чем 20-летнем опыте использования файлов robots.txt для управления роботом Googlebot и другими поисковыми роботами примерно на 500 миллионах сайтов. Более четкие формулировки правил помогут издателям точнее указать, какой контент на сайте нужно сканировать и показывать пользователям. Мы не меняем правила, созданные в 1994 году, а просто определяем все неоднозначные ситуации применения файлов robots.txt, чтобы стандарт REP отвечал требованиям сегодняшнего дня. Ниже перечислены моменты, на которые нужно обратить внимание.

Файлы robots.txt могут использоваться для всех протоколов передачи информации на основе URI, например для HTTP, FTP и CoAP.
Разработчики должны обрабатывать как минимум первые 500 кибибайт из файлов robots.txt. Определение максимального размера файла гарантирует, что соединения не будут открыты слишком долго. Это позволит снизить нагрузку на серверы.
Новое максимальное время кеширования (24 часа) или значение директивы кеширования (если доступно) позволяет владельцам сайтов обновлять файлы robots.txt в любое время, а поисковым роботам – не перегружать сайты запросами robots.txt. Например, в протоколе HTTP для определения времени кеширования могут использоваться заголовки Cache-Control.
Теперь в спецификации предусмотрено следующее: если файл robots.txt становится недоступным из-за сбоев сервера, известные запрещенные страницы не сканируются в течение достаточно длительного периода.

Кроме того, мы обновили расширенную форму Бэкуса – Наура в проекте документа, чтобы лучше определить синтаксис файла robots.txt, поскольку это имеет ключевое значение для разработчиков, пишущих анализаторы строк.

RFC расшифровывается как "запрос комментариев" и подразумевает следующее: мы отправили проект в Инженерный совет интернета, чтобы получить отзывы от тех, кто определяет развитие интернета. Мы хотим, чтобы владельцы сайтов могли управлять тем, какая информация будет доступна роботу Googlebot и, соответственно, появится в Поиске. Поэтому нам важно знать, что мы все делаем правильно.

Задать нам вопрос, оставить комментарий или просто поздороваться можно в Твиттере и на форуме сообщества веб-мастеров, а также на онлайн- и офлайн-мероприятиях.

Авторы: Хеннер Целлер (Henner Zeller), Лиззи Сассман (Lizzi Sassman) и Гэри Ийеш (Gary Illyes)