Понедельник, 1 июля 2019 г.
В течение 25 лет стандарт исключений для роботов (REP) является одним из основных и важных компонентов интернета. С его помощью владельцы могут частично или полностью запретить доступ к своим сайтам для автоматических клиентов, таких как поисковые роботы.
В 1994 году веб-мастер Мартин Костер (Martijn Koster) создал исходный стандарт после того, как поисковые роботы перегрузили его сайт. Стандарт REP был разработан несколькими веб-мастерами и используется поисковыми системами, чтобы владельцам сайтов было проще управлять ресурсами серверов.
Однако REP так и не стал официальным стандартом интернета. Это означает, что на протяжении многих лет разработчики интерпретировали этот протокол по-разному. С момента создания REP не обновлялся, поэтому он не охватывает ситуации, с которыми сталкиваются разработчики сегодня. Это серьезная проблема для владельцев сайтов, поскольку неоднозначные формулировки стандарта затрудняют написание правил.
Мы хотим, чтобы владельцы сайтов и разработчики делали интернет полезным и интересным, а не беспокоились о том, как контролировать поисковых роботов. Поэтому совместно с автором стандарта, веб-мастерами и командами других поисковых систем мы составили документ, в котором описали, как сейчас используется REP, и отправили этот документ в Инженерный совет интернета (IETF).
Предлагаемый проект стандарта REP основан на более чем 20-летнем опыте использования файлов robots.txt для управления роботом Googlebot и другими поисковыми роботами примерно на 500 миллионах сайтов. Более четкие формулировки правил помогут издателям точнее указать, какой контент на сайте нужно сканировать и показывать пользователям. Мы не меняем правила, созданные в 1994 году, а просто определяем все неоднозначные ситуации применения файлов robots.txt, чтобы стандарт REP отвечал требованиям сегодняшнего дня. Ниже перечислены моменты, на которые нужно обратить внимание.
- Файлы robots.txt могут использоваться для всех протоколов передачи информации на основе URI, например для HTTP, FTP и CoAP.
- Разработчики должны обрабатывать как минимум первые 500 кибибайт из файлов robots.txt. Определение максимального размера файла гарантирует, что соединения не будут открыты слишком долго. Это позволит снизить нагрузку на серверы.
- Новое максимальное время кеширования (24 часа) или значение директивы кеширования (если доступно) позволяет владельцам сайтов обновлять файлы robots.txt в любое время, а поисковым роботам – не перегружать сайты запросами robots.txt. Например, в протоколе HTTP для определения времени кеширования могут использоваться заголовки Cache-Control.
- Теперь в спецификации предусмотрено следующее: если файл robots.txt становится недоступным из-за сбоев сервера, известные запрещенные страницы не сканируются в течение достаточно длительного периода.
Кроме того, мы обновили расширенную форму Бэкуса – Наура в проекте документа, чтобы лучше определить синтаксис файла robots.txt, поскольку это имеет ключевое значение для разработчиков, пишущих анализаторы строк.
RFC расшифровывается как "запрос комментариев" и подразумевает следующее: мы отправили проект в Инженерный совет интернета, чтобы получить отзывы от тех, кто определяет развитие интернета. Мы хотим, чтобы владельцы сайтов могли управлять тем, какая информация будет доступна роботу Googlebot и, соответственно, появится в Поиске. Поэтому нам важно знать, что мы все делаем правильно.
Задать нам вопрос, оставить комментарий или просто поздороваться можно в Твиттере и на форуме сообщества веб-мастеров, а также на онлайн- и офлайн-мероприятиях.