О неподдерживаемых правилах в файлах robots.txt

Вторник, 2 июля 2019 г.

Вчера мы объявили о том, что открываем исходный код синтаксического анализатора Google для файлов robots.txt. Это делает возможным создание проектов с открытым кодом для Поиска. Нам очень важно ваше мнение. Кроме того, мы ждем вопросы от разработчиков и веб-мастеров. А в этой статье мы расскажем, почему в коде нет обработчиков других правил, таких как директива crawl-delay.

В проекте, который мы вчера опубликовали, представлена расширяемая архитектура для нестандартных правил. Это означает, что поисковый робот может поддерживать собственные директивы, например unicorns: allowed. Чтобы продемонстрировать, как это будет выглядеть, мы добавили очень простую строку sitemap в наш анализатор.

Готовя к публикации код библиотеки синтаксического анализатора, мы изучали использование правил в файле robots.txt. В частности, мы обратили внимание на правила, которые не поддерживаются в проекте спецификации, такие как crawl-delay, nofollow и noindex. Поскольку они никогда не были описаны в документации Google, разработчики редко использовали их применительно к роботу Googlebot. Более того, мы обнаружили, что их использование не противоречит другим правилам лишь в 0,001 % всех файлов robots.txt в интернете. Это негативно сказывается на присутствии сайтов в результатах поиска Google.

Для поддержки здоровой экосистемы и для подготовки к потенциальному дальнейшему раскрытию исходного кода нашего ПО с 1 сентября 2019 года мы перестаем использовать весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex). Ниже перечислены альтернативные варианты для тех, кто использует правило noindex в файле robots.txt.

  • Правило noindex в тегах robots (meta). Правило noindex поддерживается как в заголовках HTTP-ответов, так и в HTML и является самым эффективным способом удаления URL из индекса, если сканирование разрешено.
  • Коды статуса HTTP 404 и 410. Оба кода указывают на то, что страницы не существует. После сканирования и обработки такие URL исключаются из индекса Google.
  • Защита паролем. Если доступ к странице заблокирован с помощью пароля, в большинстве случаев она будет удалена из индекса Google. Исключением является разметка для определения подписки или платного контента.
  • Правило Disallow в файле robots.txt. Поисковые системы могут индексировать только те страницы, о которых им известно. Если страницу запрещено сканировать, значит ее контент невозможно проиндексировать. Поисковые системы могут индексировать URL на основе ссылок с других страниц без просмотра контента, однако такие страницы будут менее видимыми.
  • Инструмент удаления URL в Search Console. Быстрый и простой способ временно удалить URL из результатов поиска Google.

Чтобы узнать, как удалить информацию из результатов поиска Google, посетите наш Справочный центр. Задать нам вопросы вы можете в Твиттере и на форуме сообщества веб-мастеров, а также на онлайн- и офлайн-мероприятиях.