Вторник, 2 июля 2019 г.
Вчера мы объявили о том, что открываем исходный код синтаксического анализатора Google для файлов robots.txt.
Это делает возможным создание проектов с открытым кодом для Поиска. Нам очень важно ваше мнение. Кроме того, мы ждем вопросы от разработчиков и веб-мастеров. А в этой статье мы расскажем, почему в коде нет обработчиков других правил, таких как директива crawl-delay.
В проекте, который мы вчера опубликовали, представлена расширяемая архитектура для нестандартных правил. Это означает, что поисковый робот может поддерживать собственные директивы, например unicorns: allowed
. Чтобы продемонстрировать, как это будет выглядеть, мы добавили очень простую строку sitemap в наш анализатор.
Готовя к публикации код библиотеки синтаксического анализатора, мы изучали использование правил в файле robots.txt. В частности, мы обратили внимание на правила, которые не поддерживаются в проекте спецификации, такие как crawl-delay
, nofollow
и noindex
. Поскольку они никогда не были описаны в документации Google, разработчики редко использовали их применительно к роботу Googlebot. Более того, мы обнаружили, что их использование не противоречит другим правилам лишь в 0,001 % всех файлов robots.txt в интернете.
Это негативно сказывается на присутствии сайтов в результатах поиска Google.
Для поддержки здоровой экосистемы и для подготовки к потенциальному дальнейшему раскрытию исходного кода нашего ПО с 1 сентября 2019 года мы перестаем использовать весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex
). Ниже перечислены альтернативные варианты для тех, кто использует правило noindex
в файле robots.txt
.
-
Правило
noindex
в тегах robots (meta
). Правилоnoindex
поддерживается как в заголовках HTTP-ответов, так и в HTML и является самым эффективным способом удаления URL из индекса, если сканирование разрешено. -
Коды статуса HTTP
404
и410
. Оба кода указывают на то, что страницы не существует. После сканирования и обработки такие URL исключаются из индекса Google. - Защита паролем. Если доступ к странице заблокирован с помощью пароля, в большинстве случаев она будет удалена из индекса Google. Исключением является разметка для определения подписки или платного контента.
-
Правило
Disallow
в файлеrobots.txt
. Поисковые системы могут индексировать только те страницы, о которых им известно. Если страницу запрещено сканировать, значит ее контент невозможно проиндексировать. Поисковые системы могут индексировать URL на основе ссылок с других страниц без просмотра контента, однако такие страницы будут менее видимыми. - Инструмент удаления URL в Search Console. Быстрый и простой способ временно удалить URL из результатов поиска Google.
Чтобы узнать, как удалить информацию из результатов поиска Google, посетите наш Справочный центр. Задать нам вопросы вы можете в Твиттере и на форуме сообщества веб-мастеров, а также на онлайн- и офлайн-мероприятиях.