Не используйте коды ошибок 403 или 404 для ограничения частоты запросов

Пятница, 17 февраля 2023 г.

Мы заметили, что за последние несколько месяцев резко выросло число владельцев сайтов и сетей доставки контента (CDN), которые пытаются снизить частоту сканирования страниц роботом Googlebot с помощью кода 404 и других кодов ошибок клиента 4xx (но не 429).

Самое важное, что вам нужно знать: так делать не надо. Лучше ознакомьтесь с нашей документацией о том, как снизить частоту сканирования роботом Googlebot. Из нее вы узнаете, как можно эффективно регулировать этот параметр.

Кодами 4xx обозначаются ошибки клиента

Коды ошибок 4xx, которые серверы возвращают клиентам, означают, что отправленный на сервер запрос клиента по той или иной причине оказался ошибочным. Большинство ошибок этой категории некритичны, к ним относятся, например, ошибки "Не найдено", "Доступ запрещен", "Я чайник" (код 418). Они не говорят о том, что произошел какой-то сбой на сервере.

Единственным исключением является код 429, который означает "Слишком много запросов". Такая ошибка служит четким сигналом любому правильно настроенному роботу, в том числе Googlebot, что он перегружает сервер и должен работать медленнее.

Почему не стоит использовать ошибки 4xx (кроме 429), чтобы ограничить частоту запросов

Это просто ошибки клиента. Как правило, они не означают, что на сервере произошел сбой, он перегружен или из-за критической ошибки не может ответить на запрос. Это лишь указание на то, что была проблема с запросом клиента. Например, нельзя обоснованно уравнять перегрузку сервера с ошибкой 404. Представьте, если бы это было так: вы получаете кучу ошибок 404 из-за случайных перенаправлений на несуществующие страницы сайта, а Googlebot, в свою очередь, замедляет сканирование. В этом нет ничего хорошего. То же касается и кодов 403, 410, 418.

Повторюсь, что главным исключением является код статуса 429, который означает "Слишком много запросов".

Как ограничение частоты запросов с помощью ошибок 4xx влияет на робота Googlebot

Все коды статусов HTTP 4xx (кроме 429) приведут к тому, что ваш контент будет удален из Google Поиска. Еще хуже то, что если вы также используете код статуса HTTP 4xx для показа файла robots.txt, он будет считаться несуществующим. Если в нем присутствовало правило, которое ограничивало сканирование скрытой информации, теперь роботу Googlebot будет известно о ней, что нежелательно для всех.

Как правильно снизить частоту сканирования роботом Googlebot

Ознакомьтесь с подробной информацией о том, как снизить частоту сканирования и как робот Googlebot (и система индексирования в Поиске) обрабатывает разные коды статусов HTTP. Если вкратце, у вас есть два варианта действий:

Если вам нужны советы или пояснения, свяжитесь с нами в Твиттере или задайте вопрос на наших справочных форумах.