Что такое лимит на сканирование для робота Googlebot

Понедельник, 16 января 2017 г.

Выражение "лимит на сканирование" в последнее время получило широкое распространение. Это довольно широкое понятие, которое не укладывается в рамки одного термина. Сегодня мы подробнее расскажем, как Googlebot сканирует сайты и что влияет на скорость его работы.

Большинство издателей может не беспокоиться о лимите на сканирование. Если новые страницы на вашем сайте обычно обрабатываются в день публикации, вам не нужно ничего предпринимать. Как правило, Googlebot может сканировать сайты, содержащие даже несколько тысяч URL.

Задавать приоритет обработки и выделять определенные ресурсы сервера для сканирования целесообразно в том случае, если у вас большой сайт или страницы создаются автоматически на основе параметров URL.

Что может ограничивать скорость сканирования

Робот Googlebot настроен таким образом, чтобы при сканировании страниц он не мешал посетителям сайта. Нагрузка на сервер зависит от скорости сканирования, которая определяет, с какой периодичностью Googlebot извлекает данные с веб-страниц.

Иначе говоря, скорость сканирования определяется количеством одновременных подключений, которые Googlebot может установить при обработке сайта, а также интервалом между подключениями. На нее влияют следующие факторы:

Время ответа сайта. Если сайт отправляет ответы без задержек в течение определенного времени, скорость сканирования увеличивается, то есть Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, скорость сканирования снижается.
Ограничение, заданное в Search Console. Владельцы сайтов могут самостоятельно ограничивать скорость сканирования. Обратите внимание, что даже если указать высокое максимальное значение скорости, Googlebot не обязательно станет обрабатывать ваш контент быстрее.

Потребность в сканировании

Даже в случае, когда Googlebot может достичь высокой скорости сканирования, он не будет часто обрабатывать ваши страницы, если в этом нет необходимости. На потребность в сканировании, помимо прочего, влияют два важных фактора:

Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
Давность сканирования. Googlebot посещает URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.

Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL, которые нужно добавить в индекс.

Определив скорость сканирования и потребность в сканировании, Google рассчитывает лимит на сканирование – количество URL, которое робот Googlebot может обработать.

От каких факторов зависит лимит на сканирование

Как показали наши исследования, большое количество URL с низкой ценностью на сайте отрицательно сказывается на его сканировании и индексировании. Такие URL делятся на следующие категории (в порядке убывания ценности):

страницы, на которых используются фасетная навигация и идентификаторы сеанса;
несколько страниц с идентичным контентом на одном сайте;
страницы с ложными сообщениями об ошибках 404;
взломанные страницы;
бесконечные пространства и прокси-серверы;
страницы со спамом или контентом низкого качества.

Обработка таких страниц отнимает ресурсы сервера, в результате действительно важные страницы с ценным контентом могут быть не просканированы вовремя.

Часто задаваемые вопросы

Сайты могут появляться в результатах Google Поиска только после сканирования. Эффективность этого процесса непосредственно влияет на индексирование веб-страниц.

Зависит ли лимит на сканирование от скорости загрузки сайта и ошибок на веб-страницах?

Быстрые сайты более удобны для посетителей, и частота их сканирования выше. На таком сайте робот Googlebot может обработать больше контента при одинаковом количестве подключений. А если сайт часто возвращает ошибки 5xx, скорость сканирования будет низкой.

Мы рекомендуем пользоваться отчетом о статистике сканирования сайтов в Search Console и стараться свести количество ошибок к минимуму.

Скорость сканирования влияет на ранжирование в Поиске?

Положение в результатах поиска Google зависит от сотен различных факторов, поэтому нельзя гарантировать, что высокая скорость сканирования позволит его улучшить.

Учитываются ли в лимите на сканирование альтернативные URL и встроенный контент?

Как правило, обработка любого URL приближает момент, когда лимит на сканирование сайта будет исчерпан. Альтернативные URL, в том числе AMP-страницы и страницы с атрибутами hreflang, a также встроенный контент, например код CSS или JavaScript, включая объекты XMLHttpRequest, могут сканироваться по необходимости, и каждый раз лимит на сканирование будет расходоваться. Как правило, длинные цепочки переадресации также создают проблемы при сканировании.

Учитывает ли Googlebot правило `crawl-delay`?

Googlebot игнорирует директиву crawl-delay в файле robots.txt.

Зависит ли лимит на сканирование от правила `nofollow`?

Это зависит от ситуации. Сканирование любого URL влияет на лимит. Помеченный директивой nofollow URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow на другой странице вашего или чужого сайта.

Зависит ли мой лимит на сканирование от URL, заблокированных в моем файле robots.txt?

Нет, заблокированные таким образом URL никак не влияют на лимит.

В 2009 году мы опубликовали статью о том, как оптимизировать сканирование сайта, и она все ещё актуальна. Если у вас есть вопросы, задавайте их на наших форумах.

Автор: Гэри Ийеш (Gary Illyes), команда сканирования и индексирования

Что такое лимит на сканирование для робота Googlebot Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.