Руководство по управлению лимитом на сканирование для владельцев крупных сайтов

В этом руководстве описывается, как оптимизировать сканирование роботами Google очень больших сайтов, контент на которых часто меняется.

Если на вашем сайте мало страниц, обновляемых часто, или они обычно сканируются в течение суток после публикации, вам не нужно читать это руководство. Достаточно вовремя обновлять файлы Sitemap и проверять отчет об индексировании.

Если у вас есть контент, который давно размещен на сайте и при этом ни разу не был проиндексирован, воспользуйтесь инструментом проверки URL, чтобы выяснить причины проблемы.

Для кого это руководство

Руководство предназначено для владельцев веб-ресурсов следующих типов:

  • очень большие сайты (от 1 млн уникальных страниц) с достаточно часто (раз в неделю) меняющимся контентом;
  • средние и большие сайты (от 10 тыс. уникальных страниц) с очень часто (ежедневно) меняющимся контентом.

Общая информация о сканировании

Интернет практически бесконечен, и Google не успевает находить и индексировать все существующие URL. По этой причине время, которое отводится на обработку каждого отдельного сайта, ограничено. Существует так называемый лимит на сканирование, который определяет, сколько времени и ресурсов робот Googlebot может затратить на один сайт. Обратите внимание, что не все просканированные страницы сайта индексируются. Google их анализирует, объединяет и определяет, нужно ли их добавлять в индекс.

Лимит на сканирование зависит от двух основных факторов: скорости сканирования и потребности в сканировании.

Скорость сканирования

Робот Googlebot сканирует сайты так, чтобы не перегружать серверы, на которых они размещены. Для этого рассчитывается скорость сканирования, которая определяется максимальным количеством параллельных подключений робота к сайту и интервалом между подключениями. Такой подход позволяет обрабатывать весь важный контент сайта, не перегружая его серверы.

На скорость сканирования влияют следующие факторы:

  • Время ответа сайта. Если в течение определенного времени сайт отправляет ответы без задержек, скорость сканирования увеличивается, то есть робот Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, скорость сканирования снижается.
  • Ограничение, заданное в Search Console. Владельцы сайтов могут самостоятельно ограничивать скорость сканирования. Обратите внимание, что, даже если указать высокое максимальное значение скорости, робот Googlebot не обязательно станет обрабатывать ваш контент быстрее.
  • Возможности Google. У Google очень много компьютеров, однако наши возможности не безграничны. Поэтому мы вынуждены оптимально распределять свои ресурсы.

Потребность в сканировании

Обычно Google отводит на сканирование столько времени, сколько необходимо с учетом размера сайта, периодичности его обновления, востребованности контента и качества страниц.

На потребность в сканировании влияют следующие факторы:

  • Количество страниц на сайте по оценке Google. Если вы не указали иное, робот Googlebot будет пытаться просканировать все обнаруженные на вашем сайте URL. Но если многие из этих URL дублируются или не должны сканироваться по другим причинам (страница удалена, не содержит важных сведений и т. д.), то Google зря потратит время на сбор информации о них. Вы можете помочь нам в оптимизации, указав страницы, которые можно пропустить.
  • Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
  • Давность сканирования. Google старается сканировать URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.

Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL.

Резюме

Google определяет лимит на сканирование сайта с учетом скорости сканирования и потребности в сканировании, составляя список URL, которые можно и нужно обработать. Если потребность в сканировании невелика, то робот Googlebot будет сканировать ваш сайт менее интенсивно даже при возможности увеличить скорость.

Рекомендации

Чтобы повысить эффективность сканирования, следуйте приведенным ниже рекомендациям.

  • Управляйте количеством страниц, подлежащих сканированию. Используйте специальные инструменты, чтобы сообщать Google, какие страницы сканировать, а какие пропустить. Если слишком много времени уйдет на сканирование маловажных URL, робот Googlebot может посчитать нецелесообразным обрабатывать остальные разделы сайта или увеличивать для этого лимит на сканирование.
    • Объедините страницы с идентичным контентом. Пусть поисковые роботы сканируют уникальные материалы, а не уникальные URL.
    • Заблокируйте сканирование URL, которые вы не хотите добавлять в индекс. Некоторые страницы важны для пользователей, но при этом не должны появляться в результатах поиска. Это могут быть страницы с бесконечной прокруткой, которые дублируют информацию, размещенную на других страницах, или версии одной и той же страницы с разной сортировкой. Если вы не можете объединить такие неважные для поиска страницы в соответствии с первым пунктом, заблокируйте их при помощи файла robots.txt или инструмента "Параметры URL" (для страниц с идентичным контентом, различающихся параметрами URL).
    • Возвращайте код ошибки 404 или 410 для окончательно удаленных страниц. Даже если такая страница уже есть в базе данных Google, любой из этих двух кодов будет для поискового робота четким сигналом не сканировать страницу снова. В то же время заблокированные URL долго не удаляются из очереди сканирования и будут сканироваться снова, если вы их разблокируете.
    • Устраните ложные ошибки 404. Поисковый робот не пропускает страницы, возвращающие ложную ошибку 404, а значит ваш лимит на сканирование будет расходоваться нерационально. Найти страницы с ложной ошибкой 404 вам поможет отчет об индексировании.
    • Вовремя обновляйте файлы Sitemap. Google регулярно проверяет эти файлы, так что добавьте в них весь контент, который нужно сканировать. Если на вашем сайте есть обновленный контент, рекомендуем использовать тег <lastmod>.
    • Избегайте длинных цепочек переадресации. Они вызывают проблемы при сканировании.
  • Оптимизируйте страницы для ускорения их загрузки. Если ваши страницы будут загружаться и отрисовываться быстрее, Google сможет просканировать больше контента на вашем сайте.
  • Проверяйте, как сканируется ваш сайт. Следите за тем, доступен ли ваш сайт во время сканирования, и старайтесь оптимизировать процесс.

Как контролировать сканирование и индексирование сайта

Ниже перечислены основные рекомендации, которые позволяют контролировать сканирование.

  1. Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту
  2. Узнайте, есть у вас страницы, которые не сканируются, хотя должны
  3. Проверьте, нужно ли ускорить сканирование определенных разделов сайта
  4. Повысьте эффективность сканирования сайта
  5. Минимизируйте избыточное сканирование сайта

1. Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту

Если вы улучшите доступ к страницам сайта, это необязательно приведет к повышению лимита на его сканирование. Google определяет оптимальную частоту сканирования с учетом потребности в нем, как описано выше. Тем не менее при наличии проблем с доступом робот Googlebot не сможет сканировать сайт так интенсивно, как позволяет лимит.

Диагностика

Откройте отчет о статистике сканирования, чтобы посмотреть историю сканирования вашего сайта роботом Googlebot. Так вы узнаете, когда возникали проблемы. Если в отчете есть ошибки или предупреждения, связанные с доступностью вашего сайта, найдите, где на графиках Доступность хоста запросы робота Googlebot выходят за красную линию. Нажмите на график, чтобы увидеть, какие URL были недоступны, и постарайтесь выяснить причины этого.

Устранение неполадок

  • Вы можете узнать о том, как выявлять и устранять некоторые проблемы с доступностью сайта, из статьи, посвященной отчету о статистике сканирования.
  • Заблокируйте сканирование страниц, которые вы не хотите показывать в результатах поиска. Подробнее…
  • Сократите время загрузки и отрисовки страниц. Подробнее…
  • Увеличьте серверные мощности. Если Google регулярно сканирует ваш сайт с максимально возможной нагрузкой, но некоторые важные URL остаются неохваченными или обновляются реже, чем нужно, увеличьте серверные мощности, чтобы поисковый робот мог параллельно запрашивать больше страниц сайта. Посмотрите историю доступности хоста в отчете о статистике сканирования и выясните, часто ли робот Googlebot превышает максимальную частоту сканирования. При необходимости увеличьте серверные мощности на месяц и проверьте, увеличится ли количество запросов на сканирование за это время.

2. Проверьте, насколько полно просканирован ваш сайт

Google отводит на сканирование вашего сайта столько времени, сколько необходимо для индексирования всего качественного и ценного для пользователей контента, который на нем можно найти. Если робот Googlebot пропускает важные страницы, значит их сканирование запрещено или Google не может их обнаружить, или есть проблемы с доступностью вашего сайта, или Google старается не перегружать ваши серверы.

Диагностика

В Search Console нет данных о сканировании сайта, которые можно отфильтровать по URL или пути, но вы можете узнать, какие URL сканировал робот Googlebot, из журналов сайта. Напоминаем, что добавление просканированных URL в индекс здесь не рассматривается.

В большинстве случаев Google обнаруживает новые страницы на сайте не в день их добавления, а как минимум несколько дней спустя. Исключение составляют некоторые категории ресурсов, контент которых обновляется очень часто, например новостные сайты.

Устранение неполадок

Если добавленные на сайт страницы достаточно долго не сканируются, значит Google не может их обнаружить или вы запретили их сканировать, или достигнут предел нагрузки на ваши серверы, или исчерпан лимит на сканирование.

  1. Сообщите Google о своих новых страницах: добавьте их URL в файлы Sitemap.
  2. Проверьте, не заблокировано ли случайно сканирование этих страниц в правилах файла robots.txt.
  3. Если URL всех пропущенных страниц содержат параметры, проблема может заключаться в настройках инструмента Параметры URL. К сожалению, проверить это невозможно. Именно поэтому мы обычно не рекомендуем использовать указанный инструмент.
  4. Определитесь со своими приоритетами сканирования (то есть рационально расходуйте лимит на сканирование). Отрегулируйте количество страниц, подлежащих сканированию, и повысьте эффективность сканирования сайта.
  5. Убедитесь, что у вас достаточно серверных мощностей. Робот Googlebot уменьшит нагрузку на ваши серверы, если они не будут успевать отвечать на его запросы.

Обратите внимание, что даже просканированные страницы могут не показываться в результатах поиска, если они не представляют ценности для пользователей или их контент никому не интересен.

3. Проверяйте, своевременно ли сканируются обновленные страницы

Если робот Googlebot пропустил новые или обновленные страницы на вашем сайте, вероятно, он их не нашел или не заметил, что они изменились. Ниже описывается, как вы можете сообщить нам о новом контенте.

Мы стремимся выявлять изменения на страницах и индексировать их настолько быстро, насколько это возможно. Новый контент большинства сайтов сканируется и индексируется спустя трое суток или позже. Не рассчитывайте, что ваши страницы будут добавляться в индекс Google уже в день публикации, если вы не размещаете быстро меняющуюся информацию, которая представляет значительную ценность для пользователей (например, новости).

Диагностика

Выяснить, когда робот Googlebot сканировал тот или иной URL, можно из журналов сайта.

Чтобы узнать дату индексирования, используйте инструмент проверки URL или выполните поиск обновленных URL в Google.

Устранение неполадок

Что рекомендуется делать

  • Если на вашем сайте публикуется новостной контент, используйте файл Sitemap для Google Новостей. Отправляйте Google запрос ping после добавления или изменения файла Sitemap.
  • Чтобы сообщить нам об изменении контента, размещенного под уже добавленным в индекс URL, используйте тег <lastmod>.
  • Не усложняйте структуру URL без необходимости. Так роботу Googlebot будет проще находить ваши страницы.
  • Чтобы упростить обнаружение своих страниц, указывайте стандартные, поддающиеся сканированию ссылки в тегах <a>.

Чего следует избегать

  • Не отправляйте один и тот же файл Sitemap несколько раз в день.
  • Не рассчитывайте, что робот Googlebot просканирует все указанные в файле Sitemap страницы или начнет сканирование сразу же. Файлы Sitemap – это полезные подсказки для Google, а не обязательные для выполнения требования.
  • Не добавляйте в файлы Sitemap URL, которые не нужно показывать в результатах поиска. В противном случае ваш лимит на сканирование будет впустую расходоваться на их обработку.

4. Повысьте эффективность сканирования сайта

Ускорьте загрузку сайта

Возможности сканирования Google ограничиваются пропускной способностью, временем и доступностью роботов Googlebot. Если сервер сайта будет отвечать на запросы быстрее, мы сможем просканировать больше страниц на нем. При этом следует учитывать, что Google стремится сканировать только качественный контент. Поэтому, если ускорить скорость загрузки страниц, которые неинтересны пользователям, робот Googlebot не станет сканировать ваш сайт чаще. И наоборот, если выяснится, что мы пропускаем важные для пользователей страницы вашего сайта, то мы можем увеличить ваш лимит на сканирование, чтобы охватить их.

Вот как можно оптимизировать страницы и ресурсы с точки зрения сканирования:

  • Укажите объемные и при этом не представляющие ценности для пользователей ресурсы в файле robots.txt, чтобы робот Googlebot не загружал их. Это могут быть, например, элементы графического оформления страницы, которые не важны для понимания ее содержания.
  • Обеспечьте быструю загрузку страниц.
  • Не используйте длинные цепочки переадресации, так как они вызывают проблемы при сканировании.
  • Значение имеет не только время ответа серверов на запросы, но и время, необходимое на отрисовку страниц, в том числе на загрузку изображений и выполнение скриптов. Учитывайте это, если у вас есть большие или медленно загружаемые ресурсы, которые требуется индексировать.

Скройте URL, которые не должны попадать в результаты поиска

Выделение серверных мощностей на сканирование ненужных страниц может замедлить анализ важных для вас страниц, и новый или обновленный контент, интересный для пользователей, может быть обнаружен со значительной задержкой.

Если на вашем сайте много открытых URL, обработка которых поисковым роботом нежелательна, это может плохо повлиять на сканирование и индексирование сайта. Обычно эти URL относятся к следующим категориям:

Что рекомендуется делать

  • Используйте файл robots.txt, если хотите запретить сканирование страницы или ресурса.
  • Если на нескольких страницах используется общий ресурс (например, изображение или файл JavaScript), указывайте его везде с одним и тем же URL. Тогда Google сможет кешировать ресурс для многократного использования и не запрашивать его по нескольку раз.

Чего следует избегать

  • Не нужно постоянно добавлять в файл robots.txt и удалять из него страницы или каталоги, чтобы перераспределить лимит на сканирование вашего сайта. Используйте файл robots.txt только для страниц и ресурсов, которые вы хотите исключить из результатов поиска Google на продолжительное время.
  • Не нужно часто менять файлы Sitemap или пытаться перераспределить лимит на сканирование сайта с помощью других приемов, позволяющих временно скрыть контент.

5. Ограничивайте интенсивность сканирования в экстренных случаях

Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если перегрузка все-таки случится, вы можете принять меры, описанные ниже.

Диагностика

Проверяйте, не отправляет ли робот Googlebot слишком много запросов серверу вашего сайта.

Устранение неполадок

Вот что рекомендуется делать в экстренных случаях:

  1. Если ваш сервер перегружен, временно отправляйте в ответ на запросы робота Googlebot код статуса HTTP 503 или 429. Робот будет пытаться просканировать те же страницы ещё примерно два дня. Обратите внимание, что если отправлять коды, указывающие на недоступность сайта, дольше нескольких дней, то Google полностью прекратит сканирование ваших страниц или надолго снизит его скорость. Поэтому выполните также следующие шаги.
  2. Снизьте частоту сканирования сайта роботом Googlebot. Для этого необходимо иметь права владельца ресурса. Изменение настроек вступает в силу в течение двух суток. Используйте этот метод, только если диаграмма Доступность хоста > Использование хоста отчета о статистике сканирования показывает, что робот Googlebot перегружал ваш сервер в течение долгого времени.
  3. Когда частота сканирования снизится, перестаньте отправлять код статуса HTTP 503 или 429 в ответ на запросы поискового робота. Если отправлять код 503 больше двух суток, Google удалит недоступные URL из индекса.
  4. Отслеживайте, как меняются статистика сканирования и загруженность сервера. При необходимости увеличьте частоту сканирования или вернитесь к используемой по умолчанию.
  5. Если проблемы со сканированием возникают из-за поискового робота AdsBot, то причина, вероятно, в выбранных вами на сайте страницах для таргетинга динамических поисковых объявлений. Google сканирует такие страницы раз в две недели. Если ресурсы вашего сервера не позволяют поддерживать эту функцию, вам следует либо ограничить количество целевых страниц для таргетинга объявлений, либо увеличить пропускную способность сервера.

Сканирование: мифы и факты

Проверьте, насколько хорошо вы осведомлены о том, как Google сканирует и индексирует сайты.

Сжав файлы Sitemap, можно увеличить лимит на сканирование.
Верно
Неверно
Это не так. Сжатые файлы Sitemap все равно нужно скачать с сервера, так что значительной экономии времени или ресурсов Google это не дает.
Google предпочитает более актуальный контент, поэтому его нужно постоянно обновлять.
Верно
Неверно
Мы оцениваем качество контента, а не время его публикации или изменения. Создавайте и обновляйте контент, когда считаете нужным, но помните, что внесение мелких правок или изменение даты публикации страницы не сделает его более актуальным.
Google предпочитает старый контент и придает ему больше веса, чем новому.
Верно
Неверно
Это не так. Если страница содержит полезную информацию, то неважно, когда она была добавлена на сайт.
Google предпочитает URL без параметров запроса.
Верно
Неверно
URL с параметрами тоже обрабатываются. Однако не забывайте блокировать сканирование одинаковых страниц, URL которых различаются параметрами.
Чем быстрее загружаются и отрисовываются страницы, тем больше может просканировать Google.
Верно
Это так. Наши возможности ограничены временем и количеством поисковых роботов. Чем больше страниц вы можете предоставить по запросам роботов за ограниченное время, тем больше мы просканируем. Однако мы можем уделить дополнительное время сайту с низкой скоростью загрузки, если он содержит много ценной информации. Вам как владельцу сайта важнее обеспечить быструю загрузку страниц не для поискового робота (с целью расширить охват сканирования), а для посетителей. Гораздо проще указать роботу Googlebot, какой контент нужно сканировать в первую очередь, чем каждый раз ждать, пока он просканирует все ваши страницы. Обратите внимание, что сканирование сайта предполагает не только получение его страниц, но и их отрисовку. На нее поисковый робот тоже тратит время. Поэтому, оптимизируя отрисовку страниц, вы повышаете скорость их сканирования.
Неверно
Крупные сайты сканируются чаще, чем небольшие.
Верно
Неверно
Если на сайте есть важная информация, которая часто обновляется, мы сканируем его часто, какого бы размера он ни был.
Чем ближе к главной странице находится контент (в структуре сайта), тем важнее он для Google.
Верно
Отчасти верно
Главная страница сайта зачастую является самой важной. Поэтому страницы, которые напрямую с ней связаны, могут считаться более приоритетными и сканироваться чаще. Однако это не значит, что их позиции будут выше, чем у остальных страниц вашего сайта.
Неверно
Добавляя в URL параметр версии контента, можно заставить Google скорее просканировать страницу снова.
Верно
Отчасти верно
Если добавлять в URL страницы параметр версии, вы сможете побудить Google просканировать ее быстрее. Однако в этом, как правило, нет необходимости, и при отсутствии нового контента выделенные на сканирование ресурсы будут потрачены впустую. Если же вы используете с этой целью параметры версии, то изменять URL следует только при условии, что на страницу действительно был добавлен имеющий значение новый контент.
Неверно
Лимит на сканирование зависит от скорости загрузки сайта и количества ошибок сервера.
Верно
Быстрые сайты более удобны для посетителей, и частота их сканирования выше. На таком сайте робот Googlebot может обработать больше контента при одинаковом количестве подключений. А если сайт часто возвращает ошибки сервера (с кодом 5xx), частота сканирования будет низкой. Мы рекомендуем пользоваться отчетом о статистике сканирования в Search Console и стараться свести количество ошибок к минимуму.
Неверно
Сканирование влияет на позиции сайта в результатах поиска.
Верно
Неверно
Если вы оптимизируете частоту сканирования, это не значит, что ваш сайт займет более высокие позиции в результатах поиска Google. Положение определенной страницы зависит от множества факторов, однако сканирование к их числу не относится, хотя оно и необходимо для ее попадания в результаты поиска.
Лимит на сканирование расходуется при обработке альтернативных URL и встроенного контента.
Верно
Как правило, обработка любого URL приближает момент, когда лимит на сканирование сайта будет исчерпан. Альтернативные URL, в том числе AMP-страницы и страницы с атрибутами hreflang, a также встроенный контент, например код CSS или JavaScript, включая методы XHR fetch, могут сканироваться по необходимости, и каждый раз лимит на сканирование будет расходоваться.
Неверно
Робот Googlebot учитывает директиву crawl-delay.
Верно
Неверно
Googlebot игнорирует директиву crawl-delay в файле robots.txt.
Директива nofollow влияет на лимит на сканирование.
Верно
Отчасти верно
Сканирование любого URL влияет на лимит. Помеченный директивой nofollow URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow на другой странице вашего или чужого сайта.
Неверно