О сканировании в декабре: как и зачем Googlebot сканирует сайты

Вторник, 3 декабря 2024 г.

Вероятно, вы знаете, что прежде чем страница появится в результатах поиска Google, наши алгоритмы должны выполнить ряд операций. Одна из них называется сканированием. Ее выполняет Googlebot – программа, которая работает на серверах Google. Она обнаруживает в интернете URL новых страниц, а также обрабатывает переадресации и анализирует ошибки сети или иные возможные проблемы. Но есть некоторые нюансы, о которых редко упоминают. В течение этого месяца мы раз в неделю будем разбирать некоторые из них, потому что они могут существенно влиять на сканирование ваших сайтов.

Ключевые понятия: что такое сканирование

Во время сканирования поисковый робот находит в интернете новые страницы и повторно посещает обновленные, а также скачивает их. Вот что при этом происходит: Googlebot находит URL страницы и отправляет HTTP-запрос серверу, на котором она размещена. Затем он обрабатывает ответ от сервера (иногда при этом нужно выполнить перенаправления и проанализировать ошибки) и передает содержание страницы в систему индексирования Google.

Но современная веб-страница – это не только HTML-код. Что насчет других ресурсов, из которых она состоит? Как их обработка отражается на лимите на сканирование и кешируются ли они в Google? И одинаково ли наш робот действует на новых страницах и тех, что уже проиндексированы? Сегодня мы ответим на эти и другие вопросы.

Googlebot и сканирование ресурсов страниц

Чтобы обеспечить удобство для пользователей и работу дополнительных функций, на сайтах используется не только HTML-код, но и множество других технологий, например JavaScript и CSS. Когда такая страница открывается в браузере, тот сначала скачивает с ее основного URL HTML-код – данные, на основе которых она отрисовывается. Этот базовый код может содержать ссылки на другие ресурсы (в частности, изображения, видео и код JavaScript или CSS), которые браузер будет загружать, чтобы представить пользователю страницу в ее конечном виде.

Алгоритмы Google делают то же самое, но немного по-другому:

  1. Сначала Googlebot скачивает с основного URL базовый HTML-код страницы.
  2. Затем Googlebot передает HTML-код в WRS (Web Rendering Service – сервис отрисовки веб-страниц).
  3. С помощью Googlebot сервис WRS скачивает ресурсы, на которые есть ссылки в HTML-коде.
  4. WRS на основе скачанных ресурсов собирает конечную версию страницы, как это делает обычный браузер.

Временные интервалы между описанными выше этапами могут быть значительно больше, чем при отрисовке в браузере. Причина в ограничениях, связанных с планированием, например в нагрузке на сервер, на котором размещены ресурсы, необходимые для отрисовки страницы. И здесь пора поговорить о лимите на сканирование.

Сканирование ресурсов, нужных для отрисовки страницы, исчерпывает лимит на сканирование хоста, на котором они размещены. Чтобы компенсировать это, WRS старается кешировать все ресурсы (JavaScript и CSS), на которые есть ссылки на обрабатываемых страницах. Время жизни данных в кеше WRS не зависит от директив кеширования HTTP и может достигать 30 дней. Это предотвращает исчерпание лимита на сканирование, чтобы могли выполняться другие задачи сканирования.

Если вы владелец сайта и беспокоитесь о том, как обработка тех или иных ресурсов затрагивает лимит на сканирование, вот наши советы:

  1. Используйте по возможности меньше ресурсов (но без ущерба для удобства пользователя). Чем меньше ресурсов нужно для отрисовки страницы, тем позже будет исчерпан ее лимит на сканирование.
  2. Используйте параметры очистки кеша обдуманно. Если URL ресурсов меняются, роботу Googlebot обычно приходится сканировать их заново, даже если их содержание осталось прежним. Это приближает достижение лимита на сканирование.
  3. Размещайте ресурсы не на том же хосте, что и сам сайт, а на другом, например в сети доставки контента или субдомене. Тогда лимит на сканирование будет распределен между несколькими хостами.

Все сказанное выше также относится к медийным ресурсам. Если Googlebot или его разновидности Googlebot-Image и Googlebot-Video скачивают их, то лимит на сканирование исчерпывается.

Идея использовать для соблюдения лимита на сканирование файл robots.txt на первый взгляд звучит привлекательно, но запрет на сканирование ресурсов может привести к проблемам при показе страницы. Если WRS не в состоянии скачать важный для отрисовки ресурс, Google Поиск может не получить контент страницы и не присвоить ей позицию в результатах поиска.

Что сканирует Googlebot

Самый лучший источник информации о том, какие ресурсы сканирует Google, – необработанные журналы доступа к сайту. В них перечислены все URL, которые запрашивались браузерами и роботами. Чтобы вы могли найти роботов Google в этих журналах, мы публикуем диапазоны используемых нами IP-адресов в документации для разработчиков.

На втором месте такой источник, как отчет "Статистика сканирования" в Search Console, где сведения упорядочены, например по типам ресурсов и роботов.

Отчет "Статистика сканирования" в Search Console, в котором приведены ресурсы, просканированные роботом Googlebot

Если вас интересуют вопросы, связанные со сканированием и отрисовкой, вы можете обсудить их на форуме Центра Google Поиска. Также мы ждем вас в LinkedIn.


Изменения

  • Изменение от 6 декабря 2024 г. Мы добавили комментарий о том, как получение контента из разных источников влияет на скорость загрузки сайта.

Хотите узнать больше? Прочитайте все записи из серии "О сканировании в декабре"