Вторник, 3 декабря 2024 г.
Вероятно, вы знаете, что прежде чем страница появится в результатах поиска Google, наши алгоритмы должны выполнить ряд операций. Одна из них называется сканированием. Ее выполняет Googlebot – программа, которая работает на серверах Google. Она обнаруживает в интернете URL новых страниц, а также обрабатывает переадресации и анализирует ошибки сети или иные возможные проблемы. Но есть некоторые нюансы, о которых редко упоминают. В течение этого месяца мы раз в неделю будем разбирать некоторые из них, потому что они могут существенно влиять на сканирование ваших сайтов.
Ключевые понятия: что такое сканирование
Во время сканирования поисковый робот находит в интернете новые страницы и повторно посещает обновленные, а также скачивает их. Вот что при этом происходит: Googlebot находит URL страницы и отправляет HTTP-запрос серверу, на котором она размещена. Затем он обрабатывает ответ от сервера (иногда при этом нужно выполнить перенаправления и проанализировать ошибки) и передает содержание страницы в систему индексирования Google.
Но современная веб-страница – это не только HTML-код. Что насчет других ресурсов, из которых она состоит? Как их обработка отражается на лимите на сканирование и кешируются ли они в Google? И одинаково ли наш робот действует на новых страницах и тех, что уже проиндексированы? Сегодня мы ответим на эти и другие вопросы.
Googlebot и сканирование ресурсов страниц
Чтобы обеспечить удобство для пользователей и работу дополнительных функций, на сайтах используется не только HTML-код, но и множество других технологий, например JavaScript и CSS. Когда такая страница открывается в браузере, тот сначала скачивает с ее основного URL HTML-код – данные, на основе которых она отрисовывается. Этот базовый код может содержать ссылки на другие ресурсы (в частности, изображения, видео и код JavaScript или CSS), которые браузер будет загружать, чтобы представить пользователю страницу в ее конечном виде.
Алгоритмы Google делают то же самое, но немного по-другому:
- Сначала Googlebot скачивает с основного URL базовый HTML-код страницы.
- Затем Googlebot передает HTML-код в WRS (Web Rendering Service – сервис отрисовки веб-страниц).
- С помощью Googlebot сервис WRS скачивает ресурсы, на которые есть ссылки в HTML-коде.
- WRS на основе скачанных ресурсов собирает конечную версию страницы, как это делает обычный браузер.
Временные интервалы между описанными выше этапами могут быть значительно больше, чем при отрисовке в браузере. Причина в ограничениях, связанных с планированием, например в нагрузке на сервер, на котором размещены ресурсы, необходимые для отрисовки страницы. И здесь пора поговорить о лимите на сканирование.
Сканирование ресурсов, нужных для отрисовки страницы, исчерпывает лимит на сканирование хоста, на котором они размещены. Чтобы компенсировать это, WRS старается кешировать все ресурсы (JavaScript и CSS), на которые есть ссылки на обрабатываемых страницах. Время жизни данных в кеше WRS не зависит от директив кеширования HTTP и может достигать 30 дней. Это предотвращает исчерпание лимита на сканирование, чтобы могли выполняться другие задачи сканирования.
Если вы владелец сайта и беспокоитесь о том, как обработка тех или иных ресурсов затрагивает лимит на сканирование, вот наши советы:
- Используйте по возможности меньше ресурсов (но без ущерба для удобства пользователя). Чем меньше ресурсов нужно для отрисовки страницы, тем позже будет исчерпан ее лимит на сканирование.
- Используйте параметры очистки кеша обдуманно. Если URL ресурсов меняются, роботу Googlebot обычно приходится сканировать их заново, даже если их содержание осталось прежним. Это приближает достижение лимита на сканирование.
- Размещайте ресурсы не на том же хосте, что и сам сайт, а на другом, например в сети доставки контента или субдомене. Тогда лимит на сканирование будет распределен между несколькими хостами.
Все сказанное выше также относится к медийным ресурсам. Если Googlebot или его разновидности Googlebot-Image
и Googlebot-Video
скачивают их, то лимит на сканирование исчерпывается.
Идея использовать для соблюдения лимита на сканирование файл robots.txt на первый взгляд звучит привлекательно, но запрет на сканирование ресурсов может привести к проблемам при показе страницы. Если WRS не в состоянии скачать важный для отрисовки ресурс, Google Поиск может не получить контент страницы и не присвоить ей позицию в результатах поиска.
Что сканирует Googlebot
Самый лучший источник информации о том, какие ресурсы сканирует Google, – необработанные журналы доступа к сайту. В них перечислены все URL, которые запрашивались браузерами и роботами. Чтобы вы могли найти роботов Google в этих журналах, мы публикуем диапазоны используемых нами IP-адресов в документации для разработчиков.
На втором месте такой источник, как отчет "Статистика сканирования" в Search Console, где сведения упорядочены, например по типам ресурсов и роботов.
Если вас интересуют вопросы, связанные со сканированием и отрисовкой, вы можете обсудить их на форуме Центра Google Поиска. Также мы ждем вас в LinkedIn.
Изменения
- Изменение от 6 декабря 2024 г. Мы добавили комментарий о том, как получение контента из разных источников влияет на скорость загрузки сайта.