Вторник, 3 декабря 2024 г.
Вероятно, вы знаете, что прежде чем страница появится в результатах поиска Google, наши алгоритмы должны выполнить ряд операций. Одна из них называется сканированием. Ее выполняет Googlebot – программа, которая работает на серверах Google. Она обнаруживает в интернете URL новых страниц, а также обрабатывает переадресации и анализирует ошибки сети или иные возможные проблемы. Но есть некоторые нюансы, о которых редко упоминают. В течение этого месяца мы раз в неделю будем разбирать некоторые из них, потому что они могут существенно влиять на сканирование ваших сайтов.
Ключевые понятия: что такое сканирование
Во время сканирования поисковый робот находит в интернете новые страницы и повторно посещает обновленные, а также скачивает их. Вот что при этом происходит: Googlebot находит URL страницы и отправляет HTTP-запрос серверу, на котором она размещена. Затем он обрабатывает ответ от сервера (иногда при этом нужно выполнить перенаправления и проанализировать ошибки) и передает содержание страницы в систему индексирования Google.
Но современная веб-страница – это не только HTML-код. Что насчет других ресурсов, из которых она состоит? Как их обработка отражается на лимите на сканирование и кешируются ли они в Google? И одинаково ли наш робот действует на новых страницах и тех, что уже проиндексированы? Сегодня мы ответим на эти и другие вопросы.
Googlebot и сканирование ресурсов страниц
Чтобы обеспечить удобство для пользователей и работу дополнительных функций, на сайтах используется не только HTML-код, но и множество других технологий, например JavaScript и CSS. Когда такая страница открывается в браузере, тот сначала скачивает с ее основного URL HTML-код – данные, на основе которых она отрисовывается. Этот базовый код может содержать ссылки на другие ресурсы (в частности, изображения, видео и код JavaScript или CSS), которые браузер будет загружать, чтобы представить пользователю страницу в ее конечном виде.
Алгоритмы Google делают то же самое, но немного по-другому:
- Сначала Googlebot скачивает с основного URL базовый HTML-код страницы.
- Затем Googlebot передает HTML-код в WRS (Web Rendering Service – сервис отрисовки веб-страниц).
- С помощью Googlebot сервис WRS скачивает ресурсы, на которые есть ссылки в HTML-коде.
- WRS на основе скачанных ресурсов собирает конечную версию страницы, как это делает обычный браузер.
Временные интервалы между описанными выше этапами могут быть значительно больше, чем при отрисовке в браузере. Причина в ограничениях, связанных с планированием, например в нагрузке на сервер, на котором размещены ресурсы, необходимые для отрисовки страницы. И здесь пора поговорить о лимите на сканирование.
Сканирование ресурсов, нужных для отрисовки страницы, исчерпывает лимит на сканирование хоста, на котором они размещены. Чтобы компенсировать это, WRS старается кешировать все ресурсы (JavaScript и CSS), на которые есть ссылки на обрабатываемых страницах. Время жизни данных в кеше WRS не зависит от директив кеширования HTTP и может достигать 30 дней. Это предотвращает исчерпание лимита на сканирование, чтобы могли выполняться другие задачи сканирования.
Если вы владелец сайта и беспокоитесь о том, как обработка тех или иных ресурсов затрагивает лимит на сканирование, вот наши советы:
- Используйте по возможности меньше ресурсов (но без ущерба для удобства пользователя). Чем меньше ресурсов нужно для отрисовки страницы, тем позже будет исчерпан ее лимит на сканирование.
- Используйте параметры очистки кеша обдуманно. Если URL ресурсов меняются, роботу Googlebot обычно приходится сканировать их заново, даже если их содержание осталось прежним. Это приближает достижение лимита на сканирование.
- Размещайте ресурсы не на том же хосте, что и сам сайт, а на другом, например в сети доставки контента или субдомене. Тогда лимит на сканирование будет распределен между несколькими хостами.
Все сказанное выше также относится к медийным ресурсам. Если Googlebot или его разновидности Googlebot-Image
и Googlebot-Video
скачивают их, то лимит на сканирование исчерпывается.
Идея использовать для соблюдения лимита на сканирование файл robots.txt на первый взгляд звучит привлекательно, но запрет на сканирование ресурсов может привести к проблемам при показе страницы. Если WRS не в состоянии скачать важный для отрисовки ресурс, Google Поиск может не получить контент страницы и не присвоить ей позицию в результатах поиска.
Что сканирует Googlebot
Самый лучший источник информации о том, какие ресурсы сканирует Google, – необработанные журналы доступа к сайту. В них перечислены все URL, которые запрашивались браузерами и роботами. Чтобы вы могли найти роботов Google в этих журналах, мы публикуем диапазоны используемых нами IP-адресов в документации для разработчиков.
На втором месте такой источник, как отчет "Статистика сканирования" в Search Console, где сведения упорядочены, например по типам ресурсов и роботов.

Если вас интересуют вопросы, связанные со сканированием и отрисовкой, вы можете обсудить их на форуме Центра Google Поиска. Также мы ждем вас в LinkedIn.
Изменения
- Изменение от 6 декабря 2024 г. Мы добавили комментарий о том, как получение контента из разных источников влияет на скорость загрузки сайта.
Хотите узнать больше? Прочитайте все записи из серии "О сканировании в декабре"
Изменение наших правил в отношении злоупотребления репутацией сайта
Вторник, 19 ноября 2024 г. Мы постоянно боремся со спамом и совершенствуем Google Поиск, в связи с чем ранее в этом году опубликовали правила в отношении спама. Их назначение – противодействовать злоупотреблению репутацией сайта, т. е. тактике, при
Основная информация о ключевых обновлениях за август 2024 г.
Четверг, 15 августа 2024 г. Сегодня мы внедрили ключевые обновления Google Поиска за август 2024 г. Их назначение – сделать результаты поиска более качественными и показывать в Google больше материалов, которые будут полезны вам а не ориентированы
Что нужно знать создателям сайтов о нашем ключевом изменении за март 2024 года и о новых правилах Google в отношении веб-спама
Вторник, 5 марта 2024 г. Сегодня мы объявили о запуске ключевых обновлений за март 2024 г., которые повысят качество Поиска. Теперь пользователи будут видеть меньше кликбейтного контента и больше полезного. Мы также сообщили о внедрении новых правил
Вопросы и ответы об обновлениях Google Поиска
Четверг, 2 ноября 2023 г. Мы регулярно обновляем наши системы ранжирования, чтобы в результатах поиска Google по запросам пользователя показывался только самый релевантный и полезный контент. За последние несколько недель мы внедрили ряд важных
Октябрь 2023 г.: обновление системы обнаружения спама
Среда, 4 октября 2023 г. Мы обновили нашу систему обнаружения спама. Теперь она охватывает больше его типов и поддерживает дополнительные языки. Это обновление предназначено для борьбы со спамом нескольких типов (на него нам жаловались участники
Почему страница с полезным контентом должна быть удобной
Среда, 19 апреля 2023 г. Страницы с полезным контентом, как правило, удобны для пользователей. Поэтому мы добавили раздел об удобстве для пользователей в руководство по созданию контента и отредактировали справочную статью. Надеемся, это поможет
Новый подход к борьбе со ссылочным спамом, который будет применяться в Google Поиске с декабря 2022 г.
Среда, 14 декабря 2022 г. С сегодняшнего дня мы начинаем использовать возможности SpamBrain, чтобы нейтрализовать влияние искусственных ссылок на результаты поиска. SpamBrain – это наше решение для борьбы со спамом, основанное на технологии
Что авторам следует знать о новом алгоритме определения полезного контента, который используется в Google с августа 2022 г.
Четверг, 18 августа 2022 г. Мы стремимся к тому, чтобы в результатах поиска Google всегда была представлена максимально полезная и актуальная информация. Поэтому мы решили перейти на новый алгоритм определения полезного контента. Это часть нашей
Как Google создает заголовки для документов, если находит несовпадение языков или письменности
3 июня 2022 г. На этой неделе мы представили улучшенный алгоритм для идентификации документов, в элементе title которых используются язык или скрипт, отличающиеся от языка или скрипта контента. Этот алгоритм автоматически подбирает заголовок,
Ключевые обновления Google Поиска в мае 2022 г.
Среда, 25 мая 2022 г. Несколько раз в год мы выпускаем так называемые ключевые обновления. Их назначение – существенно улучшить наши процессы ранжирования, чтобы сделать результаты поиска Google более релевантными, то есть более полезными и