Вторник, 3 декабря 2024 г.
Вероятно, вы знаете, что прежде чем страница появится в результатах поиска Google, наши алгоритмы должны выполнить ряд операций. Одна из них называется сканированием. Ее выполняет Googlebot – программа, которая работает на серверах Google. Она обнаруживает в интернете URL новых страниц, а также обрабатывает переадресации и анализирует ошибки сети или иные возможные проблемы. Но есть некоторые нюансы, о которых редко упоминают. В течение этого месяца мы раз в неделю будем разбирать некоторые из них, потому что они могут существенно влиять на сканирование ваших сайтов.
Ключевые понятия: что такое сканирование
Во время сканирования поисковый робот находит в интернете новые страницы и повторно посещает обновленные, а также скачивает их. Вот что при этом происходит: Googlebot находит URL страницы и отправляет HTTP-запрос серверу, на котором она размещена. Затем он обрабатывает ответ от сервера (иногда при этом нужно выполнить перенаправления и проанализировать ошибки) и передает содержание страницы в систему индексирования Google.
Но современная веб-страница – это не только HTML-код. Что насчет других ресурсов, из которых она состоит? Как их обработка отражается на лимите на сканирование и кешируются ли они в Google? И одинаково ли наш робот действует на новых страницах и тех, что уже проиндексированы? Сегодня мы ответим на эти и другие вопросы.
Googlebot и сканирование ресурсов страниц
Чтобы обеспечить удобство для пользователей и работу дополнительных функций, на сайтах используется не только HTML-код, но и множество других технологий, например JavaScript и CSS. Когда такая страница открывается в браузере, тот сначала скачивает с ее основного URL HTML-код – данные, на основе которых она отрисовывается. Этот базовый код может содержать ссылки на другие ресурсы (в частности, изображения, видео и код JavaScript или CSS), которые браузер будет загружать, чтобы представить пользователю страницу в ее конечном виде.
Алгоритмы Google делают то же самое, но немного по-другому:
- Сначала Googlebot скачивает с основного URL базовый HTML-код страницы.
- Затем Googlebot передает HTML-код в WRS (Web Rendering Service – сервис отрисовки веб-страниц).
- С помощью Googlebot сервис WRS скачивает ресурсы, на которые есть ссылки в HTML-коде.
- WRS на основе скачанных ресурсов собирает конечную версию страницы, как это делает обычный браузер.
Временные интервалы между описанными выше этапами могут быть значительно больше, чем при отрисовке в браузере. Причина в ограничениях, связанных с планированием, например в нагрузке на сервер, на котором размещены ресурсы, необходимые для отрисовки страницы. И здесь пора поговорить о лимите на сканирование.
Сканирование ресурсов, нужных для отрисовки страницы, исчерпывает лимит на сканирование хоста, на котором они размещены. Чтобы компенсировать это, WRS старается кешировать все ресурсы (JavaScript и CSS), на которые есть ссылки на обрабатываемых страницах. Время жизни данных в кеше WRS не зависит от директив кеширования HTTP и может достигать 30 дней. Это предотвращает исчерпание лимита на сканирование, чтобы могли выполняться другие задачи сканирования.
Если вы владелец сайта и беспокоитесь о том, как обработка тех или иных ресурсов затрагивает лимит на сканирование, вот наши советы:
- Используйте по возможности меньше ресурсов (но без ущерба для удобства пользователя). Чем меньше ресурсов нужно для отрисовки страницы, тем позже будет исчерпан ее лимит на сканирование.
- Используйте параметры очистки кеша обдуманно. Если URL ресурсов меняются, роботу Googlebot обычно приходится сканировать их заново, даже если их содержание осталось прежним. Это приближает достижение лимита на сканирование.
- Размещайте ресурсы не на том же хосте, что и сам сайт, а на другом, например в сети доставки контента или субдомене. Тогда лимит на сканирование будет распределен между несколькими хостами.
Все сказанное выше также относится к медийным ресурсам. Если Googlebot или его разновидности Googlebot-Image
и Googlebot-Video
скачивают их, то лимит на сканирование исчерпывается.
Идея использовать для соблюдения лимита на сканирование файл robots.txt на первый взгляд звучит привлекательно, но запрет на сканирование ресурсов может привести к проблемам при показе страницы. Если WRS не в состоянии скачать важный для отрисовки ресурс, Google Поиск может не получить контент страницы и не присвоить ей позицию в результатах поиска.
Что сканирует Googlebot
Самый лучший источник информации о том, какие ресурсы сканирует Google, – необработанные журналы доступа к сайту. В них перечислены все URL, которые запрашивались браузерами и роботами. Чтобы вы могли найти роботов Google в этих журналах, мы публикуем диапазоны используемых нами IP-адресов в документации для разработчиков.
На втором месте такой источник, как отчет "Статистика сканирования" в Search Console, где сведения упорядочены, например по типам ресурсов и роботов.

Если вас интересуют вопросы, связанные со сканированием и отрисовкой, вы можете обсудить их на форуме Центра Google Поиска. Также мы ждем вас в LinkedIn.
Изменения
- Изменение от 6 декабря 2024 г. Мы добавили комментарий о том, как получение контента из разных источников влияет на скорость загрузки сайта.
Хотите узнать больше? Прочитайте все записи из серии "О сканировании в декабре"
Мероприятие Search Central Live пройдет в Нью-Йорке
Четверг, 13 февраля 2025 г. Мы рады сообщить, что 20 марта 2025 г. Search Central Live впервые пройдет в Нью-Йорке. Ранее команда Google Поиска уже организовывала свои мероприятия в городе, который никогда не спит, но главного события, которое
Итоги Search Central Live 2024 в Куала-Лумпуре и Тайбэе
Пятница, 13 декабря 2024 г. Мероприятия Search Central Live в Куала-Лумпуре и Тайбэе прошли превосходно – и во многом благодаря гостям, которых было более шестисот! Их энтузиазм и готовность к общению и сотрудничеству произвели на нас по-настоящему
Ждем вас на мероприятии Search Central Live в Цюрихе!
Среда, 20 ноября 2024 г. Приглашаем вас принять участие в очередном мероприятии Search Central Live 2024, которое пройдет 12 декабря 2024 г. в офисе Google в Цюрихе. Специалисты Google Поиска подготовили ряд презентаций, которые мы хотим показать вам
Search Central Live 2024 в Джакарте и Бангкоке: подводим итоги
Вторник, 15 октября 2024 г. Мы провели первые два мероприятия Search Central Live в Азии и хотим подвести итоги: рассказать, чему мы научились и что можно улучшить. На мероприятие в Джакарте, которое прошло 25 июля 2024 г., пришло 335 человек. Помимо
В 2024 г. в АТР снова состоятся мероприятия цикла Search Central Live
Среда, 29 мая 2024 г. В Азиатско-Тихоокеанском регионе снова пройдут мероприятия Search Central Live. Их участники смогут узнать много нового о Google Поиске, обменяться опытом и не только. В этом году мы планируем провести мероприятия в Индонезии,
Search Central Live 2024 (Варшава, Польша)
Понедельник, 25 марта 2024 г. Мы рады сообщить, что 24 апреля 2024 г. собираемся провести Search Central Live в Варшаве (Польша). Search Central Live – это серия мероприятий, которые команда Google Поиска организует по всему миру. Они ориентированы
Search Central Live 2024 (Бухарест, Румыния)
Понедельник, 4 марта 2024 г. Мы рады сообщить, что 4 апреля 2024 г. собираемся провести Search Central Live в Бухаресте (Румыния). Search Central Live – это серия мероприятий, которые команда Google Поиска организует по всему миру. Они ориентированы
Search Central Live Сингапур 2023
Среда, 18 октября 2023 г. Мы рады сообщить, что 22 ноября этого года в Сингапуре снова состоится мероприятие Search Central Live, которое, как и прежде, будет организовано командой Google Поиска. На нем участники нашего сообщества смогут узнать много
Мероприятие Search Central Live снова в Цюрихе
Пятница, 29 сентября 2023 г. Мы уже проводили мероприятие Search Central Live в Цюрихе в декабре 2019 г. и рады сообщить, что планируем провести его снова в этом же городе 24 октября 2023 г. На этот раз у участников Search Central Live будет ещё
Мероприятия Search Central Live в Индии
Четверг, 17 августа 2023 г. В этом году мы провели уже три мероприятия Search Central Live. А сейчас пришло время объявить о событии, которым наши пользователи интересовались активнее всего, – Search Central Индия. Наши мероприятия пройдут в двух
Search Central Live в Токио и Джакарте: подводим итоги
Четверг, 27 июля 2023 г. Месяц назад отгремел Search Central Live Токио, а две недели назад – Search Central Live Джакарта. Мы с теплом вспоминаем о том, как здорово мы провели время в компании друзей и единомышленников. Пришла пора подвести итоги. В
Обзор мероприятий Search Central Live 2022
Пятница, 16 декабря 2022 г. Последние несколько недель ознаменовались мероприятиями Search Central Live в Сингапуре и Тель-Авиве – это было незабываемо! В прошлый раз мы с вами встречались на Конференции веб-мастеров в начале 2020 года и были очень
Мероприятия Search Central Live
Четверг, 13 октября 2022 г. В 2019 году мы провели ряд конференций для владельцев сайтов и специалистов по поисковой оптимизации в более чем 15 странах, уделив особое внимание регионам, где раньше таких мероприятий было мало. Затем мы были вынуждены
Search Central Live is returning to Brazil in 2025
Wednesday, January 15, 2025 We're excited to announce that Search Central Live is returning to São Paulo in 2025. Following our successful events in 2023 and 2024, we're continuing our mission to help Brazilian businesses enhance their site's
Search Central Live 2024 is coming to Kuala Lumpur and Taipei
Tuesday, Aug 27, 2024 As previously announced, Search Central Live is coming to Kuala Lumpur and to Taipei in the last quarter of 2024. And yes, we're very excited! What can you expect? A whole day of learning about Search while having some fun along
Search Central Live Bangkok 2024
Thursday, June 20, 2024 We're coming back to Thailand with Search Central Live! As mentioned in our blog post about our APAC plans for SCL, we now have a date and a site where you can sign up for a chance to secure your spot at Search Central Live
Announcing Search Central Live Argentina
Thursday, February 1, 2024 We're excited to announce that Search Central Live is coming to Buenos Aires on March 5, 2024. Following successful events throughout the world last year, we're continuing our mission to help website owners to enhance their
Search Central Live is returning to Brazil
Thursday, February 1, 2024 We're excited to announce that Search Central Live is returning to São Paulo. Following our successful events last year, we're continuing our mission to help Brazilian businesses enhance their site's performance in Google
Traditional Chinese Blog: Search Central Live Taipei 2023
Thursday, November 2, 2023 We are ecstatic to announce that for the first time ever, Search Central Live is coming to Taipei! Part of the Search Central Live events series, this is the first in-person event we are organizing in Taiwan, and we're
Announcing the Search Central Live Mexico roadshow
Wednesday, September 20, 2023 We're very excited to announce that Search Central Live is coming to Ciudad de México on November 7! Following successful events throughout the world earlier this year, we're continuing our mission to help you enhance
Indonesian Blog: Search Central Live Jakarta 2023
Wednesday, June 7, 2023 A few weeks back, we announced that Search Central Live is coming to a few locations in Asia Pacific throughout 2023. If you speak Indonesian fluently and are interested, Search Central Live Jakarta 2023 is happening on July
Search Central Live: Tokyo and future plans for APAC
Tuesday, May 16, 2023 Search Central Live is back in Asia Pacific throughout 2023 and we can’t wait to meet you in person! In November 2022 we resumed our search event series with SCL Singapore. Encouraged by the success of the event, we're now ready
Announcing the Search Central Live Brazil roadshow
Monday, February 6, 2023 We're very excited to announce that Search Central Live is coming to Brazil! Following our successful events last year, we're continuing our mission to help you enhance your site's performance in Google Search. We're