Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)
Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя. Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты. Загрузчики действуют аналогично программам, которые выполняют лишь один запрос от имени пользователя, такие как wget. Клиенты Google бывают трех категорий, которые перечислены в таблице ниже.
Основные поисковые роботы | Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt. |
Специальные поисковые роботы |
Специальные поисковые роботы похожи на основные, но используются в продуктах, в которых между целевым сайтом и сервисом Google имеется соглашение о процессе сканирования. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt (* ), если это разрешено издателем объявления.
|
Загрузчики, запускаемые пользователем | Подобные загрузчики входят в инструменты и функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. |
Технические свойства поисковых роботов и загрузчиков Google
Поисковые роботы и загрузчики Google предназначены для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. В целях равномерного расхода пропускной способности подобные клиенты распределяются среди множества центров обработки данных по всему миру. Это позволяет в каждом случае задействовать клиента, который расположен неподалеку от нужного сайта. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов. Исходящий трафик, который связан с Google, поступает на ваш сайт преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из США, Google может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам.
Какие протоколы передачи данных поддерживаются
Поисковые роботы и загрузчики Google поддерживают протоколы HTTP/1.1 и HTTP/2. Поисковые роботы используют протоколы, обеспечивающие наибольшую эффективность сканирования, и могут переключаться с одного на другой между сеансами сканирования, ориентируясь на данные о прежних сеансах. По умолчанию поисковые роботы используют протокол версии HTTP/1.1. Протокол HTTP/2 позволяет снизить потребление вычислительных ресурсов (например, ЦП и ОЗУ) сайта и робота Googlebot, однако более никаким преимуществом не обладает (например, повышения позиций в Google Поиске не обеспечивает).
Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421
. Если это невозможно, попробуйте обратиться к нашей команде по сканированию (это временная мера).
Инфраструктура Google также поддерживает сканирование по протоколу FTP (согласно спецификации RFC959 и дополнениям к ней) и FTPS (согласно спецификации RFC4217 и дополнениям к ней), но оно выполняется редко.
Какие способы кодирования контента поддерживаются
Поисковые роботы и загрузчики Google поддерживают кодировку (сжатие) контента в форматах gzip, deflate и Brotli (br). Кодировки, с которыми совместим тот или иной агент пользователя Google, указаны в заголовке Accept-Encoding
каждого запроса, исходящего от такого агента, например Accept-Encoding: gzip, deflate, br
.
Частота сканирования и загрузка хоста
Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования. Учтите, что отправка поисковым роботам Google недопустимого кода HTTP-ответа может сказаться на показе вашего сайта в продуктах Google.
Кэширование HTTP
Инфраструктура сканирования Google поддерживает эвристическое кеширование HTTP в соответствии со стандартом кеширования HTTP, в частности при помощи заголовка ответа ETag
и заголовка запроса If-None-Match
, а также при помощи заголовка ответа Last-Modified
и заголовка запроса If-Modified-Since
.
Если в HTTP-ответе заполнено как поле заголовка ответа ETag
, так и Last-Modified
, поисковые роботы Google будут использовать значение ETag
, как того требует стандарт HTTP.
Для поисковых роботов Google рекомендуется вместо заголовка Last-Modified
использовать вариант ETag
, чтобы сообщить им о предпочтениях кеширования. В заголовке ETag
не возникает проблем с форматированием дат.
Поддержка других директив кеширования HTTP не предусмотрена.
Поисковые роботы и загрузчики Google не всегда используют кеширование. Это зависит от особенностей продукта, с которым они связаны. Например, Googlebot
поддерживает кеширование при повторном сканировании URL для Google Поиска, а Storebot-Google
– только при определенных условиях.
Чтобы на вашем сайте выполнялось кеширование HTTP, свяжитесь с хостинг-провайдером или поставщиком системы управления контентом.
Заголовки ETag
и If-None-Match
Инфраструктура сканирования Google поддерживает заголовки ETag
и If-None-Match
в соответствии со стандартом кеширования HTTP.
Подробнее о заголовке ответа ETag
и о соответствующем ему заголовке запроса If-None-Match
…
Заголовки Last-Modified и If-Modified-Since
Инфраструктура сканирования Google поддерживает заголовки Last-Modified
и If-Modified-Since
в соответствии со стандартом кеширования HTTP. Учтите следующие особенности:
-
Формат даты в заголовке
Last-Modified
должен соответствовать стандарту HTTP. Чтобы избежать проблем с обработкой файла, рекомендуем использовать следующий формат даты: "день недели, DD Mon YYYY HH:MM:SS (часовой пояс)". Пример: Fri, 4 Sep 1998 19:15:56 GMT. -
Также советуем использовать поле
max-age
заголовка ответаCache-Control
, чтобы помочь поисковым роботам определять, требуется ли повторное сканирование определенного URL. Укажите в полеmax-age
длительность периода в секундах, в течение которого контент не будет изменяться. Пример:Cache-Control: max-age=94043
.
Подробнее о заголовке ответа Last-Modified
и о соответствующем ему заголовке запроса If-Modified-Since
…
Как убедиться, что ваш сайт обрабатывают поисковые роботы и загрузчики Google
Поисковые роботы Google можно распознать по трем признакам:
-
Заголовок запроса HTTP
user-agent
. - IP-адрес, с которого поступил запрос.
- Обратное имя хоста DNS исходного IP-адреса.
Подробнее о том, как убедиться, что ваш сайт сканируют именно поисковые роботы и загрузчики Google…