Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя. Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты. Загрузчики действуют аналогично программам, которые выполняют лишь один запрос от имени пользователя, такие как wget. Клиенты Google бывают трех категорий, которые перечислены в таблице ниже.

Основные поисковые роботы Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt.
Специальные поисковые роботы Специальные поисковые роботы похожи на основные, но используются в продуктах, в которых между целевым сайтом и сервисом Google имеется соглашение о процессе сканирования. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt (*), если это разрешено издателем объявления.
Загрузчики, запускаемые пользователем Подобные загрузчики входят в инструменты и функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека.

Технические свойства поисковых роботов и загрузчиков Google

Поисковые роботы и загрузчики Google предназначены для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. В целях равномерного расхода пропускной способности подобные клиенты распределяются среди множества центров обработки данных по всему миру. Это позволяет в каждом случае задействовать клиента, который расположен неподалеку от нужного сайта. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов. Исходящий трафик, который связан с Google, поступает на ваш сайт преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из США, Google может попробовать просканировать этот ресурс при помощи IP-адресов, которые относятся к другим странам.

Какие протоколы передачи данных поддерживаются

Поисковые роботы и загрузчики Google поддерживают протоколы HTTP/1.1 и HTTP/2. Поисковые роботы используют протоколы, обеспечивающие наибольшую эффективность сканирования, и могут переключаться с одного на другой между сеансами сканирования, ориентируясь на данные о прежних сеансах. По умолчанию поисковые роботы используют протокол версии HTTP/1.1. Протокол HTTP/2 позволяет снизить потребление вычислительных ресурсов (например, ЦП и ОЗУ) сайта и робота Googlebot, однако более никаким преимуществом не обладает (например, повышения позиций в Google Поиске не обеспечивает). Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421. Если это невозможно, попробуйте обратиться к нашей команде по сканированию (это временная мера).

Инфраструктура Google также поддерживает сканирование по протоколу FTP (согласно спецификации RFC959 и дополнениям к ней) и FTPS (согласно спецификации RFC4217 и дополнениям к ней), но оно выполняется редко.

Какие способы кодирования контента поддерживаются

Поисковые роботы и загрузчики Google поддерживают кодировку (сжатие) контента в форматах gzip, deflate и Brotli (br). Кодировки, с которыми совместим тот или иной агент пользователя Google, указаны в заголовке Accept-Encoding каждого запроса, исходящего от такого агента, например Accept-Encoding: gzip, deflate, br.

Частота сканирования и загрузка хоста

Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования. Учтите, что отправка поисковым роботам Google недопустимого кода HTTP-ответа может сказаться на показе вашего сайта в продуктах Google.

Кэширование HTTP

Инфраструктура сканирования Google поддерживает эвристическое кеширование HTTP в соответствии со стандартом кеширования HTTP, в частности при помощи заголовка ответа ETag и заголовка запроса If-None-Match, а также при помощи заголовка ответа Last-Modified и заголовка запроса If-Modified-Since.

Если в HTTP-ответе заполнено как поле заголовка ответа ETag, так и Last-Modified, поисковые роботы Google будут использовать значение ETag, как того требует стандарт HTTP. Для поисковых роботов Google рекомендуется вместо заголовка Last-Modified использовать вариант ETag, чтобы сообщить им о предпочтениях кеширования. В заголовке ETag не возникает проблем с форматированием дат.

Поддержка других директив кеширования HTTP не предусмотрена.

Поисковые роботы и загрузчики Google не всегда используют кеширование. Это зависит от особенностей продукта, с которым они связаны. Например, Googlebot поддерживает кеширование при повторном сканировании URL для Google Поиска, а Storebot-Google – только при определенных условиях.

Чтобы на вашем сайте выполнялось кеширование HTTP, свяжитесь с хостинг-провайдером или поставщиком системы управления контентом.

Заголовки ETag и If-None-Match

Инфраструктура сканирования Google поддерживает заголовки ETag и If-None-Match в соответствии со стандартом кеширования HTTP. Подробнее о заголовке ответа ETag и о соответствующем ему заголовке запроса If-None-Match

Заголовки Last-Modified и If-Modified-Since

Инфраструктура сканирования Google поддерживает заголовки Last-Modified и If-Modified-Since в соответствии со стандартом кеширования HTTP. Учтите следующие особенности:

  • Формат даты в заголовке Last-Modified должен соответствовать стандарту HTTP. Чтобы избежать проблем с обработкой файла, рекомендуем использовать следующий формат даты: "день недели, DD Mon YYYY HH:MM:SS (часовой пояс)". Пример: Fri, 4 Sep 1998 19:15:56 GMT.
  • Также советуем использовать поле max-age заголовка ответа Cache-Control, чтобы помочь поисковым роботам определять, требуется ли повторное сканирование определенного URL. Укажите в поле max-age длительность периода в секундах, в течение которого контент не будет изменяться. Пример: Cache-Control: max-age=94043.

Подробнее о заголовке ответа Last-Modified и о соответствующем ему заголовке запроса If-Modified-Since

Как убедиться, что ваш сайт обрабатывают поисковые роботы и загрузчики Google

Поисковые роботы Google можно распознать по трем признакам:

  1. Заголовок запроса HTTP user-agent.
  2. IP-адрес, с которого поступил запрос.
  3. Обратное имя хоста DNS исходного IP-адреса.

Подробнее о том, как убедиться, что ваш сайт сканируют именно поисковые роботы и загрузчики Google