Как проверить запросы от поисковых роботов и загрузчиков Google

Вы можете проверить, сканирует ли ваш сайт именно робот Googlebot (или иной поисковый робот Google). Это поможет вам, если у вас есть подозрения, что под видом робота Googlebot к вашему сайту обращаются спамеры или другие злоумышленники.

Поисковые роботы Google бывают трех категорий, которые перечислены в таблице ниже.

Тип Описание Обратная маска DNS Диапазоны IP-адресов
Основные поисковые роботы Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt. crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Специальные поисковые роботы Поисковые роботы, выполняющие специальные функции для продуктов Google (такие как AdsBot), при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Они могут как соблюдать, так и не соблюдать правила из файла robots.txt. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Инструменты для сбора данных о сайте, управляемые пользователем Инструменты или функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. Так как сбор данных инициирует пользователь, такие инструменты игнорируют правила из файла robots.txt.
Загрузчики под управлением Google относятся к IP-адресам из объекта user-triggered-fetchers-google.json и распознаются как имя хоста google.com. IP-адреса из объекта user-triggered-fetchers.json распознаются как имена хостов gae.googleusercontent.com. Такие IP-адреса используются, к примеру, если на сайте из Google Cloud (GCP) есть функция, которая предполагает извлечение внешних RSS-фидов по запросу посетителя сайта.
***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com user-triggered-fetchers.json и user-triggered-fetchers-google.json

Убедиться в том, что ваш сайт посещают именно роботы Google, можно двумя способами:

  • Вручную. Если нужно выполнить единичную проверку, используйте инструменты командной строки. В большинстве случаев этого достаточно для решения задачи.
  • Автоматически. Если нужно выполнить масштабную проверку, используйте автоматическую систему и сопоставьте IP-адрес определенного поискового робота со списком опубликованных IP-адресов робота Googlebot.

Как использовать инструменты командной строки

  1. С помощью команды host выполните обратный DNS-запрос по IP-адресу, который найдете в журнале.
  2. Убедитесь, что в результате получено доменное имя googlebot.com, google.com или googleusercontent.com.
  3. С помощью команды host выполните прямой DNS-запрос на преобразование доменного имени, которое вы узнали на шаге 1.
  4. Полученный IP-адрес должен совпадать с исходным.

Пример 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Пример 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Пример 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Как использовать автоматические системы

Вы можете также сопоставить IP-адрес обратившегося к сайту поискового робота со списком диапазонов IP-адресов, которые используются нашими поисковыми роботами и инструментами для сбора данных:

Для проверки других IP-адресов Google, с которых наши инструменты могут обращаться к вашему сайту (например, Apps Scripts), сопоставьте IP-адрес, с которого выполняется доступ, со списком IP-адресов Google. Учтите, что IP-адреса из файлов JSON представлены в формате CIDR.