Как убедиться, что ваш сайт сканируют именно Googlebot или другие поисковые роботы
Вы можете проверить, сканирует ли ваш сайт именно робот Googlebot (или иной поисковый робот Google). Это поможет вам, если у вас есть подозрения, что под видом робота Googlebot к вашему сайту обращаются спамеры или другие злоумышленники.
Поисковые роботы Google бывают трех категорий, которые перечислены в таблице ниже.
Тип | Описание | Обратная маска DNS | Диапазоны IP-адресов |
---|---|---|---|
Googlebot | Это основной робот, который обеспечивает работу поисковых сервисов Google. Он всегда следует правилам из файла robots.txt. | crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com |
googlebot.json |
Специальные поисковые роботы | Поисковые роботы, которые выполняют специальные функции (например, AdsBot) и могут как соблюдать, так и не соблюдать правила из файла robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Инструменты для сбора данных о сайте, управляемые пользователем |
Инструменты или функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. Так как сбор данных инициирует пользователь, такие инструменты игнорируют правила из файла robots.txt. Загрузчики под управлением Google относятся к IP-адресам из объекта user-triggered-fetchers-google.json и распознаются как имя хоста google.com . IP-адреса из объекта user-triggered-fetchers.json распознаются как имена хостов gae.googleusercontent.com . Такие IP-адреса используются, к примеру, если на сайте из Google Cloud (GCP) есть функция, которая предполагает извлечение внешних RSS-фидов по запросу посетителя сайта.
|
***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com |
user-triggered-fetchers.json и user-triggered-fetchers-google.json |
Убедиться в том, что ваш сайт посещают именно роботы Google, можно двумя способами:
- Вручную. Если нужно выполнить единичную проверку, используйте инструменты командной строки. В большинстве случаев этого достаточно для решения задачи.
- Автоматически. Если нужно выполнить масштабную проверку, используйте автоматическую систему и сопоставьте IP-адрес определенного поискового робота со списком опубликованных IP-адресов робота Googlebot.
Как использовать инструменты командной строки
-
С помощью команды
host
выполните обратный DNS-запрос по IP-адресу, который найдете в журнале. - Убедитесь, что в результате получено доменное имя
googlebot.com
,google.com
илиgoogleusercontent.com
. -
С помощью команды
host
выполните прямой DNS-запрос на преобразование доменного имени, которое вы узнали на шаге 1. - Полученный IP-адрес должен совпадать с исходным.
Пример 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Пример 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Пример 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Как использовать автоматические системы
Вы можете также сопоставить IP-адрес обратившегося к сайту поискового робота со списком диапазонов IP-адресов, которые используются нашими поисковыми роботами и инструментами для сбора данных:
- IP-адреса робота Googlebot
- IP-адреса специальных поисковых роботов, таких как AdsBot
- IP-адреса инструментов для сбора данных о сайте, управляемых пользователем
Для проверки других IP-адресов Google, с которых наши инструменты могут обращаться к вашему сайту (например, Apps Scripts), сопоставьте IP-адрес, с которого выполняется доступ, со списком IP-адресов Google. Учтите, что IP-адреса из файлов JSON представлены в формате CIDR.