Робот Googlebot

Googlebot – общее название поискового робота Google. Существует два типа таких роботов: имитирующий пользователя компьютера и имитирующий пользователя мобильного устройства.

Скорее всего, ваш сайт будет сканироваться роботами обоих типов. Определить, какой именно робот посещал страницу, можно по строке агента пользователя в запросе. Обратите внимание, что оба робота соответствуют одному и тому же токену агента пользователя (токену робота Google), поэтому в файле robots.txt для них невозможно задать разные правила.

Если ваш сайт уже индексируется с приоритетом мобильного контента, большинство запросов на сканирование будет исходить от робота Googlebot для мобильных устройств. Запросы к тем сайтам, которые ещё не были оптимизированы, будут в основном исходить от робота, имитирующего поведение пользователя компьютера. В обоих случаях поисковый робот, от которого исходит меньше запросов, будет сканировать только те URL, которые уже обработал робот, посылающий большую часть запросов.

Как Googlebot работает с вашим сайтом

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота обращений может немного увеличиться.

Робот Googlebot предназначен для распределенной работы на тысячах компьютеров. Это необходимо для эффективности и масштабирования системы, так как количество сайтов в Интернете растет. Кроме того, мы стараемся использовать компьютеры, которые находятся недалеко от серверов хостинга сайтов, чтобы поисковые роботы меньше влияли на пропускную способность сети. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения от нескольких компьютеров из домена google.com, а в качестве агента пользователя неизменно указан Googlebot. Наша цель заключается в том, чтобы каждый раз сканировать как можно больше страниц вашего сайта, не перегружая сервер. Если запросы от Google все-таки замедляют работу сервера, вы можете снизить частоту сканирования.

Обычно Googlebot проводит сканирование по протоколу HTTP/1.1. Однако с ноября 2020 г. Googlebot может выполнять сканирование по протоколу HTTP/2, если сайт его поддерживает. Это позволит снизить вычислительную нагрузку (например, использование процессора и ОЗУ) для сайта и робота Googlebot без ущерба для индексирования и рейтинга сайта.

Чтобы отказаться от сканирования по HTTP/2, настройте сервер своего сайта так, чтобы при попытке такого сканирования сервер возвращал код статуса HTTP 421. Если это невозможно, попробуйте написать команде Googlebot (это временная мера).

Как закрыть роботу Googlebot доступ к вашему сайту

Даже если вы сами не размещаете ссылки на свой веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Также в Интернете множество устаревших и неработающих ссылок. Если на чужой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается перейти по ней.

Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, рассмотрите эти способы. Обратите внимание, что запрет на сканирование, запрет на индексирование и блокировку доступа к странице одновременно для поисковых роботов и пользователей следует осуществлять разными методами.

Как убедиться, что ваш сайт сканирует именно робот Googlebot

Помните, что строку агента пользователя Googlebot часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Лучший способ это сделать – выполнить обратный DNS-запрос по IP-адресу источника.

Googlebot и все распространенные поисковые системы выполняют инструкции, указанные в файле robots.txt, но некоторые роботы и спамеры этого не делают. Сообщайте нам о страницах со спамом в результатах поиска Google. Мы незамедлительно принимаем меры по устранению подобных нарушений.