Googlebot
Googlebot – общее название двух поисковых роботов, используемых в Google Поиске.
- Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.
- Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.
Определить, какой робот обрабатывает вашу страницу, можно по заголовку user-agent в HTTP-запросе. Но учтите, что давать разным роботам разные команды в файле robots.txt невозможно, так как работы обоих типов соответствуют одному и тому же токену агента пользователя.
При обработке большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.
Как Googlebot работает с вашим сайтом
Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования.
При сканировании для Google Поиска Googlebot сканирует первые 2 МБ файла поддерживаемого типа и первые 64 МБ PDF-файла. С точки зрения отрисовки каждый ресурс, на который есть ссылка в HTML-коде (например, в CSS и JavaScript), извлекается отдельно, и для каждого ресурса действует то же ограничение на размер файла, что и для других файлов (кроме PDF).
Когда достигается лимит, Googlebot прекращает скачивание и отправляет на индексирование только уже полученную часть файла. Ограничение на размер файла применяется к несжатым данным.
Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут действовать другие ограничения.
Когда робот Googlebot выполняет сканирование с IP-адресов из США, он работает в тихоокеанском часовом поясе.
Прочие технические свойства робота Googlebot описаны в обзоре поисковых роботов Google.
Как закрыть роботу Googlebot доступ к вашему сайту
Робот Googlebot обнаруживает новые URL по ссылкам на ранее отсканированных страницах. Даже если вы сами не размещаете ссылки на свой сайт, сохранить его в секрете не удастся. Как только кто-нибудь нажмет на ссылку на вашем "секретном" сайте и перейдет на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сайте в журнале источников ссылок.
Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, ознакомьтесь с нашими инструкциями. Не забывайте, что сканирование и индексирование – разные процессы. Если запретить роботу Googlebot сканировать ту или иную страницу, ее URL все равно может появляться в результатах поиска.
- Чтобы запретить роботу Googlebot сканировать определенную страницу, воспользуйтесь файлом robots.txt.
-
Чтобы запретить роботам Google индексировать определенную страницу, используйте директиву
noindex. - Если вам нужно, чтобы определенная страница стала недоступна как для поисковых роботов, так и для пользователей, выберите другой метод, например заблокируйте доступ к ней с помощью пароля.
Блокирование робота Googlebot влияет на Google Поиск (включая рекомендации и остальные функции Google Поиска), а также другие продукты (например, Google Картинки, Google Видео и Google Новости).
Как убедиться, что ваш сайт сканирует именно робот Googlebot
Помните, что заголовок user-agent в HTTP-запросе, используемый роботом Googlebot, часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.