Что нужно знать о сканировании сайтов поисковыми роботами Google

Google сканирует открытый интернет более 30 лет, и нам часто задают вопросы о том, как работают наши поисковые роботы. Чтобы ответить на некоторые из них, мы собрали несколько фактов о поисковых роботах Google и о том, как они помогают нам систематизировать информацию и связывать пользователей с контентом в интернете.

Сканирование – это процедура, позволяющая Google "видеть" интернет

При сканировании автоматизированное ПО обнаруживает новые веб-страницы и анализирует их. Таким образом, когда вы ищете в Google веб-страницу, мы знаем, что она существует, и можем включить ее в результаты поиска. Все поисковые системы используют сканирование, чтобы узнать, какие страницы и информация могут быть доступны. Чтобы узнать больше, посмотрите наше видео о том, как Google Поиск сканирует страницы.

У нас много поисковых роботов, выполняющих разные задачи

Googlebot – самый известный из них. Благодаря ему результаты в Google Поиске остаются актуальными. У нас также есть поисковые роботы, предназначенные для других сервисов, например Google Картинок и Google Покупок. Мы предоставляем полную документацию по наиболее часто используемым поисковым роботам и их назначению. У наших поисковых роботов легко узнаваемые названия агентов пользователя и известные интернет-адреса. Таким образом владельцы сайтов могут быть уверены, что видят в журналах именно поисковых роботов Google.

Мы регулярно сканируем сайты, чтобы находить новые данные и показывать в результатах поиска актуальную информацию

Чтобы находить срочные новости, мы можем сканировать главные страницы информационных сайтов каждые несколько минут. А если мы заметим, что на странице ничего не меняется годами, можем подождать месяц перед повторным сканированием. Владельцы сайтов могут влиять на частоту повторного сканирования, используя файлы Sitemap, в которых указаны новые и обновленные страницы.

Частое сканирование – это хороший знак!

Если мы часто сканируем ваш сайт, значит на его страницах есть свежий или очень востребованный контент, который люди хотят находить, и наши системы учитывают этот запрос. Например, мы часто сканируем сайты интернет-магазинов, чтобы в результатах поиска показывались актуальные цены, промоакции и сведения о наличии товаров.

Со временем роботы Google начали чаще сканировать страницы, поскольку те стали сложнее

Кроме того, мы часто сканируем страницы, чтобы понять, что на них есть. Наши поисковые роботы используют метод отрисовки, который позволяет полностью загрузить сайт и "увидеть" страницу так, как это сделал бы обычный пользователь. За последние годы веб-страницы стали сложнее. Средний размер мобильной страницы вырос с 816 КБ до 2,3 МБ, и теперь для ее загрузки требуется более 60 различных файлов, от изображений до интерактивных компонентов. Чтобы получить полное представление о веб-странице, нам может потребоваться просканировать ее несколько раз, поскольку на нее постоянно добавляются новые элементы.

Мы автоматически оптимизируем сканирование

Наши поисковые роботы разработаны таким образом, чтобы работать эффективно и не создавать проблем для владельцев сайтов. Например, если сайт работает медленно или возвращает ошибки, частота сканирования автоматически меняется, чтобы не перегружать серверы сайта. Мы стараемся не сканировать страницы лишний раз, и для этого кешируем уже отсканированный контент. В ходе анализа сайта поисковые роботы распознают разделы, которые можно сканировать реже. Например, календари до 9999 года, наверное, не требуется сканировать полностью. Владельцы сайтов могут указать, какой контент не нужно сканировать. Это позволит снизить расходы на инфраструктуру и повысить эффективность интернета в целом.

Поисковые роботы Google никогда не анализируют контент, который доступен только за плату или по подписке, без разрешения

По умолчанию, если страница отсутствует в открытом доступе, например когда для доступа к контенту требуется войти в аккаунт, наши поисковые роботы также не могут получить к ней доступ. Если вы хотите, чтобы Google мог перенаправлять пользователей на страницы с контентом, доступным по подписке, ознакомьтесь с рекомендациями для владельцев сайтов. Если вы решите предоставить нашим поисковым роботам доступ к контенту по подписке, вы можете использовать структурированные данные, чтобы показывать посетителям страницу входа без нарушения наших правил в отношении спама. Вы можете запретить показ контента, доступного по подписке, в предварительном просмотре страниц, используя элементы управления предпросмотром.

Владельцы сайтов могут управлять тем, какой их контент доступен для сканирования и каким образом

Мы поддерживаем открытые веб-стандарты, например использование файла robots.txt, в котором владельцы сайтов могут указать, как поисковые роботы должны взаимодействовать с их страницами. Файл robots.txt и метатеги robots позволяют владельцам сайтов сообщать Google и другим сервисам, как получать доступ к их контенту. Они могут запретить показ страниц в Поиске. Они могут сообщать нам о новом контенте, который нужно просканировать, с помощью файлов Sitemap. Кроме того, они могут управлять частотой сканирования своих сайтов с помощью лимита на сканирование.

Наши стандартные поисковые роботы всегда учитывают настройки сайтов, определяющие, как можно получать доступ к их контенту и использовать его

После сканирования мы можем использовать полученные данные несколько раз, чтобы не отправлять на сайты лишние запросы. Даже когда эти данные используются повторно, мы продолжаем соблюдать правила, заданные в файле robots.txt, и настройки, которые мы предлагаем в рамках этого открытого веб-протокола. Например, с помощью токена Google-Extended в файле robots.txt сайты могут контролировать, будет ли их контент использоваться для обучения будущих версий моделей Gemini. Наличие токена Google-Extended не влияет на показ сайта в Поиске, и мы не используем Google-Extended в качестве фактора ранжирования в Поиске.

Мы предлагаем владельцам сайтов множество инструментов для управления сканированием Google, в том числе Google Search Console, который доступен бесплатно. Он содержит информацию о том, сколько страниц мы просканировали и почему. Кроме того, он помогает диагностировать проблемы, например сбои в работе сервера или низкую скорость подключения. Кроме того, в Search Console можно найти подробную информацию о том, как страницы сайта показываются в Поиске и как пользователи взаимодействуют с ними.

Наши поисковые роботы помогают пользователям находить в интернете самую полезную информацию, и мы постоянно работаем над тем, чтобы сделать их более эффективными.