Руководство по системам ранжирования Google Поиска
Системы автоматического ранжирования результатов Google при каждом запросе сортируют сотни миллиардов веб-страниц и разного контента в индексе Google Поиска. Они учитывают многие факторы и сигналы и за доли секунды находят наиболее релевантные и полезные результаты. В этой статье мы рассказываем о самых важных алгоритмах сортировки. Некоторые из них являются частью основных систем ранжирования, которые подбирают результаты поиска в ответ на запросы. Здесь же вы найдете описания алгоритмов, используемых для ранжирования по особым правилам.
Наши системы ранжирования работают на уровне страницы. Они оценивают, насколько полезна для пользователей каждая страница по отдельности, и применяют при этом самые разные факторы ранжирования и системы. Сигналы и классификаторы, относящиеся ко всем страницам сайта, также помогают нам анализировать страницы. Наличие хороших сигналов такого типа не гарантирует, что весь контент с сайта будет показываться на высоких позициях, а наличие плохих не означает, что контент будет появляться на низких позициях.
Мы постоянно улучшаем алгоритмы сортировки, тщательно тестируя и оценивая обновления перед внедрением, и сообщаем пользователям об изменениях, которые могут быть им полезны.
Системы ранжирования дополняют другие инструменты Google Поиска и помогают систематизировать всю имеющуюся в мире информацию, делая ее доступной и удобной для использования. Подробнее об этом рассказано на сайте Принципы работы Google Поиска.
BERT
BERT – система Google на основе искусственного интеллекта, которая помогает соотносить сочетания слов с различным контекстами и намерениями.
Системы информирования в кризисных ситуациях
Компания Google разработала системы для оперативного предоставления полезной информации в кризисные периоды, к которым относятся личностные кризисы, стихийные бедствия и другие широкомасштабные кризисные ситуации.
- Личностные кризисы. Наши системы способны определять, когда пользователи ищут информацию, связанную с кризисной ситуацией в личной жизни: суицидальными мыслями, изнасилованием, проглатыванием отравляющих веществ, насилием по признаку пола или возникновением наркотической зависимости. В результатах поиска при этом появятся телефоны доверия и материалы проверенных организаций. Подробнее о результатах Google Поиска по запросам, связанным с личностными кризисами…
- Экстренные оповещения. Во время стихийных бедствий или широкомасштабных кризисов система экстренных оповещений будет показывать информацию, публикуемую местными, национальными и международными органами государственной власти. Примеры такой информации: номера телефонов и адреса сайтов для экстренной связи, карты, переводы важных фраз, способы отправки пожертвований и т. д. Подробнее об алгоритме экстренных оповещений и его роли в работе системы Google, которая применяется во время стихийных бедствий…
Системы дедупликации
Поиск по индексу Google может возвращать тысячи или даже миллионы подходящих под запрос веб-страниц. Некоторые из них могут быть очень схожими между собой. В таких случаях системы Google показывают только наиболее релевантные результаты без ненужных дубликатов. Подробнее о дедупликации и способах посмотреть исключенные результаты…
Дедупликация применяется и к выделенным описаниям. Если на какой-либо веб-странице есть информация, которая будет вынесена в выделенное описание, оно не будет повторяться на первой странице результатов. Это помогает упорядочить результаты и упрощает пользователям поиск релевантной информации.
Система контроля точного соответствия доменов
Для систем ранжирования Google слова в доменных именах – это один из множества критериев релевантности контента. Наша система контроля точного соответствия доменов поможет отфильтровать контент, размещенный в доменах, которые были специально адаптированы под соответствие определенным запросам. Например, доменное имя "кафе-с-лучшими-бизнес-ланчами" явно указывает на стремление владельца поднять страницу в список лучших результатов. Система контроля Google блокирует такие попытки найти лазейки.
Системы ранжирования по актуальности
Чтобы оправдывать ожидания пользователей во всех случаях, когда запрос предполагает получение последних новостей, компания Google использует несколько систем для отслеживания актуальности результатов. Например, при поиске информации о недавно выпущенном фильме большинство обычно ожидает увидеть не старые статьи о начале съемок, а свежие рецензии. Запрос "землетрясение" может вернуть страницы с правилами поведения при землетрясении. Но если где-либо в мире недавно произошло землетрясение, в результатах могут появиться новости об этом.
Системы анализа ссылок и PageRank
У нас есть несколько систем для отслеживания ссылок, связывающих страницы между собой. Эти системы помогают определить смысловое содержание страниц и подобрать результаты, больше всего соответствующие введенному запросу. К таким системам относится и PageRank, один из основных алгоритмов ранжирования и ровесник поисковой системы Google. Подробнее о нем рассказывается в оригинальной научной статье и на странице с описанием патента. С тех пор алгоритм PageRank сильно изменился, но он по-прежнему остается одной из основных систем ранжирования Google.
Системы поиска местных новостей
У Google также есть системы, помогающие находить местные источники новостей, например для каруселей "Главные новости" или "Местные новости".
MUM
MUM (Multitask Unified Model) – система на основе искусственного интеллекта, умеющая распознавать сложные запросы и предлагать ответы на них. В Google Поиске она используется не для ранжирования результатов по общим запросам, а для более узких целей, например для улучшения поисковой выдачи о вакцине от вируса COVID-19 или выделенных описаний.
Алгоритм нейронных соответствий
Алгоритм нейронных соответствий распознает в запросах концепции и подбирает для них подходящие страницы. Он основан на принципах искусственного интеллекта.
Системы определения уникального контента
Компания Google использует системы, благодаря которым в результатах поиска первые места занимает уникальный контент, в том числе оригинальные репортажи, а не материалы с цитатами из них. Например, мы внедрили поддержку канонической разметки, чтобы авторам было проще найти основную страницу среди ее дубликатов на разных ресурсах.
Системы понижения рейтинга из-за удаления контента
Если контент определенного типа нарушает правила Google, он может быть удален. Если в отношении какого-либо сайта поступает много запросов на удаление контента, для нас это признак того, что нужно улучшить поисковые алгоритмы. В их числе:
- Удаление на юридических основаниях: Когда нам поступает множество запросов на удаление контента в связи с нарушением авторских прав в отношении определенного сайта, это может стать поводом для понижения позиции остальных его материалов в результатах поиска Google. Это делается для того, чтобы контент, нарушающий авторские права, встречался пользователям реже, чем уникальный контент. Мы понижаем позиции и при наличии жалоб другого рода, например на клевету или поддельные товары, а также при получении запроса на удаление контента по решению суда. Обнаруживая контент, представляющий несовершеннолетних в сексуальном контексте, мы всегда удаляем его, а также понижаем рейтинг сайтов с высокой долей такого контента.
- Удаление персональных данных: Если в отношении какого-либо сайта, требующего плату за удаление данных, поступает множество запросов на удаление персональных данных, мы понижаем позиции остальных его материалов в результатах поиска Google. Мы также ищем признаки подобного поведения на других сайтах. Обнаружив эти признаки, мы понижаем позиции таких сайтов. Кроме того, мы можем понижать позиции сайтов, в отношении которых поступает много запросов на удаление контента, размещенного в целях доксинга, личного контента сексуального характера, который был создан или распространен без разрешения, или фиктивного контента сексуального характера, который был опубликован без разрешения.
Система ранжирования фрагментов
Система ранжирования фрагментов – это интеллектуальный алгоритм, который предназначен для анализа отдельных разделов (или "фрагментов") веб-страницы, чтобы оценить ее релевантность относительно поискового запроса.
Система RankBrain
RankBrain представляет собой систему на основе искусственного интеллекта, которая отвечает за сопоставление слов с концепциями. Это значит, что, даже если на сайте с релевантным контентом не будет слов из поискового запроса в точной форме, он все равно займет высокую позицию, так как будет распознана связь с другими словами и концепциями.
Системы ранжирования по надежности информации
Поисковая система Google объединяет множество алгоритмов, благодаря которым в результаты попадают наиболее заслуживающие доверия материалы. Этого удается достичь, в частности, за счет выбора надежных страниц, понижения позиций низкокачественного контента и приоритизации высококачественной журналистики. Когда заслуживающая доверия информация отсутствует, в результаты автоматически добавляются предупреждения о контенте. Это может происходить, если пользователя интересуют темы, вызывающие активное обсуждение, или если мы не уверены в качестве результатов поиска. В этих предупреждениях содержатся советы, как улучшить запрос, чтобы получить более полезные результаты. Подробнее о том, как получить заслуживающие доверия результаты в Google Поиске…
Система отзывов
Система ранжирования отзывов необходима для того, чтобы преимущество в результатах поиска Google получали более качественные отзывы, которые подготовлены экспертами или компетентными пользователями и содержат подробный анализ или оригинальное исследование.
Система обеспечения разнообразия сайтов
Наша система обеспечения разнообразия сайтов, как правило, не допускает показа в списке популярных результатов более двух веб-страниц с одного и того же сайта, чтобы все лидирующие позиции не оказались заняты одним ресурсом. Исключения возможны, если наши алгоритмы оценивают такие страницы как особенно релевантные для определенного поискового запроса. Субдомены в большинстве случаев считаются частью корневого домена. Например, описания с уровня субдомена (subdomain.example.com) и корневого домена (example.com) будут считаться относящимися к одному и тому же сайту. Но с точки зрения разнообразия релевантные для запроса субдомены могут в некоторых случаях расцениваться как отдельные сайты.
Системы обнаружения веб-спама
Никому не хочется видеть в папке входящих электронных писем спам, поэтому спам-фильтры никогда не бывают лишними. В сервисе "Google Поиск" существует похожая проблема – интернет переполнен спамом, который, если с ним не бороться, может вытеснить действительно полезные и релевантные результаты. Для блокировки контента и действий, которые нарушают наши правила в отношении веб-спама, мы используем различные системы обнаружения, в том числе SpamBrain. Они постоянно обновляются, чтобы пользователи Google были всегда защищены от эволюционирующей угрозы спама.
Системы, поддержка которых была прекращена
Описания следующих систем приведены для того, чтобы сохранить информацию о них в архивах Google. В настоящее время они стали частью алгоритмов, которые пришли им на смену, или основных систем ранжирования Google.
Система ранжирования по качеству контента
Эта система была представлена в 2022 году и в то время называлась новым алгоритмом определения полезного контента. Ее предназначение заключалось в том, чтобы помогать пользователям получать в результатах поиска оригинальный и полезный контент, который был создан людьми и для людей, а не материалы, направленные в первую очередь на привлечение трафика из поисковой системы. А в марте 2024 года мы включили ее в состав наших основных алгоритмов ранжирования, которые опираются на широкий спектр сигналов и инструментов, чтобы подбирать наиболее подходящие результаты для пользователей.
Hummingbird
Это было крупное обновление для систем ранжирования, выпущенное в августе 2013 года. Оно стало важным этапом в их развитии, но впоследствии его сменили более совершенные алгоритмы.
Система Panda
Эта система была создана для того, чтобы в результатах поиска появлялся высококачественный и уникальный контент. Мы выпустили ее в 2011 году под названием Panda, а в 2015 году интегрировали в основные системы ранжирования Google.
Система Penguin
Эта система предназначалась для борьбы со ссылочным спамом. Она была анонсирована и выпущена в 2012 году под названием "обновление Penguin", а спустя четыре года интегрирована в основные системы ранжирования Google.