Как мы удаляем URL (часть 1): URL и каталоги

Вторник, 30 марта 2010 г.

Сегодня в интернете огромное количество контента. Иногда в интернет может утечь информация, которой там не место. Это может быть что угодно, от эмоциональной записи в блоге, за которую вам стыдно, до случайно раскрытых конфиденциальных данных. Как правило, если удалить такой контент или ограничить к нему доступ, то через некоторое время он исчезнет из результатов поиска. Однако порой нужно срочно удалить нежелательный контент, попавший в индекс Google, и у вас нет времени ждать, пока он исчезнет сам. В этом случае вы можете ускорить удаление контента из результатов поиска с помощью нашего инструмента удаления URL. При этом контент должен соответствовать определенным критериям (о них поговорим позже).

В нашем блоге есть серия статей, где объясняется, как удалять различный контент и как избежать стандартных ошибок. В нашей первой публикации мы разберем несколько базовых сценариев: как удалить отдельный URL, как удалить весь каталог или сайт и как вернуть удаленный контент в результаты поиска. Я также настоятельно рекомендую ознакомиться с нашей предыдущей статьей, посвященной публикации личной информации в интернете.

Как удалить отдельный URL

Как правило, чтобы запрос на удаление URL был выполнен, его владелец (вы или кто-то ещё) должен дать на это согласие. В случае с отдельным URL это согласие может выражаться тремя способами:

Перед тем как запросить удаление, убедитесь, что URL заблокирован правильно:

  • Файл robots.txt. Проверить, правильно ли заблокирован URL, можно с помощью таких функций Инструментов для веб-мастеров, как Просмотреть как Googlebot или проверка файла robots.txt.
  • Метатег noindex. С помощью функции "Просмотреть как Googlebot" убедитесь, что метатег располагается между тегами <head> и </head>. Если вы хотите проверить страницу, право собственности на которую не можете подтвердить в Инструментах для веб-мастеров, то откройте в браузере ее исходный код и поищите метатег между тегами <head> и </head>.
  • Код статуса 404 и 410. Чтобы убедиться, что URL возвращает нужный код, воспользуйтесь функцией "Просмотреть как Googlebot" или инструментами проверки HTTP-ответов, например Live HTTP Headers или web-sniffer.net. Иногда страницы, считающиеся удаленными, могут для самих страниц возвращать ошибку 404 или ответ "Не найдено", а для их заголовков – код статуса 200. Поэтому под рукой стоить иметь ещё и эффективный инструмент проверки заголовков.

Если нежелательный контент был удален со страницы, но сама она не была заблокирована одним из указанных выше способов, вы не сможете полностью удалить её URL из результатов поиска Google. Чаще всего это случается, когда вы не являетесь владельцем сайта, на котором размещен этот контент. Что делать в подобной ситуации, подробно описано во второй части инструкций по удалению контента.

Если URL соответствует одному из указанных выше критериев, то вы можете удалить его с помощью инструмента удаления URL. Для этого укажите нужный URL и выберите вариант "Веб-мастер уже заблокировал страницу". Обратите внимание, что указывать нужно URL размещения контента, а не URL, под которым он отображается в Google Поиске. Например, нужно указать https://www.example.com/embarrassing-stuff.html, но никак не https://www.google.com/search?q=embarrassing+stuff.

Узнайте, как убедиться, что вы указываете верный URL. Если вы не сообщите нам точный URL, мы не сможем удалить контент.

Как удалить целый каталог или сайт

Чтобы удаление каталога или сайта прошло успешно, сначала нужно запретить их сканирование в файле robots.txt. Например, чтобы можно было удалить каталог https://www.example.com/secret/, файл robots.txt должен содержать следующую запись:

User-agent: *
Disallow: /secret/

Недостаточно того, что корневой каталог возвращает код статуса 404: даже если вы видите код 404 для каталога, файлы из него могут появляться в результатах поиска. Если заблокировать каталог или весь сайт с помощью файла robots.txt, вы можете быть уверены, что все URL, относящиеся к этому каталогу или сайту, также будут заблокированы. Проверить, правильно ли заблокирован каталог, можно с помощью таких функций Инструментов для веб-мастеров, как Просмотреть как Googlebot или проверка файла robots.txt.

Запрос на удаление каталога или сайта отправляется через Инструменты для веб-мастеров. Сделать это может только подтвержденный владелец сайта. Чтобы отправить запрос на удаление каталога или сайта, выберите нужный сайт и перейдите в раздел Конфигурация сайта > Доступ для поискового робота > Удалить URL. Если указать URL корневого каталога, нужно будет подтвердить, что вы хотите удалить весь сайт. Если вы указали подкаталог, то в раскрывающемся меню выберите вариант "Удалить каталог".

Как вернуть контент в результаты поиска

Отменить запрос на удаление контента, относящегося к вашему сайту, вы можете в любое время. Это может быть как ваш запрос, так и отправленный другим пользователем. Для этого вы должны подтвердить права на сайт, что можно сделать с помощью Инструментов для веб-мастеров. После этого перейдите в раздел Конфигурация сайта > Доступ для поискового робота > Удалить URL > Удаленные URL (или > Сторонние запросы на удаление) и рядом с ненужными запросами нажмите "Отменить".

Остались вопросы? Следите за продолжением нашей серии статей на тему удаления контента из результатов поиска Google. Тем временем много полезной информации по удалению URL с разбором индивидуальных случаев вы можете найти на нашем справочном форуме. Там же вы можете задавать вопросы. Имейте в виду, что не зная, о каком URL или сайте идет речь, трудно дать конкретный совет. В сообщениях рекомендуем пользоваться сервисом сокращения URL, чтобы указанные вами URL не попали в индекс. Иногда подобные сервисы позволяют отключить сокращенную версию после того, как ваш вопрос был решен.

Также вам может быть интересно почитать о том, как управлять своей личной информацией в интернете.