Как мы удаляем URL (часть 2): удаление конфиденциальной информации со страницы

Пятница, 6 августа 2010 г.

Все течет, все изменяется. В нашей предыдущей статье об удалении URL мы говорили о том, что иногда вам может понадобиться полностью заблокировать или удалить на вашем сайте ту или иную страницу. А бывает так, что нужно изменить лишь несколько областей страницы или убрать некоторые фрагменты текста. Эти изменения могут не сразу отобразиться в результатах поиска, и все зависит от частоты сканирования страницы. В этой статье мы поговорим о том, что делать, если в результатах поиска все ещё отображается старый, удаленный контент. Это может быть или устаревшее описание страницы, или контент с кешированной страницы, ссылка на которую осталась в результатах поиска. Действовать быстро имеет смысл только в том случае, если старый контент содержит конфиденциальную информацию, которую нужно срочно удалить. Если же вы просто проводите стандартное обновление сайта, достаточно просто подождать.

К примеру, возьмем следующий условный результат поиска:

Уолтер Е. Койот Это заголовок.

Chief Development Officer at Acme Corp 1948-2003: worked on the top
secret velocitus incalculii capturing device which has shown potential…

Это описание страницы.
www.example.com/about/waltercoyote – Сохраненная копия Это URL и ссылка на кешированную страницу

Чтобы изменить контент, отображаемый в описании страницы или в ее кешированном экземпляре, сначала нужно изменить контент опубликованной страницы. Пока на странице не будет изменен общедоступный контент, его фрагменты продолжат появляться в результатах поиска Google в исходном виде.

Если контент страницы был изменен, есть несколько способов добиться появления обновленного контента в результатах поиска:

  1. Дождаться, пока робот Googlebot повторно не просканирует и не проиндексирует страницу. Таким образом обновляется почти весь контент в индексе Google. В зависимости о того, как часто робот Googlebot сканирует ту или иную страницу, это может занять довольно много времени. Как только мы просканируем и проиндексируем страницу, старый контент в индексе будет заменен на актуальный. Если роботу Googlebot ничто не мешает просканировать страницу (отсутствует запрет в файле robots.txt и имеется стабильный доступ к серверу), вам не нужно ничего делать. Как правило, ускорить сканирование и индексирование нельзя, поскольку это полностью автоматизированные процессы, которые зависят от множества внешних факторов.

  2. Чтобы запросить удаление из результатов поиска контента, который был убран с не принадлежащей вам веб-страницы, воспользуйтесь нашим инструментом удаления общедоступных URL. При использовании этого инструмента нужно указать точный URL измененной страницы, выбрать вариант "Со страницы был удален контент" и указать одно или несколько слов, которые были полностью удалены.

    инструмент удаления кеша

    Обратите внимание, что указывать можно только те слова, которые были удалены полностью. Если слово было удалено в одной части страницы, а в другой части оно осталось, ваш запрос будет отклонен. Убедитесь, что на этой странице выбранного слова (или слов) больше нигде нет. Если в приведенном выше примере удалить фразу "top secret velocitus incalculii capturing device", то в запросе нужно указать именно эти слова, а не что-то вроде "мой проект". Однако если со страницы удалены не все слова "top" или "device", запрос будет отклонен. Чтобы увеличить шансы на успех, иногда достаточно ввести слово, которого уже точно нет на этой странице.

    Если после обработки вашего запроса выяснится, что отправленные слова не встречаются на странице, то в результатах поиска больше не будет появляться ее описание, а кешированная страница станет недоступной. При этом заголовок и URL страницы будут по-прежнему доступны, а запись может появляться в результатах поиска по запросам, которые относятся к удаленному контенту (например, velocitus incalculii), даже если эти слова больше не присутствуют в описании страницы. Однако как только страница будет просканирована и проиндексирована заново, в результатах поиска станут отображаться обновленное описание и новая кешированная страница.

    Помните, что нам потребуется проверить удаление указанных слов, просмотрев эту страницу. Если сделать это невозможно, потому что ее больше нет, а сервер возвращает ошибку 404 или 410, то лучше запросить удаление страницы.

  3. Воспользуйтесь инструментом удаления URL в Search Console, чтобы запросить удаление информации со страницы вашего сайта. Если у вас есть доступ к сайту и вы подтвердили право собственности через Инструменты для веб-мастеров, то вы сможете там же воспользоваться инструментом удаления URL. Перейдите в раздел Конфигурация сайта > Доступ для поискового робота, запросите удаление описания страницы и ее кешированного экземпляра и ожидайте повторного сканирования. Достаточно отправить точный URL страницы (указывать удаленные слова не нужно). Обработав запрос, мы удалим описание страницы и ее кешированный экземпляр из результатов поиска. При этом заголовок и URL страницы будут по-прежнему доступны, а страница может появляться в результатах поиска по запросам, которые относятся к удаленному контенту. Как только страница будет просканирована и проиндексирована заново, в результатах поиска станут показываться обновленное описание страницы и ее новый кешированный экземпляр.

Google индексирует и ранжирует страницы не только на основании их контента, но и с учетом внешних факторов, таких как входящие ссылки. Из-за этого URL, относящийся к удаленному со страницы контенту, может появляться в результатах поиска даже после того, как страница была заново просканирована и проиндексирована. Хотя инструмент удаления URL и позволяет удалить из результатов поиска описание страницы и ее кешированный экземпляр, с его помощью нельзя изменить или удалить заголовок результата поиска, изменить отображаемый URL или запретить показ страницы в результатах поиска по новому или старому контенту. Если для вас это действительно важно, убедитесь, что URL соответствует требованиям, относящимся к полному удалению из результатов поиска Google.

Удаление контента в формате, отличном от HTML

Если формат измененного контента отличается от (X)HTML (например, было изменено изображение, файл Flash или файл PDF), вы не сможете воспользоваться инструментом удаления кеша. Поэтому, если вы не хотите, чтобы старый контент продолжал показываться в результатах поиска, рекомендуем изменить URL файла. Прежний URL станет возвращать ошибку 404, и нужно будет удалить его с помощью инструмента удаления URL. Также вы можете подождать, пока информация о вашем контенте не обновится автоматически. Однако учтите, что обновление предварительного просмотра для контента в формате, отличном от HTML (например, ссылок быстрого просмотра для файлов PDF), занимает больше времени, чем для стандартных HTML-страниц.

Как запретить показ описаний страниц и их кешированных версий

Запретить показ описаний страниц или их кешированных версий без использования инструментов удаления можно с помощью тега robots (meta). Мы не рекомендуем слишком часто прибегать к данному методу, поскольку описание страницы помогает пользователям ориентироваться в результатах поиска, а ее кешированная копия позволит им ознакомиться с контентом, даже если ваш сервер вдруг окажется недоступен. Тем не менее вы можете указать в теге robots (meta) правило nosnippet, чтобы запретить показ описания страницы, или правило noarchive в теге robots (meta), чтобы отключить ее кеширование. Обратите внимание, что если изменения коснутся уже проиндексированных страниц, то роботу Googlebot понадобится заново просканировать и проиндексировать эти страницы, прежде чем исправления отобразятся в результатах поиска.

Надеемся, что из этой статьи вам стало понятно, как работает инструмент удаления URL при обновлении страниц. В нашей следующей статье мы поговорим о том, как запрашивать удаление контента, который вам не принадлежит. Следите за новостями!.

Если у вас возникнут вопросы или комментарии, пишите нам на справочном форуме для веб-мастеров.

Также вам может быть интересно почитать о том, как управлять своей личной информацией в интернете.