Explicação sobre a remoção de URLs, parte II: remoção de texto confidencial de uma página

Sexta-feira, 6 de agosto de 2010

Às vezes, mudanças podem acontecer. Como discutimos na postagem anterior sobre remoções de URLs, você pode bloquear ou remover completamente uma página do seu site. Outras vezes, é possível mudar apenas partes de uma página ou remover determinados textos. Dependendo da frequência com que uma página é rastreada, pode levar algum tempo até que essas alterações apareçam nos resultados da pesquisa. Nesta postagem do blog, veremos as etapas que você pode seguir se ainda mostrarmos conteúdo antigo e removido nos resultados da pesquisa, seja na forma de um "snippet" ou na página em cache vinculada ao resultado da pesquisa. Isso é útil quando o conteúdo antigo contém informações sensíveis que precisam ser removidas rapidamente. Não é necessário fazer isso ao atualizar um site normalmente.

Como exemplo, veja o seguinte resultado de pesquisa fictício:

Walter E. Coyote < Título

Diretor de desenvolvimento da Acme Corp 1948-2003: trabalhou no
dispositivo secreto velocitus incalculii que demonstrou potencial...

< Snippet
www.example.com/about/waltercoyote - Em cache < URL + link para a página em cache

Para mudar o conteúdo exibido no snippet (ou na página em cache vinculada), primeiro você precisa alterar o conteúdo na página real (ativa). A menos que o conteúdo publicamente visível de uma página seja alterado, os processos automáticos do Google vão continuar mostrando partes do conteúdo original nos resultados da pesquisa.

Depois que o conteúdo da página for alterado, há várias opções disponíveis para tornar essas mudanças visíveis nos nossos resultados da pesquisa:

  1. Espere o Googlebot rastrear e indexar novamente a página: esse é o método natural de como a maior parte do conteúdo é atualizada no Google. Às vezes, isso pode demorar bastante, dependendo da frequência em que o Googlebot rastreia a página em questão. Depois de rastrear e indexar novamente a página, o conteúdo antigo geralmente não ficará visível, porque será substituído pelo conteúdo atual. Desde que o Googlebot não esteja bloqueado para rastrear a página em questão (por robots.txt ou por não conseguir acessar o servidor corretamente), você não precisará fazer nada especial para que isso aconteça. Geralmente, não é possível acelerar o rastreamento e a indexação, porque esses processos são totalmente automatizados e dependem de muitos fatores externos.

  2. Use a Ferramenta de remoção de URL público do Google para solicitar a remoção de conteúdo que foi removido da página da Web de outra pessoa. Usando essa ferramenta, é necessário inserir o URL exato da página que foi modificada, selecionar a opção "O conteúdo foi removido da página" e depois especificar uma ou mais palavras que foram completamente removidas dessa página.

    Ferramenta de remoção de cache do Google

    Nenhuma das palavras que você inserir vai aparecer na página. Mesmo que uma palavra tenha sido removida de uma parte da página, sua solicitação vai ser negada se essa palavra ainda aparecer em outra parte da página. Escolha uma ou mais palavras que não aparecem mais em nenhum lugar da página. No exemplo acima, se você removeu "top secret velocitus incalculii capturing device", envie essas palavras e não algo como "meu projeto". No entanto, se a palavra "top" ou "device" ainda existir em algum lugar da página, a solicitação vai ser negada. Para aumentar as suas chances de sucesso, muitas vezes é mais fácil inserir apenas uma palavra que você tem certeza de que não aparece mais em nenhum lugar da página.

    Uma vez que sua solicitação tenha sido processada e for verificado que as palavras enviadas não aparecem mais na página, o resultado de pesquisa não vai mostrar mais um snippet e a página em cache não vai estar mais disponível. O título e o URL da página ainda vão ficar visíveis, e talvez a entrada ainda apareça nos resultados das pesquisas relacionadas ao conteúdo que foi removido (como pesquisas por velocitus incalculii), mesmo se essas palavras não aparecerem mais no snippet. No entanto, assim que a página for rastreada e indexada novamente, o novo snippet e a página em cache vão ficar visíveis nos resultados da pesquisa.

    Lembre-se que precisaremos verificar a remoção das palavras visualizando a página. Se a página não existir mais e o servidor estiver retornando um código de resultado HTTP 404 ou 410 adequado, o que nos impede de ver a página, talvez seja melhor solicitar a remoção da página completamente.

  3. Use a Ferramenta de remoção de URL das Ferramentas do Google para webmasters para solicitar a remoção de informações em uma página do seu site. Se você tiver acesso ao site em questão e tiver confirmado a propriedade dele nas Ferramentas do Google para webmasters, poderá usar a ferramenta de remoção de URL (em Configuração do site > Acesso do rastreador) para solicitar que o snippet e a página em cache sejam removidos até que a página seja rastreada novamente. Para usar essa ferramenta, você só precisa enviar o URL exato da página. Não é necessário especificar nenhuma palavra removida. Quando o pedido for processado, removeremos o snippet e a página em cache dos resultados da pesquisa. O título e o URL da página vão continuar visíveis, e a página também poderá continuar na classificação nos resultados da pesquisa para consultas relacionadas ao conteúdo removido. Depois que a página for rastreada e indexada novamente, o resultado da pesquisa com um snippet atualizado e uma página em cache (com base no novo conteúdo) poderá ficar visível.

Além do conteúdo da página, o Google também considera fatores externos ao indexar e classificar itens, como os links de entrada para o URL. Por isso, é possível que um URL continue a aparecer nos resultados da pesquisa para conteúdo que não exista mais na página, mesmo depois de ela ser rastreada e indexada novamente. Embora a ferramenta de remoção de URL possa remover o snippet e a página em cache de um resultado de pesquisa, ele não altera ou remove o título do resultado, não modifica o URL exibido nem impede que a página seja mostrada em pesquisas baseadas em qualquer conteúdo atual ou anterior. Caso isso seja importante para você, confira se o URL atende aos requisitos para uma remoção completa dos nossos resultados da pesquisa.

Como remover conteúdo não HTML

Se o conteúdo alterado não estiver em (X)HTML (por exemplo, se uma imagem, um arquivo Flash ou um arquivo PDF tiver sido alterado), você não vai poder usar a ferramenta de remoção de cache. Portanto, se for importante que o conteúdo antigo não esteja mais visível nos resultados da pesquisa, a solução mais rápida é mudar o URL do arquivo para que o URL antigo retorne um código de resultado HTTP 404 e usar a Ferramenta de remoção de URL para removê-lo. Caso você tenha permitido que o Google atualize naturalmente suas informações, as visualizações de conteúdo não HTML (como links de visualização rápida para arquivos PDF) podem demorar mais tempo para atualizar após um novo rastreamento do que as páginas HTML normais.

Prevenção proativa de exibição de snippets ou versões em cache

Como webmaster, você tem a opção de usar tags robots meta para evitar a exibição de snippets ou versões em cache sem usar nossas ferramentas de remoção. Você pode usar a tag robots "nosnippet" meta para impedir a exibição de um snippet ou a tag "noarchive" robots meta para desativar o armazenamento em cache de uma página. No entanto, essa abordagem não é recomendada como padrão, porque o snippet pode ajudar os usuários a reconhecer um resultado da pesquisa relevante mais rapidamente e a página em cache permite visualizar o conteúdo mesmo no evento inesperado do seu servidor não estar disponível. Se isso for alterado em páginas existentes e conhecidas, o Googlebot vai precisa rastrear e indexar novamente essas páginas antes que essa mudança se torne visível nos resultados da pesquisa.

Esperamos que esta postagem do blog ajude a esclarecer alguns dos processos por trás da ferramenta de remoção de URL para páginas atualizadas. Na próxima postagem, veremos maneiras de solicitar a remoção de conteúdo que não é seu. Aguarde!

Como sempre, esperamos seu feedback e perguntas no nosso Fórum de Ajuda para webmasters.

Por fim, talvez você também queira ler sobre como gerenciar quais informações estão disponíveis sobre você on-line.