PDFs nos resultados da pesquisa do Google

Quinta-feira, 1º de setembro de 2011

Nosso objetivo é organizar as informações do mundo para que sejam úteis e universalmente acessíveis. Durante essa missão ambiciosa, às vezes encontramos arquivos não HTML, como PDFs, planilhas e apresentações. Esses diferentes tipos de arquivo não deixam nossos algoritmos mais lentos. Trabalhamos muito para extrair e indexar o conteúdo relevante adequadamente nos resultados da pesquisa. No entanto, como realmente indexamos esses tipos de arquivos e quais diretrizes se aplicam, já que eles costumam ser muito diferentes do HTML padrão? E se um webmaster não quiser que eles sejam indexados?

O Google começou a indexar arquivos PDF em 2001 e atualmente tem centenas de milhões de arquivos PDF indexados. Coletamos as perguntas mais frequentes sobre a indexação de PDF, e aqui estão as respostas:

P: O Google consegue indexar qualquer tipo de arquivo PDF?
R: Geralmente, conseguimos indexar conteúdo de texto (escrito em qualquer idioma) de arquivos PDF que usam vários tipos de codificações de caracteres, desde que não sejam protegidos por senha nem criptografados. Se o texto está incorporado como imagens, elas podem ser processadas com algoritmos de OCR para a extração. A regra geral é que, se você conseguir copiar e colar o texto de um arquivo PDF em um documento de texto padrão, será possível indexá-lo.

P: O que acontece com as imagens nos arquivos PDF?
R: Atualmente, as imagens não são indexadas. Para indexarmos suas imagens, crie páginas HTML para elas. Para aumentar a probabilidade de retornarmos suas imagens nos resultados da pesquisa, leia as práticas recomendadas do Imagens do Google.

P: Como os links são tratados em documentos PDF?
R: Geralmente, os links em arquivos PDF são tratados de maneira semelhante aos links em HTML: eles conseguem transmitir o PageRank e outros indicadores de indexação, e podemos segui-los depois de rastrear o arquivo PDF. No momento, não é possível usar links nofollow em um documento PDF.

P: Como posso impedir que meus arquivos PDF apareçam nos resultados da pesquisa? Se eles já são exibidos, como posso removê-los?
R: A maneira mais simples de evitar que os documentos PDF apareçam nos resultados da pesquisa é adicionar X-Robots-Tag: noindex no cabeçalho HTTP usado para exibir o arquivo. Caso eles já estejam indexados, serão descartados ao longo do tempo se você usar X-Robot-Tag com a regra noindex. Para remoções mais rápidas, use a Ferramenta de remoção de URL no Search Console.

P: Os arquivos PDF podem ter uma classificação alta nos resultados da pesquisa?
R: Claro. Geralmente, eles são classificados de maneira semelhante a outras páginas da Web. Por exemplo, no momento desta postagem, análise do mercado hipotecário, formulário do IRS de 2011 ou relatório especializado sobre o paracetamol mostram documentos PDF que têm uma classificação alta nos resultados da pesquisa, graças ao conteúdo e à forma como são incorporados e vinculados a outras páginas da Web.

P: O conteúdo é considerado duplicado se eu tiver uma cópia das minhas páginas em HTML e PDF?
R: Sempre que possível, recomendamos exibir uma única cópia do conteúdo. Se isso não for possível, indique a versão preferida, incluindo, por exemplo, o URL preferencial no sitemap ou especificando a versão canônica no HTML ou nos cabeçalhos HTTP do recurso PDF. Para mais dicas, leia nosso artigo da Central de Ajuda sobre canonização.

P: Como posso influenciar o título exibido nos resultados da pesquisa do meu documento PDF?
R: Usamos dois elementos principais para determinar o título exibido: os metadados do título no arquivo e o texto âncora dos links que apontam para o arquivo PDF. Para indicar aos nossos algoritmos o título adequado, recomendamos atualizar ambos.

Para saber mais, assista ao vídeo de Matt Cutt sobre a otimização de arquivos PDF para pesquisa e acesse nossa Central de Ajuda para informações sobre os tipos de conteúdo que indexamos. Se você tiver comentários ou sugestões, entre em contato pelo Fórum de Ajuda para webmasters.