PDFs nos resultados da pesquisa do Google

Quinta-feira, 1º de setembro de 2011

Nosso objetivo é organizar as informações do mundo para que sejam úteis e universalmente acessíveis. Durante essa missão ambiciosa, às vezes encontramos arquivos não HTML, como PDFs, planilhas e apresentações. Esses diferentes tipos de arquivo não deixam nossos algoritmos mais lentos. Trabalhamos muito para extrair e indexar o conteúdo relevante adequadamente nos resultados da pesquisa. No entanto, como realmente indexamos esses tipos de arquivos e quais diretrizes se aplicam, já que eles costumam ser muito diferentes do HTML padrão? E se um webmaster não quiser que eles sejam indexados?

O Google começou a indexar arquivos PDF em 2001 e atualmente tem centenas de milhões de arquivos PDF indexados. Coletamos as perguntas mais frequentes sobre a indexação de PDF, e aqui estão as respostas:

P: O Google consegue indexar qualquer tipo de arquivo PDF?
R: Geralmente, conseguimos indexar conteúdo de texto (escrito em qualquer idioma) de arquivos PDF que usam vários tipos de codificações de caracteres, desde que não sejam protegidos por senha nem criptografados. Se o texto está incorporado como imagens, elas podem ser processadas com algoritmos de OCR para a extração. A regra geral é que, se você conseguir copiar e colar o texto de um arquivo PDF em um documento de texto padrão, será possível indexá-lo.

P: O que acontece com as imagens nos arquivos PDF?
R: Atualmente, as imagens não são indexadas. Para indexarmos suas imagens, crie páginas HTML para elas. Para aumentar a probabilidade de retornarmos suas imagens nos resultados da pesquisa, leia as práticas recomendadas do Imagens do Google.

P: Como os links são tratados em documentos PDF?
R: Geralmente, os links em arquivos PDF são tratados de maneira semelhante aos links em HTML: eles conseguem transmitir o PageRank e outros indicadores de indexação, e podemos segui-los depois de rastrear o arquivo PDF. No momento, não é possível usar links nofollow em um documento PDF.

P: Como posso impedir que meus arquivos PDF apareçam nos resultados da pesquisa? Se eles já são exibidos, como posso removê-los?
R: A maneira mais simples de evitar que os documentos PDF apareçam nos resultados da pesquisa é adicionar X-Robots-Tag: noindex no cabeçalho HTTP usado para exibir o arquivo. Caso eles já estejam indexados, serão descartados ao longo do tempo se você usar X-Robot-Tag com a regra noindex. Para remoções mais rápidas, use a Ferramenta de remoção de URL no Search Console.

P: Os arquivos PDF podem ter uma classificação alta nos resultados da pesquisa?
R: Claro. Geralmente, eles são classificados de maneira semelhante a outras páginas da Web. Por exemplo, no momento desta postagem, análise do mercado hipotecário, formulário do IRS de 2011 ou relatório especializado sobre o paracetamol mostram documentos PDF que têm uma classificação alta nos resultados da pesquisa, graças ao conteúdo e à forma como são incorporados e vinculados a outras páginas da Web.

P: O conteúdo é considerado duplicado se eu tiver uma cópia das minhas páginas em HTML e PDF?
R: Sempre que possível, recomendamos exibir uma única cópia do conteúdo. Se isso não for possível, indique a versão preferida, incluindo, por exemplo, o URL preferencial no sitemap ou especificando a versão canônica no HTML ou nos cabeçalhos HTTP do recurso PDF. Para mais dicas, leia nosso artigo da Central de Ajuda sobre canonização.

P: Como posso influenciar o título exibido nos resultados da pesquisa do meu documento PDF?
R: Usamos dois elementos principais para determinar o título exibido: os metadados do título no arquivo e o texto âncora dos links que apontam para o arquivo PDF. Para indicar aos nossos algoritmos o título adequado, recomendamos atualizar ambos.

Para saber mais, assista ao vídeo de Matt Cutt sobre a otimização de arquivos PDF para pesquisa e acesse nossa Central de Ajuda para informações sobre os tipos de conteúdo que indexamos. Se você tiver comentários ou sugestões, entre em contato pelo Fórum de Ajuda para webmasters.

Postado por Gary Illyes, analista de tendências para webmasters

PDFs nos resultados da pesquisa do Google Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

PDFs nos resultados da pesquisa do Google