Quinta-feira, 1º de setembro de 2011
Nosso objetivo é organizar as informações do mundo para que sejam úteis e universalmente acessíveis. Durante essa missão ambiciosa, às vezes encontramos arquivos não HTML, como PDFs, planilhas e apresentações. Esses diferentes tipos de arquivo não deixam nossos algoritmos mais lentos. Trabalhamos muito para extrair e indexar o conteúdo relevante adequadamente nos resultados da pesquisa. No entanto, como realmente indexamos esses tipos de arquivos e quais diretrizes se aplicam, já que eles costumam ser muito diferentes do HTML padrão? E se um webmaster não quiser que eles sejam indexados?
O Google começou a indexar arquivos PDF em 2001 e atualmente tem centenas de milhões de arquivos PDF indexados. Coletamos as perguntas mais frequentes sobre a indexação de PDF, e aqui estão as respostas:
P: O Google consegue indexar qualquer tipo de arquivo PDF?
R: Geralmente, conseguimos indexar conteúdo de texto (escrito em qualquer idioma) de arquivos PDF que usam
vários tipos de codificações de caracteres, desde que não sejam protegidos por senha nem criptografados. Se o
texto está incorporado como imagens, elas podem ser processadas com
algoritmos de
OCR para a extração. A regra geral é que, se você conseguir copiar e colar
o texto de um arquivo PDF em um documento de texto padrão, será possível indexá-lo.
P: O que acontece com as imagens nos arquivos PDF?
R: Atualmente, as imagens não são indexadas. Para indexarmos suas imagens, crie
páginas HTML para elas. Para aumentar a probabilidade de retornarmos suas imagens nos resultados da pesquisa,
leia as
práticas recomendadas do Imagens do Google.
P: Como os links são tratados em documentos PDF?
R: Geralmente, os links em arquivos PDF são tratados de maneira semelhante aos links em HTML: eles conseguem transmitir o PageRank
e outros indicadores de indexação, e podemos segui-los depois de rastrear o arquivo PDF. No momento,
não é possível usar links
nofollow
em um documento PDF.
P: Como posso impedir que meus arquivos PDF apareçam nos resultados da pesquisa? Se eles já são exibidos, como
posso removê-los?
R: A maneira mais simples de evitar que os documentos PDF apareçam nos resultados da pesquisa é adicionar
X-Robots-Tag: noindex
no cabeçalho HTTP usado para exibir o arquivo. Caso eles já estejam
indexados, serão descartados ao longo do tempo se você usar X-Robot-Tag
com a
regra noindex
. Para remoções mais rápidas, use a
Ferramenta de remoção de URL
no Search Console.
P: Os arquivos PDF podem ter uma classificação alta nos resultados da pesquisa?
R: Claro. Geralmente, eles são classificados de maneira semelhante a outras páginas da Web. Por exemplo, no momento desta
postagem,
análise do mercado hipotecário,
formulário do IRS de 2011 ou
relatório especializado sobre o paracetamol
mostram documentos PDF que têm uma classificação alta nos resultados da pesquisa, graças ao conteúdo
e à forma como são incorporados e vinculados a outras páginas da Web.
P: O conteúdo é considerado duplicado se eu tiver uma cópia das minhas páginas em HTML e PDF?
R: Sempre que possível, recomendamos exibir uma única cópia do conteúdo. Se isso não for possível,
indique a versão preferida, incluindo, por exemplo, o URL preferencial no
sitemap ou especificando a versão canônica no HTML ou nos
cabeçalhos HTTP
do recurso PDF. Para mais dicas, leia nosso artigo da Central de Ajuda sobre
canonização.
P: Como posso influenciar o título exibido nos resultados da pesquisa do meu documento PDF?
R: Usamos dois elementos principais para determinar o título exibido: os metadados do título no arquivo e
o texto âncora dos links que apontam para o arquivo PDF. Para indicar aos nossos algoritmos
o título adequado, recomendamos atualizar ambos.
Para saber mais, assista ao vídeo de Matt Cutt sobre a otimização de arquivos PDF para pesquisa e acesse nossa Central de Ajuda para informações sobre os tipos de conteúdo que indexamos. Se você tiver comentários ou sugestões, entre em contato pelo Fórum de Ajuda para webmasters.