Archivos PDF en los resultados de la Búsqueda de Google

Jueves, 1 de septiembre de 2011

Nuestra misión es organizar la información del mundo para que todos puedan acceder a ella y usarla. En esta ambiciosa misión, a veces nos encontramos con archivos que no son HTML, como los PDF, las hojas de cálculo y las presentaciones. Nuestros algoritmos no se detienen ante formatos de archivo diferentes. Trabajamos duro a fin de indexar y extraer el contenido relevante de forma adecuada para poder incluirlo en los resultados de la búsqueda. Pero, si estos formatos de archivo difieren tanto de los archivos HTML estándar, ¿cómo los indexamos realmente y qué lineamientos aplicamos? ¿Y si un webmaster no quiere que los indexemos?

Google comenzó a indexar archivos PDF por primera vez en 2001 y, actualmente, cuenta con cientos de millones de archivos PDF indexados. A continuación, respondemos algunas de las preguntas más frecuentes sobre la indexación de archivos PDF:

P: ¿Google puede indexar cualquier tipo de archivo PDF?
R: Por lo general, podemos indexar contenido textual (escrito en cualquier idioma) de los archivos PDF que usan varios tipos de codificaciones de caracteres, siempre que no estén encriptados ni protegidos por contraseña. Si el texto se insertó en forma de imágenes, podemos procesarlas con algoritmos OCR para extraer el texto. La regla general es que si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, deberíamos poder indexarlo.

P: ¿Qué sucede con las imágenes de los archivos PDF?
R: Actualmente, las imágenes no se indexan. Para que podamos hacerlo, deberías crear páginas HTML para ellas. Si quieres aumentar las probabilidades de que podamos incluir tus imágenes en los resultados de la búsqueda, consulta las prácticas recomendadas de Google Imágenes.

P: ¿Cómo se tratan los vínculos incluidos en los documentos PDF?
R: Por lo general, los vínculos incluidos en los documentos PDF se tratan de forma similar a los que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo nofollow en los vínculos de un documento PDF.

P: ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de la búsqueda? Y, si ya aparecen, ¿cómo puedo quitarlos?
R: La manera más sencilla de evitar que se muestren documentos PDF en los resultados de la búsqueda es agregar una etiqueta X-Robots-Tag: noindex en el encabezado HTTP que se usa para mostrar el archivo. Si ya están indexados, dejarán de aparecer con el tiempo si usas la etiqueta X-Robot-Tag con la regla noindex. Para acelerar la eliminación, puedes usar la herramienta Eliminaciones de URL de las Herramientas para webmasters de Google.

P: ¿Los archivos PDF pueden obtener una buena clasificación en los resultados de la búsqueda?
R: Por supuesto. Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Por ejemplo, al momento de esta publicación, mortgage market review, irs form 2011 o paracetamol expert report muestran documentos PDF que obtienen una buena posición en los resultados de la búsqueda gracias a su contenido y a la forma en la que están incorporados y vinculados desde otras páginas web.

P: ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF?
R: Siempre que sea posible, te recomendamos que muestres una única copia de tu contenido. Si no es posible, asegúrate de indicar cuál es tu versión preferida. Para ello, puedes incluir la URL que prefieras en tu mapa del sitio o especificar la versión canónica en el archivo HTML o en los Encabezados HTTP del PDF. Para obtener más sugerencias, consulta nuestro artículo del Centro de ayuda sobre la canonicalización.

P: ¿Cómo puedo influenciar el título que aparece en los resultados de la búsqueda de mi documento PDF?
R: Usamos dos elementos principales para determinar el título que mostramos: los metadatos del título que contiene el archivo y el texto de hipervínculo de los vínculos que dirigen al archivo PDF. Para que nuestros algoritmos capten claramente el título que deben usar, te recomendamos que actualices ambos elementos.

Si quieres obtener más información, mira el video de Matt Cutts sobre optimización de archivos PDF para búsquedas y visita elCentro de ayuda para obtener información relacionada con los tipos de contenido que podemos indexar. Si tienes comentarios o sugerencias, puedes comunicarte con nosotros mediante el Foro de ayuda para webmasters.