miércoles, 9 de diciembre de 2009
Anunciamos un nuevo agente de usuario (user-agent) para el archivo
robots.txt
, que se llama Googlebot-News, y que proporciona a los editores incluso más control sobre su contenido. En caso de que no hayas oído hablar sobre el archivo robots.txt, es un estándar de Internet que se lleva usando
desde 1994
y que ha sido adoptado por todos los principales motores de búsqueda y todos los "robots" que procesan la web de forma adecuada. Cuando un motor de búsqueda mira si tiene permiso para rastrear e indexar una página web, el mecanismo de "mira si tenemos permiso para rastrear esas páginas" está en el archivo robots.txt.
Los editores podrían fácilmente contactar con nosotros a través de un
formulario
si desean no ser incluidos en Google Noticias pero sí quieren aparecer en el índice de resultados de búsqueda web de Google. Ahora, los editores pueden controlar su contenido en Google Noticias de una forma incluso más automatizada. Los dueños de los sitios web pueden simplemente añadir directivas específicas a Googlebot-News en sus archivos robots.txt. De forma parecida a los agentes de usuario Googlebot y Googlebot-Image, el nuevo agente de usuario Googlebot-News puede usarse para especificar que páginas de un sitio web deberían rastrearse y aparecer en Google Noticias.
Aquí os presentamos algunos ejemplos para editores:
Incluir páginas tanto en la búsqueda web de Google como en Noticias:
User-agent: Googlebot
Disallow:
Este es el caso más sencillo. De hecho, no se necesita un archivo robots.txt para este caso.
Incluir páginas en la búsqueda web de Google, pero no en Noticias:
User-agent: Googlebot
Disallow:
User-agent: Googlebot-News
Disallow: /
Este archivo robots.txt dice que no hay ningún archivo al que no se puede acceder para el rastreador general de Google para la web, llamado Googlebot; pero el agente de usuario "Googlebot-News" tiene bloqueado el acceso a todos los archivos del sitio web.
Incluir páginas en Google Noticias, pero no en la búsqueda web de Google:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-News
Disallow:
Cuando se mira un archivo robots.txt, Google ataja las directivas más específicas. Las dos primeras líneas nos dicen que Googlebot (el agente de usuario para el índice web de Google) está bloqueado para rastrear cualquier página del sitio web. La siguiente directiva, que es para un agente de usuario más específico, para Google Noticias, suprime el bloqueo de Googlebot y da permiso a Google Noticias para rastrear las páginas de su sitio web.
Bloquear grupos diferentes de páginas de la búsqueda web de Google y Google Noticias:
User-agent: Googlebot
Disallow: /latest_news
User-agent: Googlebot-News
Disallow: /archives
Las páginas bloqueadas para la búsqueda web de Google y Google Noticias pueden controlarse de forma independiente. Este archivo robots.txt bloquea para la búsqueda web de Google las noticias más recientes (las URL que están en la carpeta /latest_news), pero permite que éstas aparezcan en Google Noticias. En cambio, bloquea contenido premium a Google Noticias (las URL que están en la carpeta /archives folder), pero permite que aparezcan en la búsqueda web de Google.
Evitar que se rastreen páginas para la búsqueda web de Google y para Google Noticias:
User-agent: Googlebot
Disallow: /
Este archivo robots.txt le dice a Google que Googlebot, el agente de usuario para nuestro rastreador de la búsqueda web, no debería rastrear ninguna página de este sitio web. Y debido a que no se ha especificado ninguna directiva a Googlebot-News, nuestra búsqueda de Noticias seguirá la guía general que de Googlebot, y no rastreará páginas para Google Noticias.
Para algunas palabras de búsqueda, mostramos resultados de Google Noticias en una discreta caja o sección en las páginas de resultados web, junto con nuestros resultados de búsqueda normales. Algunas veces también hacemos esto con Imágenes, Vídeos, Mapas y Productos. Esto se conoce como
Búsqueda Universal
. Como Google Noticias alimenta las “Noticias” Universales de los resultados de búsqueda, si bloqueas el agente de usuario de Googlebot-News, entonces las noticias de tu sitio web no se incluirán en los resultados de búsqueda Universal.
Estamos ahora probando el soporte para el nuevo agente de usuario. Si ves algún problema, por favor
háznoslo saber
. Recuerda que es
posible que Google
[inglés]
ofrezca un enlace a una página en ciertos casos, incluso cuando no hemos rastreado esa página. Si quieres leer
más sobre los archivos robots.txt
, ofrecemos documentación adicional en nuestra página web. Esperamos que los webmasters disfruten de la flexibilidad y el más fácil manejo que el agente de usuario Googlebot-News ofrece.