Actualización sobre robots: nivel de detalle a nivel de la página

Viernes, 14 de marzo de 2025

Con el archivo robots.txt, los propietarios de sitios tienen una forma sencilla de controlar a qué partes de un sitio web pueden acceder los rastreadores. Para ayudar a los propietarios de sitios a expresar mejor cómo los motores de búsqueda y los rastreadores web pueden usar sus páginas, la comunidad involucrada en el desarrollo de estándares web creó las etiquetas meta de robots en 1996, solo unos meses después de que se propusieran las etiquetas meta para HTML (y, anecdóticamente, también antes de que se fundara Google). Más tarde, se agregaron los X-Robots-Tag encabezados de respuesta HTTP. Estas instrucciones se envían junto con una URL, por lo que los rastreadores solo pueden tenerlas en cuenta si no se les prohíbe rastrear la URL a través del archivo robots.txt. En conjunto, forman el Protocolo de exclusión de robots (REP).

Información sobre las etiquetas meta de robots

Las etiquetas (o elementos) de metadatos son una forma de incluir metadatos legibles por máquinas. Las etiquetas meta de robots son un "tipo" de etiqueta meta y se aplican a los rastreadores, incluidos los rastreadores de motores de búsqueda. Indican lo siguiente: ¿Se bloqueó la indexación del contenido? ¿No se deben seguir los vínculos de la página para el rastreo? Es fácil proporcionar esta información en la página directamente con las etiquetas meta de robots.

Un protocolo de exclusión de robots para cualquier URL

Para brindar el mismo nivel de control al contenido que no es HTML, se creó el encabezado de respuesta HTTP "X-Robots-Tag". Estos encabezados HTTP también se consideran parte del REP. El encabezado admite los mismos valores que la etiqueta meta de robots y se puede agregar a cualquier contenido que se publique en línea. Además del HTML, Google lo admite para contenido como archivos PDF, de documentos y hasta imágenes. La mayoría de estos formatos de archivo no tienen un mecanismo equivalente a las etiquetas meta, por lo que es útil un encabezado de respuesta HTTP.

Cómo comenzar a usar las etiquetas y los encabezados meta de robots

La sintaxis es simple y extensible. Por lo general, el desarrollador web implementa las reglas o lo hace a través de un sistema de administración de contenido (CMS), en el que los propietarios del sitio pueden tener casillas de verificación o menús desplegables para seleccionar sus preferencias. Estos controles pueden dirigirse a un rastreador específico, como Googlebot, o bien, si se omite un nombre específico, a todos los rastreadores que admiten estos valores.

Por ejemplo, las siguientes reglas indican a todos los rastreadores que no usen la página asociada para la indexación:

  • En forma de una etiqueta meta HTML, en una página web:
    <meta name="robots" content="noindex">

    Observar las etiquetas meta existentes o los encabezados de respuesta es un poco más complejo y requiere un examen directo del contenido o los encabezados de la página. Puedes ver las etiquetas meta HTML en cualquier página. Para ello, consulta el código fuente de la página en tu navegador o usa las herramientas para desarrolladores de Chrome para inspeccionar la página.

  • En forma de un encabezado de respuesta HTTP:
    X-Robots-Tag: noindex

    Puedes verificar los encabezados de respuesta HTTP de URLs individuales con las herramientas para desarrolladores de Chrome, en el panel de red.

Estos son otros ejemplos de lo que puedes hacer:

No mostrar un fragmento para esta página o documento.

En el encabezado HTTP:
X-Robots-Tag: nosnippet
o en HTML:
<meta name="robots" content="nosnippet">

No indexar esta página en ExampleBot-News sin especificar una preferencia para otras.

Estos controles especifican explícitamente un rastreador.

X-Robots-Tag: examplebot-news: noindex
o
<meta name="examplebot-news" content="noindex">

ExampleBot no debe mostrar un fragmento y, además, todos los rastreadores no deben seguir los vínculos de esta página.

Ten en cuenta que se aplican las directivas válidas y más restrictivas, por lo que, para ExampleBot, la directiva se combinaría como "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
o
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Elige un mecanismo de REP

¿Cómo eliges cuál usar? En esencia, los controles de robots.txt y a nivel de la página son similares, pero no son completamente intercambiables. A veces, hay una acción específica que solo es posible con uno de los mecanismos, por ejemplo, si se desea detener el acto de rastreo (como en el caso de las páginas de resultados de la búsqueda sin fin, posible con robots.txt), si necesitas un control para un servidor FTP (posible con robots.txt) o si se desea que no se muestre un fragmento para una página (lo que solo es posible con elementos a nivel de la página). Si no necesitas diferenciar entre bloquear el rastreo y bloquear la indexación, un enfoque es usar robots.txt para controles más amplios (para bloquear grandes partes de un sitio web) y controles a nivel de la página para bloquear páginas individuales.

Protocolo de exclusión de robots: un estándar potente y dinámico

Todos estos controles son extensibles por naturaleza. A lo largo de los años, los propietarios de sitios, los operadores de rastreadores y los motores de búsqueda trabajaron juntos para evolucionarlos. Históricamente, comenzó con unos pocos valores, incluidos noindex y nofollow, y, más adelante, se adoptaron más valores, como nosnippet, noarchive y max-snippet:. A veces, los valores dejan de estar disponibles, como fue el caso de noodp, que usaba fragmentos de DMOZ / Open Directory Project antes de que se cerrara el directorio. Hay una gran cantidad de valores que Google admite para los propietarios de sitios y una cantidad similar de otros operadores de rastreadores grandes.

En virtud del REP, los propietarios de sitios tienen control sobre lo que se rastrea y cómo se usan los datos rastreados en los motores de búsqueda. Pueden hacerlo a nivel general para partes más grandes de los sitios web o de forma muy detallada para páginas individuales, incluso para imágenes dentro de páginas. Estos controles son conocidos, están disponibles en todos los sistemas de administración de contenido comunes, son compatibles con los operadores comerciales y se usan en miles de millones de hosts en Internet en la actualidad.


Consulta el resto de la serie de actualización sobre robots: