Recordatorios sobre robots: granularidad a nivel de página

Viernes, 14 de marzo del 2025

Con el archivo robots.txt, los propietarios de sitios tienen una forma sencilla de controlar a qué partes de un sitio web pueden acceder los rastreadores. Para ayudar a los propietarios de sitios a expresar mejor cómo pueden usar los buscadores y los rastreadores web sus páginas, la comunidad implicada en el desarrollo de estándares web creó las etiquetas meta robots en 1996, solo unos meses después de que se propusieran las etiquetas meta para HTML (y, como dato curioso, también antes de que se fundara Google). Más tarde, se añadieron los encabezados de respuesta HTTP X-Robots-Tag. Estas instrucciones se envían junto con una URL, por lo que los rastreadores solo pueden tenerlas en cuenta si no se les impide rastrear la URL a través del archivo robots.txt. En conjunto, forman el protocolo de exclusión para robots (REP).

Análisis de las etiquetas meta robots

Las etiquetas (o elementos) meta son una forma de incluir metadatos legibles por máquinas. Las etiquetas meta robots son un tipo de etiqueta meta y se aplican a los rastreadores, incluidos los rastreadores de buscadores. Señalan lo siguiente: ¿Se ha bloqueado la indexación del contenido? ¿Deberían ignorarse los enlaces de la página durante el rastreo? Es fácil proporcionar esta información en la página directamente con las etiquetas robots meta.

Un protocolo de exclusión para robots para cualquier URL

Para ofrecer el mismo nivel de control al contenido que no es HTML, se ha creado el encabezado de respuesta HTTP "X-Robots-Tag". Estos encabezados HTTP también se consideran parte del REP. El encabezado admite los mismos valores que la etiqueta meta robots y se puede añadir a cualquier contenido que se sirva online. Además de HTML, Google lo admite en contenido como PDFs, archivos de documentos e incluso imágenes. La mayoría de estos formatos de archivo no tienen un mecanismo equivalente a las etiquetas meta, por lo que es útil un encabezado de respuesta HTTP.

Empezar a usar etiquetas y encabezados meta robots

La sintaxis es sencilla y se puede ampliar. Por lo general, las reglas las implementa el desarrollador web o a través de un sistema de gestión de contenido (CMS), donde los propietarios del sitio pueden tener casillas de verificación o menús desplegables para seleccionar sus preferencias. Estos controles pueden dirigirse a un rastreador específico, como el robot de Google, o, si se omite un nombre concreto, a todos los rastreadores que admitan estos valores.

Por ejemplo, las siguientes reglas indican a todos los rastreadores que no usen la página asociada para la indexación:

  • En forma de etiqueta meta HTML en una página web:
    <meta name="robots" content="noindex">

    Revisar las etiquetas o los encabezados de respuesta meta que ya existen es un proceso un poco más complejo, ya que requiere examinar directamente el contenido o los encabezados de la página. Puedes ver las etiquetas HTML meta de cualquier página consultando el código fuente de la página en tu navegador o usando las herramientas para desarrolladores de Chrome para inspeccionar la página.

  • En forma de encabezado de respuesta HTTP:
    X-Robots-Tag: noindex

    Puedes comprobar los encabezados de respuesta HTTP de URLs concretas en las herramientas para desarrolladores de Chrome, en el panel de red.

Otros ejemplos de lo que puedes hacer:

No mostrar ningún fragmento de esta página o documento.

En el encabezado HTTP:
X-Robots-Tag: nosnippet
o en HTML:
<meta name="robots" content="nosnippet">

No indexes esta página en ExampleBot-News sin especificar una preferencia para otras.

Estos controles especifican explícitamente un rastreador.

X-Robots-Tag: examplebot-news: noindex
o
<meta name="examplebot-news" content="noindex">

ExampleBot no debe mostrar ningún fragmento y, además, todos los rastreadores no deben seguir los enlaces de esta página.

Ten en cuenta que se aplican las directivas válidas más restrictivas, por lo que la directiva ExampleBot se combinaría como "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
o
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Elegir un mecanismo de REP

¿Cómo decides cuál usar? En esencia, los controles de robots.txt y de página son similares, pero no son completamente intercambiables. A veces, hay una acción específica que solo es posible con uno de los mecanismos. Por ejemplo, si se quiere detener el rastreo (como en las páginas de resultados de búsqueda interminables, que es posible con robots.txt), si se necesita controlar un servidor FTP (puede hacerse con robots.txt) o si se quiere que no se muestre un fragmento de una página (lo cual solo es posible con elementos a nivel de página). Si no necesitas diferenciar entre impedir el rastreo e impedir la indexación, una opción es usar robots.txt para aplicar controles más amplios (para bloquear grandes partes de un sitio web) y controles a nivel de página para bloquear páginas concretas.

Protocolo de exclusión para robots: un estándar potente y vivo

Todos estos controles son extensibles por naturaleza. A lo largo de los años, los propietarios de sitios, los operadores de rastreadores y los buscadores han trabajado juntos para mejorarlos. Históricamente, empezó con unos pocos valores, como noindex y nofollow, y más tarde se adoptaron otros valores, como nosnippet, noarchive y max-snippet:. A veces, los valores quedan obsoletos, como ocurrió con noodp, que usaba fragmentos de DMOZ/Open Directory Project antes de que se cerrara el directorio. Google admite muchos valores para los propietarios de sitios, y otros operadores de rastreadores grandes admiten una cantidad similar.

Con el REP, los propietarios de sitios pueden controlar qué se rastrea y cómo se utilizan los datos rastreados en los buscadores. Pueden hacerlo de forma general en la mayor parte de los sitios web o de forma muy específica en páginas concretas o incluso en imágenes de páginas. Estos controles son bien conocidos, están disponibles en todos los sistemas de gestión de contenido habituales, son compatibles con los operadores comerciales y se utilizan en miles de millones de hosts en Internet.


Echa un vistazo al resto de la serie Recordatorios sobre robots: