Viernes, 14 de marzo de 2025
Con el archivo robots.txt, los propietarios de sitios tienen una forma sencilla de controlar a qué partes de un sitio web pueden acceder los rastreadores.
Para ayudar a los propietarios de sitios a expresar mejor cómo los motores de búsqueda y los rastreadores web pueden usar sus páginas, la comunidad involucrada en el desarrollo de estándares web creó las etiquetas meta
de robots en 1996, solo unos meses después de que se propusieran las etiquetas meta
para HTML (y, anecdóticamente, también antes de que se fundara Google). Más tarde, se agregaron los X-Robots-Tag
encabezados de respuesta HTTP.
Estas instrucciones se envían junto con una URL, por lo que los rastreadores solo pueden tenerlas en cuenta si no se les prohíbe rastrear la URL a través del archivo robots.txt. En conjunto, forman el Protocolo de exclusión de robots (REP).
Información sobre las etiquetas meta
de robots
Las etiquetas (o elementos) de metadatos son una forma de incluir metadatos legibles por máquinas.
Las etiquetas meta
de robots son un "tipo" de etiqueta meta
y se aplican a los rastreadores, incluidos los rastreadores de motores de búsqueda. Indican lo siguiente: ¿Se bloqueó la indexación del contenido? ¿No se deben seguir los vínculos de la página para el rastreo? Es fácil proporcionar esta información en la página directamente con las etiquetas meta
de robots.
Un protocolo de exclusión de robots para cualquier URL
Para brindar el mismo nivel de control al contenido que no es HTML, se creó el encabezado de respuesta HTTP "X-Robots-Tag
". Estos encabezados HTTP también se consideran parte del REP.
El encabezado admite los mismos valores que la etiqueta meta
de robots y se puede agregar a cualquier contenido que se publique en línea.
Además del HTML, Google lo admite para contenido como archivos PDF, de documentos y hasta imágenes.
La mayoría de estos formatos de archivo no tienen un mecanismo equivalente a las etiquetas meta
, por lo que es útil un encabezado de respuesta HTTP.
Cómo comenzar a usar las etiquetas y los encabezados meta
de robots
La sintaxis es simple y extensible. Por lo general, el desarrollador web implementa las reglas o lo hace a través de un sistema de administración de contenido (CMS), en el que los propietarios del sitio pueden tener casillas de verificación o menús desplegables para seleccionar sus preferencias. Estos controles pueden dirigirse a un rastreador específico, como Googlebot, o bien, si se omite un nombre específico, a todos los rastreadores que admiten estos valores.
Por ejemplo, las siguientes reglas indican a todos los rastreadores que no usen la página asociada para la indexación:
- En forma de una etiqueta
meta
HTML, en una página web:<meta name="robots" content="noindex">
Observar las etiquetas
meta
existentes o los encabezados de respuesta es un poco más complejo y requiere un examen directo del contenido o los encabezados de la página. Puedes ver las etiquetasmeta
HTML en cualquier página. Para ello, consulta el código fuente de la página en tu navegador o usa las herramientas para desarrolladores de Chrome para inspeccionar la página.
- En forma de un encabezado de respuesta HTTP:
X-Robots-Tag: noindex
Puedes verificar los encabezados de respuesta HTTP de URLs individuales con las herramientas para desarrolladores de Chrome, en el panel de red.
Estos son otros ejemplos de lo que puedes hacer:
No mostrar un fragmento para esta página o documento. |
En el encabezado HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
No indexar esta página en Estos controles especifican explícitamente un rastreador. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Ten en cuenta que se aplican las directivas válidas y más restrictivas, por lo que, para |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Elige un mecanismo de REP
¿Cómo eliges cuál usar? En esencia, los controles de robots.txt y a nivel de la página son similares, pero no son completamente intercambiables. A veces, hay una acción específica que solo es posible con uno de los mecanismos, por ejemplo, si se desea detener el acto de rastreo (como en el caso de las páginas de resultados de la búsqueda sin fin, posible con robots.txt), si necesitas un control para un servidor FTP (posible con robots.txt) o si se desea que no se muestre un fragmento para una página (lo que solo es posible con elementos a nivel de la página). Si no necesitas diferenciar entre bloquear el rastreo y bloquear la indexación, un enfoque es usar robots.txt para controles más amplios (para bloquear grandes partes de un sitio web) y controles a nivel de la página para bloquear páginas individuales.
Protocolo de exclusión de robots: un estándar potente y dinámico
Todos estos controles son extensibles por naturaleza. A lo largo de los años, los propietarios de sitios, los operadores de rastreadores y los motores de búsqueda trabajaron juntos para evolucionarlos.
Históricamente, comenzó con unos pocos valores, incluidos noindex
y nofollow
, y, más adelante, se adoptaron más valores, como nosnippet
, noarchive
y max-snippet:
.
A veces, los valores dejan de estar disponibles, como fue el caso de noodp
, que usaba fragmentos de DMOZ / Open Directory Project antes de que se cerrara el directorio.
Hay una
gran cantidad de valores que Google admite para los propietarios de sitios y una cantidad similar de otros operadores de rastreadores grandes.
En virtud del REP, los propietarios de sitios tienen control sobre lo que se rastrea y cómo se usan los datos rastreados en los motores de búsqueda. Pueden hacerlo a nivel general para partes más grandes de los sitios web o de forma muy detallada para páginas individuales, incluso para imágenes dentro de páginas. Estos controles son conocidos, están disponibles en todos los sistemas de administración de contenido comunes, son compatibles con los operadores comerciales y se usan en miles de millones de hosts en Internet en la actualidad.