Actualización sobre robots: robots.txt, una forma flexible de controlar cómo exploran los robots tu sitio web

Viernes, 7 de marzo del 2025

Los propietarios de sitios web llevan utilizando el archivo robots.txt desde hace más de 30 años. Además, es una herramienta muy utilizada por los operadores de rastreadores (como las herramientas para propietarios de sitios, los servicios y los buscadores). En esta edición de la serie de recordatorios sobre robots, analizaremos en detalle el archivo robots.txt como una forma flexible de indicar a los robots lo que quieres que hagan (o no hagan) en tu sitio web.

Introducción a robots.txt

El funcionamiento de estos archivos es sencillo: creas un archivo de texto llamado "robots.txt" y, a continuación, lo subes a tu sitio web. Si usas un sistema de gestión de contenido (CMS), es probable que sea incluso más fácil. Puedes dejar el archivo robots.txt vacío (o no tener ninguno) si quieres que se rastree todo el sitio, o bien puedes añadir reglas para gestionar el rastreo. Por ejemplo, para indicar a todos los bots (también conocidos como rastreadores, robots o arañas) que no accedan a la página "Añadir al carrito", puedes escribir lo siguiente en el archivo robots.txt:

user-agent: *
disallow: /cart

Más cosas específicas que puedes hacer con robots.txt

El archivo robots.txt es la mejor forma de expresar lo que quieres que hagan o no hagan los diferentes robots en tu sitio web: puede tener solo unas pocas líneas o puede ser complejo con reglas más elaboradas dirigidas a patrones de URL muy específicos. Puedes usar un archivo robots.txt para solucionar problemas técnicos (como páginas que se han paginado de forma innecesaria) o por motivos editoriales o personales (por ejemplo, si no quieres que se rastreen determinadas cosas). Por ejemplo, puedes hacer lo siguiente:

Informar a varios bots (pero no a todos) sobre la misma regla

Este grupo indica tanto a examplebot como a otherbot que se mantengan alejados de la ruta /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Pedir a un bot que evite las rutas que contengan un fragmento de texto específico

Por ejemplo, puedes indicar a documentsbot que no rastree ningún archivo que contenga ".pdf" en su nombre.

user-agent: documentsbot
disallow: *.pdf

Permitir que un bot rastree tu blog, pero no los borradores

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Impedir que un rastreador rastree una parte de tu sitio web y permitir que otros rastreadores accedan a él

Este archivo robots.txt impide que aicorp-trainer-bot acceda a nada que no sea la página principal, y permite que otros rastreadores (como los buscadores) accedan al sitio.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Dejar un comentario para tu yo del futuro

Puedes empezar una línea con # para recordarte por qué has puesto una determinada regla.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Si quieres más información, consulta nuestra lista de reglas de robots.txt útiles.

Hacer cambios en el archivo robots.txt (en la práctica)

El protocolo de exclusión para robots (REP) funciona reuniendo reglas ("allow" o "disallow") y especificando a qué robots se aplican esas reglas. No hace falta que aprendas a programar ni que te compliques la vida con herramientas. Puedes poner estas reglas en un archivo de texto y subirlo a tu sitio web.

En la mayoría de los sitios web, es incluso más sencillo. Si utilizas un CMS, suele tener alguna función integrada que te ayude a cambiar el archivo robots.txt. Por ejemplo, algunos CMSs te permiten personalizar tu archivo robots.txt mediante casillas de verificación o con un formulario sencillo, y muchos tienen complementos que te ayudan a configurar y escribir reglas para tu archivo robots.txt. Para comprobar qué es posible hacer con tu CMS, puedes buscar el nombre de tu CMS y "editar archivo robots.txt".

Una vez que lo hayas hecho, también puedes probar el archivo para asegurarte de que está configurado como quieres. La comunidad web ha creado muchas herramientas de prueba para ayudarte con este proceso, como la herramienta de prueba de robots.txt de TametheBot y este analizador de robots.txt que utilizan la biblioteca de analizadores de robots.txt de código abierto.

Si tienes alguna pregunta sobre robots.txt, puedes ponerte en contacto con nosotros en LinkedIn o chatear con expertos con ideas afines en nuestros foros de la comunidad.


Echa un vistazo al resto de la serie Recordatorios sobre robots: