Actualización sobre robots: robots.txt — una forma flexible de controlar cómo las máquinas exploran tu sitio web

Viernes, 7 de marzo de 2025

Robots.txt es una herramienta de larga data para los propietarios de sitios web que se usa de forma activa desde hace más de 30 años y es ampliamente compatible con los operadores de rastreadores (como herramientas para propietarios de sitios, servicios y motores de búsqueda). En esta edición de la serie de actualización sobre robots, veremos con más detalle el archivo robots.txt como una forma flexible de indicarles a los robots lo que quieres que hagan (o no) en tu sitio web.

Cómo comenzar a usar robots.txt

El funcionamiento de estos archivos es sencillo: creas un archivo de texto llamado "robots.txt" y, luego, lo subes a tu sitio web. Si usas un sistema de administración de contenido (CMS), es probable que sea aún más fácil. Puedes dejar el archivo robots.txt vacío (o no tener uno) si se puede rastrear todo tu sitio, o bien puedes agregar reglas para administrar el rastreo. Por ejemplo, para indicar a todos los bots (también conocidos como rastreadores, robots o arañas) que no accedan a tu página "Agregar al carrito", puedes escribir lo siguiente en tu archivo robots.txt:

user-agent: *
disallow: /cart

Acciones más específicas que puedes realizar con robots.txt

robots.txt es la navaja suiza para expresar lo que quieres que hagan o no los diferentes robots en tu sitio web: puede ser de unas pocas líneas o puede ser complejo con reglas más elaboradas que se orientan a patrones de URL muy específicos. Puedes usar un archivo robots.txt para resolver problemas técnicos (como páginas con paginaciones innecesarias) o por motivos editoriales o personales (por ejemplo, si no quieres que se rastreen ciertos elementos). Por ejemplo, podrías hacer lo siguiente:

Informar sobre la misma regla a varios bots (pero no a todos)

Este grupo les indica a examplebot y otherbot que se mantengan alejados de la ruta de acceso /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Indicarle a un bot que evite las rutas que contengan un texto específico

Por ejemplo, puedes indicarle a documentsbot que no rastree ningún archivo que contenga ".pdf" en su nombre.

user-agent: documentsbot
disallow: *.pdf

Indicarle a un bot que puede rastrear tu blog, pero no los borradores

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Bloquear un rastreador de una parte de tu sitio web y, al mismo tiempo, permitir que otros rastreadores accedan a tu sitio

Este archivo robots.txt no permite que el aicorp-trainer-bot mencionado acceda a nada que no sea la página principal, mientras que permite que otros rastreadores (como los motores de búsqueda) accedan al sitio.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Dejar un comentario para tu yo del futuro

Puedes comenzar una línea con # para recordar por qué colocaste una regla determinada allí.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Para obtener más información, consulta nuestra lista de reglas útiles de robots.txt.

Cómo realizar cambios en tu archivo robots.txt (de manera práctica)

El Protocolo de exclusión de robots (REP) funciona creando reglas ("allow" o "disallow") y especificando a qué robots se aplican estas reglas. No necesitas aprender a programar ni jugar con herramientas. Solo debes colocar estas reglas en un archivo de texto y subirlo a tu sitio web.

En la mayoría de los sitios web, es aún más sencillo. Si usas un CMS, por lo general, ya tiene algo integrado para ayudarte a cambiar el archivo robots.txt. Por ejemplo, algunos CMS te permiten personalizar tu archivo robots.txt con casillas de verificación o con un formulario simple, y muchos tienen complementos que te ayudan a configurar y escribir reglas para tu archivo robots.txt. Para verificar lo que es posible dentro de tu CMS, puedes buscar el nombre de tu CMS + "editar archivo robots.txt".

Una vez que hayas configurado todo, también puedes probar para asegurarte de que el archivo esté configurado como deseas. La comunidad web creó muchas herramientas de prueba para ayudarte con esto, como la herramienta de prueba de robots.txt de TametheBot y este analizador de robots.txt que usan la biblioteca de analizadores de robots.txt de código abierto.

Si tienes alguna pregunta sobre robots.txt, puedes encontrarnos en LinkedIn o chatear con expertos afines en nuestros foros de la comunidad.


Consulta el resto de la serie de actualización sobre robots: