Viernes, 7 de marzo de 2025
Robots.txt es una herramienta de larga data para los propietarios de sitios web que se usa de forma activa desde hace más de 30 años y es ampliamente compatible con los operadores de rastreadores (como herramientas para propietarios de sitios, servicios y motores de búsqueda). En esta edición de la serie de actualización sobre robots, veremos con más detalle el archivo robots.txt como una forma flexible de indicarles a los robots lo que quieres que hagan (o no) en tu sitio web.
Cómo comenzar a usar robots.txt
El funcionamiento de estos archivos es sencillo: creas un archivo de texto llamado "robots.txt" y, luego, lo subes a tu sitio web. Si usas un sistema de administración de contenido (CMS), es probable que sea aún más fácil. Puedes dejar el archivo robots.txt vacío (o no tener uno) si se puede rastrear todo tu sitio, o bien puedes agregar reglas para administrar el rastreo. Por ejemplo, para indicar a todos los bots (también conocidos como rastreadores, robots o arañas) que no accedan a tu página "Agregar al carrito", puedes escribir lo siguiente en tu archivo robots.txt:
user-agent: * disallow: /cart
Acciones más específicas que puedes realizar con robots.txt
robots.txt es la navaja suiza para expresar lo que quieres que hagan o no los diferentes robots en tu sitio web: puede ser de unas pocas líneas o puede ser complejo con reglas más elaboradas que se orientan a patrones de URL muy específicos. Puedes usar un archivo robots.txt para resolver problemas técnicos (como páginas con paginaciones innecesarias) o por motivos editoriales o personales (por ejemplo, si no quieres que se rastreen ciertos elementos). Por ejemplo, podrías hacer lo siguiente:
Informar sobre la misma regla a varios bots (pero no a todos)
Este grupo les indica a |
user-agent: examplebot user-agent: otherbot disallow: /search |
Indicarle a un bot que evite las rutas que contengan un texto específico
Por ejemplo, puedes indicarle a |
user-agent: documentsbot disallow: *.pdf |
Indicarle a un bot que puede rastrear tu blog, pero no los borradores |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Bloquear un rastreador de una parte de tu sitio web y, al mismo tiempo, permitir que otros rastreadores accedan a tu sitio
Este archivo robots.txt no permite que el |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Dejar un comentario para tu yo del futuro
Puedes comenzar una línea con |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Para obtener más información, consulta nuestra lista de reglas útiles de robots.txt.
Cómo realizar cambios en tu archivo robots.txt (de manera práctica)
El Protocolo de exclusión de robots (REP) funciona creando reglas ("allow" o "disallow") y especificando a qué robots se aplican estas reglas. No necesitas aprender a programar ni jugar con herramientas. Solo debes colocar estas reglas en un archivo de texto y subirlo a tu sitio web.
En la mayoría de los sitios web, es aún más sencillo. Si usas un CMS, por lo general, ya tiene algo integrado para ayudarte a cambiar el archivo robots.txt. Por ejemplo, algunos CMS te permiten personalizar tu archivo robots.txt con casillas de verificación o con un formulario simple, y muchos tienen complementos que te ayudan a configurar y escribir reglas para tu archivo robots.txt. Para verificar lo que es posible dentro de tu CMS, puedes buscar el nombre de tu CMS + "editar archivo robots.txt".
Una vez que hayas configurado todo, también puedes probar para asegurarte de que el archivo esté configurado como deseas. La comunidad web creó muchas herramientas de prueba para ayudarte con esto, como la herramienta de prueba de robots.txt de TametheBot y este analizador de robots.txt que usan la biblioteca de analizadores de robots.txt de código abierto.
Si tienes alguna pregunta sobre robots.txt, puedes encontrarnos en LinkedIn o chatear con expertos afines en nuestros foros de la comunidad.