Viernes, 7 de marzo del 2025
Los propietarios de sitios web llevan utilizando el archivo robots.txt desde hace más de 30 años. Además, es una herramienta muy utilizada por los operadores de rastreadores (como las herramientas para propietarios de sitios, los servicios y los buscadores). En esta edición de la serie de recordatorios sobre robots, analizaremos en detalle el archivo robots.txt como una forma flexible de indicar a los robots lo que quieres que hagan (o no hagan) en tu sitio web.
Introducción a robots.txt
El funcionamiento de estos archivos es sencillo: creas un archivo de texto llamado "robots.txt" y, a continuación, lo subes a tu sitio web. Si usas un sistema de gestión de contenido (CMS), es probable que sea incluso más fácil. Puedes dejar el archivo robots.txt vacío (o no tener ninguno) si quieres que se rastree todo el sitio, o bien puedes añadir reglas para gestionar el rastreo. Por ejemplo, para indicar a todos los bots (también conocidos como rastreadores, robots o arañas) que no accedan a la página "Añadir al carrito", puedes escribir lo siguiente en el archivo robots.txt:
user-agent: * disallow: /cart
Más cosas específicas que puedes hacer con robots.txt
El archivo robots.txt es la mejor forma de expresar lo que quieres que hagan o no hagan los diferentes robots en tu sitio web: puede tener solo unas pocas líneas o puede ser complejo con reglas más elaboradas dirigidas a patrones de URL muy específicos. Puedes usar un archivo robots.txt para solucionar problemas técnicos (como páginas que se han paginado de forma innecesaria) o por motivos editoriales o personales (por ejemplo, si no quieres que se rastreen determinadas cosas). Por ejemplo, puedes hacer lo siguiente:
Informar a varios bots (pero no a todos) sobre la misma regla
Este grupo indica tanto a |
user-agent: examplebot user-agent: otherbot disallow: /search |
Pedir a un bot que evite las rutas que contengan un fragmento de texto específico
Por ejemplo, puedes indicar a |
user-agent: documentsbot disallow: *.pdf |
Permitir que un bot rastree tu blog, pero no los borradores |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Impedir que un rastreador rastree una parte de tu sitio web y permitir que otros rastreadores accedan a él
Este archivo robots.txt impide que |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Dejar un comentario para tu yo del futuro
Puedes empezar una línea con |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Si quieres más información, consulta nuestra lista de reglas de robots.txt útiles.
Hacer cambios en el archivo robots.txt (en la práctica)
El protocolo de exclusión para robots (REP) funciona reuniendo reglas ("allow" o "disallow") y especificando a qué robots se aplican esas reglas. No hace falta que aprendas a programar ni que te compliques la vida con herramientas. Puedes poner estas reglas en un archivo de texto y subirlo a tu sitio web.
En la mayoría de los sitios web, es incluso más sencillo. Si utilizas un CMS, suele tener alguna función integrada que te ayude a cambiar el archivo robots.txt. Por ejemplo, algunos CMSs te permiten personalizar tu archivo robots.txt mediante casillas de verificación o con un formulario sencillo, y muchos tienen complementos que te ayudan a configurar y escribir reglas para tu archivo robots.txt. Para comprobar qué es posible hacer con tu CMS, puedes buscar el nombre de tu CMS y "editar archivo robots.txt".
Una vez que lo hayas hecho, también puedes probar el archivo para asegurarte de que está configurado como quieres. La comunidad web ha creado muchas herramientas de prueba para ayudarte con este proceso, como la herramienta de prueba de robots.txt de TametheBot y este analizador de robots.txt que utilizan la biblioteca de analizadores de robots.txt de código abierto.
Si tienes alguna pregunta sobre robots.txt, puedes ponerte en contacto con nosotros en LinkedIn o chatear con expertos con ideas afines en nuestros foros de la comunidad.