Lunes, 24 de febrero del 2025
De vez en cuando, recibimos preguntas sobre robots.txt, las etiquetas meta robots y la función de control que ofrecen. Tras nuestra serie de diciembre sobre rastreo, hemos pensado que sería el momento perfecto para hacer un breve recordatorio. Si quieres saber más sobre estos controles, no te pierdas esta nueva serie de entradas de blog.
Empecemos por el principio, con el archivo robots.txt.
¿Qué es robots.txt?
Un archivo robots.txt es un archivo que puede proporcionar cualquier sitio web. En su forma más sencilla, es un archivo de texto que se almacena en el servidor. Casi todos los sitios web tienen un archivo robots.txt.
Para ver uno, añade /robots.txt
al final del nombre de dominio y, a continuación, ve a esa dirección. Por ejemplo, el archivo robots.txt de este sitio web está en developers.google.com/robots.txt
.
La mayoría de los sitios web utilizan sistemas de gestión de contenido (CMS) que crean estos archivos automáticamente, pero, incluso si creas tu sitio web a mano, es fácil crearlos. En próximas publicaciones, veremos algunas de las variaciones.
¿Para qué sirven estos archivos?
Los archivos robots.txt indican a los rastreadores de sitios web qué partes de un sitio están disponibles para el acceso automatizado (lo que llamamos "rastreo") y cuáles no. Esto permite que los sitios aborden todo, desde todo el sitio, partes del sitio o incluso archivos específicos del sitio. Además de ser legibles por máquinas, los archivos también son legibles por humanos. Esto significa que siempre hay una respuesta directa, ya sea afirmativa o negativa, sobre si un rastreador específico puede acceder a una página de forma automatizada.
Seguir estas directrices es una práctica habitual para quienes desarrollan rastreadores, y es fácil para los desarrolladores implementarlas, ya que hay más de 1000 bibliotecas de código abierto disponibles para los desarrolladores. El archivo proporciona instrucciones a los rastreadores para que rastreen un sitio web de forma óptima. Los sitios web modernos pueden ser complejos, navegar por ellos de forma automática puede ser complicado y las reglas de robots.txt ayudan a los rastreadores a centrarse en el contenido adecuado. Esto también ayuda a los rastreadores a evitar páginas creadas de forma dinámica que podrían sobrecargar el servidor y a que el rastreo sea innecesariamente ineficiente. Como los archivos robots.txt son útiles desde el punto de vista técnico y favorecen las relaciones con los propietarios de sitios web, la mayoría de los operadores de rastreadores comerciales los siguen.
Creados y ampliados por el público
Los archivos robots.txt existen casi desde que existe Internet, y son una de las herramientas esenciales que permiten que Internet funcione como lo hace. El HTML, la base de las páginas web, se inventó en 1991, los primeros navegadores aparecieron en 1992 y robots.txt llegó en 1994. Esto significa que son anteriores incluso a Google, que se fundó en 1998. El formato no ha cambiado prácticamente nada desde entonces, por lo que un archivo de los primeros días seguiría siendo válido. Tras tres años de interacción con la comunidad mundial, se convirtió en una propuesta de estándar de la IETF en el 2022.
Si tienes un sitio web, es probable que también tengas un archivo robots.txt. Hay una comunidad dinámica y activa en torno a robots.txt, y miles de herramientas de software que ayudan a crear, probar, gestionar o comprender archivos robots.txt de todo tipo. Sin embargo, la ventaja de robots.txt es que no necesitas herramientas sofisticadas. Puedes leer el archivo en un navegador y, en el caso de un sitio web que gestiones, puedes ajustarlo en un simple editor de texto.
Previsiones de futuro
El formato de robots.txt es flexible. Hay margen de mejora, la comunidad de la Web pública puede ampliarlo y los rastreadores pueden anunciar extensiones cuando sea apropiado, sin interrumpir el uso que se hace de ellas. Esto ocurrió en el 2007, cuando los buscadores anunciaron la directiva "sitemap". También ocurre con frecuencia, ya que los operadores de rastreadores y los buscadores admiten nuevos user-agents, como los que se utilizan para la IA.
Robots.txt ha llegado para quedarse. Los nuevos formatos de archivo tardan unos años en ser aceptados por la comunidad de Internet en general, y las herramientas adecuadas para que sean útiles en el ecosistema tardan aún más. Es fácil, es preciso y expresivo, se entiende y se acepta bien, y funciona, como lleva haciendo durante décadas.
¿Quieres saber más? No te pierdas las próximas ediciones de nuestra serie de recordatorios sobre robots en el blog de Search Central.