Lunes, 24 de febrero de 2025
De vez en cuando, recibimos preguntas sobre robots.txt, metaetiquetas de robots y la funcionalidad de control que ofrecen. Después de nuestra serie de diciembre sobre el rastreo, pensamos que este sería el momento perfecto para hacer un repaso breve. Si te interesan estos controles, sigue esta nueva serie de entradas de blog.
Comencemos desde el principio, con robots.txt.
Entonces, ¿qué es robots.txt?
Un archivo "robots.txt" es un archivo que puede proporcionar cualquier sitio web. En su forma más simple, es un archivo de texto que se almacena en el
servidor. Casi todos los sitios web tienen un archivo robots.txt.
Para ver uno, toma el nombre de dominio y agrega /robots.txt
al final. Luego, navega a esa dirección. Por ejemplo, el archivo robots.txt de este sitio web se encuentra en developers.google.com/robots.txt
.
La mayoría de los sitios web usan sistemas de administración de contenido (CMS) que crean estos archivos automáticamente, pero incluso si creas tu sitio web "manualmente", es fácil crearlos. Analizaremos algunas de las variaciones en futuras publicaciones.
¿Para qué sirven estos archivos?
Los archivos robots.txt les indican a los rastreadores de sitios web qué partes de un sitio web están disponibles para el acceso automatizado (lo que llamamos rastreo) y cuáles no. Permite que los sitios aborden todo, desde su sitio completo, partes de su sitio o incluso archivos específicos dentro de su sitio. Además de ser legibles por máquinas, los archivos también son legibles por humanos. Esto significa que siempre hay una respuesta directa positiva o negativa sobre la posibilidad de que un rastreador específico pueda acceder a una página de forma automática.
Es una práctica estándar para cualquier persona que crea un rastreador para seguir estas directivas, y es fácil para un desarrollador admitirlas. Hay más de 1,000 bibliotecas de código abierto disponibles para los desarrolladores. El archivo les brinda instrucciones a los rastreadores para que rastreen un sitio web de forma óptima. Los sitios web modernos pueden ser complejos. Navegar por ellos automáticamente puede ser un desafío, y las reglas de robots.txt ayudan a los rastreadores a enfocarse en el contenido adecuado. Esto también ayuda a los rastreadores a evitar las páginas creadas de forma dinámica que podrían generar tensión en el servidor y hacer que el rastreo sea innecesariamente ineficiente. Dado que los archivos robots.txt son útiles a nivel técnico y son buenos para las relaciones con los propietarios de sitios web, la mayoría de los operadores de rastreadores comerciales los siguen.
Construidos y ampliados por el público
Los archivos robots.txt existen casi desde que existe Internet y son una de las herramientas esenciales que permiten que Internet funcione como lo hace. El HTML, la base de las páginas web, se inventó en 1991, los primeros navegadores llegaron en 1992 y robots.txt en 1994. Eso significa que son anteriores incluso a Google, que se fundó en 1998. El formato no ha cambiado mucho desde entonces, y un archivo de los primeros días aún sería válido en la actualidad. Después de tres años de participación de la comunidad global, se convirtió en un estándar propuesto por la empresa IETF en 2022.
Si tienes un sitio web, es probable que también tengas un archivo robots.txt. Existe una comunidad vibrante y activa en torno a robots.txt, y hay miles de herramientas de software que ayudan a compilar, probar, administrar o comprender archivos robots.txt de todos los tipos y tamaños. Sin embargo, la ventaja de robots.txt es que no necesitas herramientas sofisticadas, ya que puedes leer el archivo en un navegador y, en el caso de un sitio web que administras, ajustarlo en un editor de texto simple.
Proyecciones para el futuro
El formato del archivo robots.txt es flexible. Se puede seguir creciendo. La comunidad web pública puede expandirse y los rastreadores pueden anunciar extensiones cuando corresponda, sin interrumpir el uso existente. Esto sucedió en 2007, cuando los motores de búsqueda anunciaron la directiva "mapa del sitio". También ocurre con frecuencia, ya que los operadores de rastreadores y los motores de búsqueda admiten nuevos "usuarios-agentes", como los que se usan para fines de IA.
El archivo robots.txt llegó para quedarse. Los nuevos formatos de archivo tardan algunos años en finalizarse con la comunidad más grande de Internet, y las herramientas adecuadas para que sean útiles para el ecosistema tardan aún más. Es fácil, detallado y expresivo, se entiende y acepta bien, y simplemente funciona, como lo hace desde hace décadas.
¿Quieres obtener más información? No te pierdas las próximas ediciones de nuestra serie de actualización sobre robots en el blog de la Central de la Búsqueda.