Viernes, 28 de marzo del 2025
En las publicaciones anteriores sobre el protocolo de exclusión para robots (REP), ya hemos hablado de lo que puedes hacer con sus distintos componentes, como el archivo robots.txt y los controles a nivel de URI. En esta entrada, analizaremos cómo este protocolo puede desempeñar un papel complementario en la relación, en constante evolución, entre los clientes automáticos y la Web humana.
El REP, concretamente el archivo robots.txt, se convirtió en un estándar en el 2022 (RFC9309).
Sin embargo, la parte más compleja se llevó a cabo antes de su estandarización: fue la prueba del tiempo entre 1994 y el 2022 lo que lo hizo lo suficientemente popular como para que lo adoptaran miles de millones de hosts y prácticamente todos los operadores de rastreadores importantes (excluyendo los rastreadores adversariales, como los escáneres de malware). Es una solución sencilla y elegante para expresar preferencias con una sintaxis simple pero versátil.
En sus 25 años de existencia, apenas ha tenido que evolucionar desde su forma original. Solo ha recibido una regla allow
si tenemos en cuenta las reglas que son compatibles con los rastreadores de todo el mundo.
Esto no significa que no haya otras reglas; cualquier operador de rastreador puede crear sus propias reglas. Por ejemplo, reglas como "clean-param
" y "crawl-delay
" no forman parte de RFC9309, pero se admiten en algunos buscadores, aunque no en la Búsqueda de Google.
La regla "sitemap
", que tampoco forma parte de RFC9309, es compatible con todos los buscadores principales. Si recibe suficiente apoyo, podría convertirse en una regla oficial en el REP.
De hecho, el REP puede recibir "actualizaciones". Es un protocolo compatible con una gran variedad de dispositivos y debería evolucionar junto con Internet. No es imposible hacer cambios, pero no es fácil. No debería ser fácil, precisamente porque el REP cuenta con un amplio respaldo. Como ocurre con cualquier cambio en un estándar, debe haber un consenso de que los cambios benefician a la mayoría de los usuarios del protocolo, tanto por parte de los editores como de los operadores de rastreadores.
Debido a su simplicidad y a que se ha adoptado ampliamente, el REP es un candidato excelente para incorporar nuevas preferencias de rastreo: por ejemplo, miles de millones de editores ya están familiarizados con robots.txt y su sintaxis, por lo que les resulta más natural hacer cambios en él. Por otro lado, los operadores de rastreadores ya tienen analizadores y comparadores sólidos y bien probados (y Google también ha abierto el código de su analizador de robots.txt), lo que significa que es muy probable que no haya problemas de análisis con las nuevas reglas.
Lo mismo ocurre con las extensiones a nivel de URI de REP, el encabezado HTTP X-robots-tag
y la etiqueta meta correspondiente. Si es necesario crear una nueva regla para aplicar las preferencias de exclusión voluntaria, se pueden ampliar fácilmente. ¿Cómo?
Lo más importante que puedes hacer como lector es hablar de tu idea en público y reunir apoyos. Como el REP es un estándar público, ninguna entidad puede hacer cambios unilaterales en él. Por supuesto, pueden implementar la compatibilidad con algo nuevo, pero eso no se convertirá en EL estándar. Sin embargo, si hablamos de ese cambio y demostramos al ecosistema (tanto a los operadores de rastreadores como al ecosistema de publicación) que beneficia a todos, conseguiremos un consenso, lo que allanará el camino para actualizar el estándar.
Del mismo modo, si al protocolo le falta algo, habla de ello públicamente. sitemap
se convirtió en una regla muy utilizada en robots.txt porque era útil tanto para los creadores de contenido como para los buscadores, lo que allanó el camino para que se adoptara la extensión. Si tienes una nueva idea para una regla, pregunta a los usuarios de robots.txt y a los creadores qué opinan al respecto y trabaja con ellos para resolver los posibles problemas que puedan surgir y redactar una propuesta.
Si tu objetivo sirve al bien común, merece la pena.