Viernes, 28 de marzo de 2025
En las publicaciones anteriores sobre el protocolo de exclusión de robots (REP), exploramos lo que ya era posible hacer con sus diversos componentes, como robots.txt y los controles a nivel del URI. En esta publicación, exploraremos cómo el REP puede desempeñar un papel de apoyo en la relación en constante evolución entre los clientes automáticos y la Web humana.
El REP, específicamente robots.txt, se convirtió en un estándar en 2022 como
RFC9309.
Sin embargo, el trabajo pesado se realizó antes de su estandarización: fue la prueba del tiempo entre 1994 y 2022 lo que lo hizo lo suficientemente popular como para que lo adoptaran miles de millones de hosts y prácticamente todos los operadores de rastreadores principales (sin incluir rastreadores adversariales, como los escáneres de software malicioso). Es una solución directa y elegante para expresar preferencias con una sintaxis simple pero versátil.
En sus 25 años de existencia, apenas tuvo que evolucionar desde su forma original. Solo obtuvo una
regla allow
si solo consideramos las reglas que son compatibles de forma universal con los rastreadores.
Eso no significa que no haya otras reglas; cualquier operador de rastreador puede crear sus propias
reglas. Por ejemplo, reglas como "clean-param
" y "crawl-delay
" no forman parte de RFC9309, pero son compatibles con algunos motores de búsqueda, aunque no con la Búsqueda de Google.
La regla "sitemap
", que no forma parte de RFC9309, es compatible con todos los motores de búsqueda principales. Con el apoyo suficiente, podría convertirse en una regla oficial en el REP.
Porque el REP puede recibir “actualizaciones”. Es un protocolo ampliamente compatible y debería crecer con Internet. No es imposible realizar cambios en él, pero no es fácil. No debería ser fácil, precisamente porque el REP es ampliamente compatible. Al igual que con cualquier cambio en un estándar, debe haber un consenso de que los cambios benefician a la mayoría de los usuarios del protocolo, tanto del lado de los publicadores como de los operadores de rastreadores.
Debido a su simplicidad y amplia adopción, el REP es un excelente candidato para llevar a cabo nuevas preferencias de rastreo; por ejemplo, miles de millones de publicadores ya conocen robots.txt y su sintaxis, por lo que realizar cambios en él les resulta más natural. Por otro lado, los operadores de rastreadores ya tienen analizadores y comparadores sólidos y bien probados (y Google también lanzó su propio analizador de robots.txt de código abierto), lo que significa que es muy probable que no haya problemas de análisis con las reglas nuevas.
Lo mismo ocurre con las extensiones a nivel del URI de REP, el encabezado HTTP X-robots-tag
y su contraparte de metaetiqueta. Si se necesita una regla nueva para llevar preferencias de inhabilitación, estas se pueden ampliar fácilmente. ¿Cómo?
Lo más importante que tú, el lector, puedes hacer es hablar sobre tu idea públicamente y reunir a quienes la apoyen. Debido a que el REP es un estándar público, ninguna entidad puede realizar cambios unilaterales en él. Por supuesto, pueden implementar la compatibilidad con algo nuevo de su parte, pero eso no se convertirá en EL estándar. Sin embargo, hablar sobre ese cambio y mostrarle al ecosistema, tanto a los operadores de rastreadores como al ecosistema de publicación, que beneficia a todos generará consenso, lo que allanará el camino para actualizar el estándar.
Del mismo modo, si al protocolo le falta algo, habla de ello públicamente. sitemap
se convirtió en una regla ampliamente compatible en robots.txt porque era útil para los creadores de contenido y los motores de
búsqueda por igual, lo que allanó el camino para la adopción de la extensión. Si tienes una idea nueva para una
regla, pregúntale a los usuarios de robots.txt y a los creadores qué piensan al respecto y trabaja con ellos para
analizar los posibles (y probables) problemas que plantean y redactar una propuesta.
Si tu objetivo es para un bien común, vale la pena.