robots.txt no es válido

El archivo robots.txt les indica a los motores de búsqueda qué páginas de tu sitio pueden rastrear. Una configuración robots.txt no válida puede causar dos tipos de problemas:

  • Puede evitar que los motores de búsqueda rastreen páginas públicas, lo que provoca que tu contenido aparezca con menos frecuencia en los resultados de la búsqueda.
  • Puede hacer que los motores de búsqueda rastreen páginas que no quieres que se muestren en los resultados de la búsqueda.

Cómo falla la auditoría de robots.txt de Lighthouse

Lighthouse marca archivos robots.txt no válidos:

Auditoría de Lighthouse que muestra un archivo robots.txt no válido

Expande la auditoría robots.txt no es válida en tu informe para saber cuál es el problema con tu robots.txt.

Entre los errores comunes, se incluyen los siguientes:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse no verifica que tu archivo robots.txt esté en la ubicación correcta. Para funcionar correctamente, el archivo debe estar en la raíz de tu dominio o subdominio.

Cómo solucionar problemas relacionados con robots.txt

Asegúrate de que robots.txt no muestre un código de estado HTTP 5XX

Si el servidor muestra un error de servidor (un código de estado HTTP en los años 500) para robots.txt, los motores de búsqueda no sabrán qué páginas deben rastrearse. Es posible que dejen de rastrear todo el sitio, lo que impediría que se indexe contenido nuevo.

Para verificar el código de estado HTTP, abre robots.txt en Chrome y verifica la solicitud en las Herramientas para desarrolladores de Chrome.

Mantén robots.txt por debajo de 500 KiB.

Es posible que los motores de búsqueda dejen de procesar robots.txt a la mitad si el archivo supera los 500 KiB. lo que puede confundir al motor de búsqueda, lo que puede provocar un rastreo incorrecto de tu sitio.

Para que robots.txt se mantenga pequeño, concéntrate menos en las páginas excluidas de forma individual y más en los patrones más amplios. Por ejemplo, si necesitas bloquear el rastreo de archivos PDF, no inhabilites cada archivo en particular. En su lugar, inhabilita todas las URLs que contengan .pdf mediante disallow: /*.pdf.

Corrija los errores de formato

  • En robots.txt, solo se permiten las líneas vacías, los comentarios y las directivas que coinciden con el formato "name: value".
  • Asegúrate de que los valores allow y disallow estén vacíos o comiencen con / o *.
  • No uses $ en medio de un valor (por ejemplo, allow: /file$html).

Asegúrate de que haya un valor para user-agent

Nombres de usuarios-agentes para indicarles a los rastreadores de motores de búsqueda qué directivas deben seguir Debes proporcionar un valor para cada instancia de user-agent a fin de que los motores de búsqueda sepan si deben seguir el conjunto de directivas asociado.

Para especificar un rastreador de motor de búsqueda en particular, usa un nombre de usuario-agente de su lista publicada. (Por ejemplo, esta es la lista de usuarios-agentes de Google que se usan para el rastreo).

Usa * para hacer coincidir todos los rastreadores que no tienen esa coincidencia.

Qué no debes hacer
user-agent:
disallow: /downloads/

No se definió ningún usuario-agente.

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Se definen un usuario-agente general y un usuario-agente magicsearchbot.

Asegúrate de que no haya directivas allow o disallow antes de user-agent

Los nombres de usuario-agente definen las secciones de tu archivo robots.txt. Los rastreadores de motores de búsqueda usan esas secciones para determinar qué directivas deben seguir. Si colocas una directiva antes del primer nombre de usuario-agente, ningún rastreador la seguirá.

Qué no debes hacer
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Ningún rastreador de motor de búsqueda leerá la directiva disallow: /downloads.

# start of file
user-agent: *
disallow: /downloads/

Ningún motor de búsqueda puede rastrear la carpeta /downloads.

Los rastreadores de motores de búsqueda solo siguen las directivas de la sección con el nombre de usuario-agente más específico. Por ejemplo, si tienes directivas para user-agent: * y user-agent: Googlebot-Image, Googlebot Imágenes solo seguirá las directivas de la sección user-agent: Googlebot-Image.

Proporciona una URL absoluta para sitemap

Los archivos de mapa del sitio son una excelente manera de informar a los motores de búsqueda sobre las páginas de tu sitio web. Por lo general, un archivo de mapa del sitio incluye una lista de las URLs de tu sitio web, junto con información sobre cuándo se modificaron por última vez.

Si decides enviar un archivo de mapa del sitio en robots.txt, asegúrate de usar una URL absoluta.

Qué no debes hacer
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml

Recursos