El archivo robots.txt
les indica a los motores de búsqueda qué páginas de tu sitio pueden rastrear. Una configuración robots.txt
no válida puede causar dos tipos de problemas:
- Puede evitar que los motores de búsqueda rastreen páginas públicas, lo que provoca que tu contenido aparezca con menos frecuencia en los resultados de la búsqueda.
- Puede hacer que los motores de búsqueda rastreen páginas que no quieres que se muestren en los resultados de la búsqueda.
Cómo falla la auditoría de robots.txt
de Lighthouse
Lighthouse marca archivos robots.txt
no válidos:
Expande la auditoría robots.txt
no es válida en tu informe
para saber cuál es el problema con tu robots.txt
.
Entre los errores comunes, se incluyen los siguientes:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse no verifica que tu archivo robots.txt
esté en la ubicación correcta. Para funcionar correctamente, el archivo debe estar en la raíz de tu dominio o subdominio.
Cómo solucionar problemas relacionados con robots.txt
Asegúrate de que robots.txt
no muestre un código de estado HTTP 5XX
Si el servidor muestra un error de servidor (un código de estado HTTP en los años 500) para robots.txt
, los motores de búsqueda no sabrán qué páginas deben rastrearse. Es posible que dejen de rastrear todo el sitio, lo que impediría que se indexe contenido nuevo.
Para verificar el código de estado HTTP, abre robots.txt
en Chrome y verifica la solicitud en las Herramientas para desarrolladores de Chrome.
Mantén robots.txt
por debajo de 500 KiB.
Es posible que los motores de búsqueda dejen de procesar robots.txt
a la mitad si el archivo supera los 500 KiB. lo que puede confundir al motor de búsqueda, lo que puede provocar un rastreo incorrecto de tu sitio.
Para que robots.txt
se mantenga pequeño, concéntrate menos en las páginas excluidas de forma individual y más en los patrones más amplios. Por ejemplo, si necesitas bloquear el rastreo de archivos PDF, no inhabilites cada archivo en particular. En su lugar, inhabilita todas las URLs que contengan .pdf
mediante disallow: /*.pdf
.
Corrija los errores de formato
- En
robots.txt
, solo se permiten las líneas vacías, los comentarios y las directivas que coinciden con el formato "name: value". - Asegúrate de que los valores
allow
ydisallow
estén vacíos o comiencen con/
o*
. - No uses
$
en medio de un valor (por ejemplo,allow: /file$html
).
Asegúrate de que haya un valor para user-agent
Nombres de usuarios-agentes para indicarles a los rastreadores de motores de búsqueda qué directivas deben seguir Debes proporcionar un valor para cada instancia de user-agent
a fin de que los motores de búsqueda sepan si deben seguir el conjunto de directivas asociado.
Para especificar un rastreador de motor de búsqueda en particular, usa un nombre de usuario-agente de su lista publicada. (Por ejemplo, esta es la lista de usuarios-agentes de Google que se usan para el rastreo).
Usa *
para hacer coincidir todos los rastreadores que no tienen esa coincidencia.
user-agent: disallow: /downloads/
No se definió ningún usuario-agente.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Se definen un usuario-agente general y un usuario-agente magicsearchbot
.
Asegúrate de que no haya directivas allow
o disallow
antes de user-agent
Los nombres de usuario-agente definen las secciones de tu archivo robots.txt
. Los rastreadores de motores de búsqueda usan esas secciones para determinar qué directivas deben seguir. Si colocas una directiva antes del primer nombre de usuario-agente, ningún rastreador la seguirá.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Ningún rastreador de motor de búsqueda leerá la directiva disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Ningún motor de búsqueda puede rastrear la carpeta /downloads
.
Los rastreadores de motores de búsqueda solo siguen las directivas de la sección con el nombre de usuario-agente más específico. Por ejemplo, si tienes directivas para user-agent: *
y user-agent: Googlebot-Image
, Googlebot Imágenes solo seguirá las directivas de la sección user-agent: Googlebot-Image
.
Proporciona una URL absoluta para sitemap
Los archivos de mapa del sitio son una excelente manera de informar a los motores de búsqueda sobre las páginas de tu sitio web. Por lo general, un archivo de mapa del sitio incluye una lista de las URLs de tu sitio web, junto con información sobre cuándo se modificaron por última vez.
Si decides enviar un archivo de mapa del sitio en robots.txt
, asegúrate de usar una URL absoluta.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml