Soluciona problemas relacionados con errores de rastreo de la Búsqueda de Google
Sigue estos pasos clave para solucionar los problemas de rastreo de la Búsqueda de Google en tu sitio:
- Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio
- Revisa si no se están rastreando algunas páginas que sí deberían rastrearse.
- Revisa si alguna parte de tu sitio debería rastrearse más rápido que lo que ya se está haciendo.
- Mejora la eficiencia del rastreo de tu sitio.
- Controla el rastreo excesivo de tu sitio.
Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio
Mejorar la disponibilidad de tu sitio no necesariamente aumentará el presupuesto de rastreo; Google determina la mejor frecuencia de rastreo en función de su demanda, como se describió anteriormente. Sin embargo, los problemas de disponibilidad no permiten que Google rastree tu sitio tanto como quisiera.
Diagnóstico:
Usa el informe de estadísticas de rastreo para ver el historial de rastreo de Googlebot correspondiente a tu sitio. En ese informe se muestra cuándo Google detectó problemas de disponibilidad. Si se informan errores o advertencias de disponibilidad en tu sitio, busca instancias en los gráficos de disponibilidad del host en los que las solicitudes de Googlebot superen la línea roja que marca el límite, haz clic en el gráfico para ver qué URL fallaron e intenta correlacionarlas con problemas en el sitio.
Además, puedes usar la Herramienta de inspección de URLs para probar algunas URLs en tu sitio. Si la herramienta muestra advertencias como Se excedió la carga del host, significa que Googlebot no puede rastrear tantas URLs de tu sitio como había descubierto.
Solución:
- Lee la documentación sobre el informe de estadísticas de rastreo a fin de obtener información para encontrar y resolver algunos problemas de disponibilidad.
- Bloquea el rastreo de las páginas que no quieres que se rastreen. (Consulta cómo administrar tu inventario).
- Aumenta la velocidad de carga y procesamiento de la página. (Consulta Cómo mejorar la eficacia de rastreo de tu sitio).
- Aumenta la capacidad de tu servidor. Si parece que Google siempre rastrea tu sitio al límite de su capacidad de entrega, pero tienes URLs importantes que no se rastrean ni actualizan con la frecuencia necesaria, aumentar los recursos de entrega podría permitir que Google solicite más páginas de tu sitio. Revisa el historial de disponibilidad de tu host en el informe de estadísticas de rastreo para ver si la frecuencia de rastreo de Google parece cruzar el límite con frecuencia. Si es así, aumenta los recursos de entrega durante un mes y verifica si las solicitudes de rastreo aumentaron durante ese mismo período.
Verifica si no se está rastreando alguna parte de tu sitio que sí debería rastrearse
Google dedica el tiempo que sea necesario en tu sitio para indexar todo el contenido que encuentre de alta calidad y valioso para el usuario. Si crees que a Googlebot le falta rastrear contenido importante, es probable que no sepa de su existencia, que el contenido esté bloqueado para Google o que la disponibilidad de tu sitio esté limitando el acceso de Google (o bien Google está intentando no sobrecargar tu sitio).
Diagnóstico:
Search Console no proporciona un historial de rastreo para tu sitio que se pueda filtrar por URL o ruta de acceso, pero puedes inspeccionar los registros de tu sitio a fin de ver si Googlebot rastreó URLs específicas. Si se indexaron esas URL rastreadas o no, es otra historia.
Recuerda que las páginas nuevas suelen tardar varios días en advertirse, como mínimo. En la mayoría de los sitios, no se espera el rastreo de URL el mismo día, a excepción de los sitios con contenido urgente, como los de noticias.
Solución:
Si agregaste páginas a tu sitio y no se las está rastreando en un período razonable, puede que Google no sepa de ellas, que el contenido esté bloqueado, que tu sitio haya alcanzado su capacidad máxima de entrega o que se haya terminado tu presupuesto de rastreo.
- Cuéntale a Google sobre las páginas nuevas: actualiza tus mapas del sitio para que reflejen las URLs nuevas.
- Revisa tus reglas robots.txt para confirmar que no estés bloqueando las páginas por accidente.
- Revisa tus prioridades de rastreo (es decir, usa el presupuesto de rastreo con prudencia). Administra tu inventario y mejora la eficacia de rastreo de tu sitio.
- Verifica que no te estés quedando sin capacidad de entrega. Googlebot reducirá el rastreo si detecta que tus servidores tienen problemas para responder a las solicitudes de rastreo.
Ten en cuenta que posiblemente no se muestren las páginas en los resultados de la búsqueda, incluso aunque se rastreen, si no hay suficiente valor o demanda del usuario para el contenido.
Consulta si se rastrean las actualizaciones lo suficientemente rápido
Si nos falta rastrear páginas nuevas o actualizadas de tu sitio, tal vez se deba a que no las vimos o no notamos que se hubieran actualizado. A continuación, te indicamos cómo puedes ayudarnos a estar al tanto de las actualizaciones de páginas.
Ten en cuenta que Google se esfuerza por verificar e indexar las páginas en un plazo razonable. Para la mayoría de los sitios, ese plazo es de tres días o más. No esperes que Google indexe páginas el mismo día que las publiques, a menos que tengas un sitio de noticias o subas contenido valioso y extremadamente urgente.
Diagnóstico:
Analiza los registros de tu sitio para ver cuándo Googlebot rastreó URL específicas.
Para conocer la fecha de indexación, usa la Herramienta de inspección de URLs o busca las URLs que actualizaste.
Solución:
Qué debes hacer:
- Usa un mapa del sitio de Google Noticias si tu sitio tiene contenido de noticias.
- Usa la etiqueta
<lastmod>en los mapas del sitio para indicar cuándo se actualizó una URL indexada. - Usa una estructura de URL con capacidad de rastreo para ayudar a Google a encontrar tus páginas.
- Proporciona vínculos rastreables
<a>estándar para que Google pueda encontrar tus páginas. - Si tu sitio usa HTML independiente para las versiones para dispositivos móviles y para computadoras, proporciona el mismo conjunto de vínculos en la versión para dispositivos móviles que en la versión para computadoras. Si no es posible proporcionar el mismo conjunto de vínculos en la versión para dispositivos móviles, asegúrate de que se incluyan en un archivo mapa del sitio. Google solo indexa la versión para dispositivos móviles de las páginas, y limitar los vínculos que se muestran allí puede ralentizar el descubrimiento de páginas nuevas.
Qué debes evitar:
- Enviar el mismo mapa del sitio varias veces al día.
- Esperar que Googlebot rastree todo en un mapa del sitio o lo haga de forma inmediata. Los mapas del sitio son sugerencias útiles para Googlebot, pero no son requisitos absolutos.
- Incluir en tus mapas del sitio URL que no quieres que aparezcan en la Búsqueda. Esto puede desperdiciar tu presupuesto de rastreo en páginas que no quieres que se indexen
Mejora la eficiencia del rastreo de tu sitio
Aumenta la velocidad de carga de tu página
El rastreo de Google está limitado por ancho de banda, tiempo y disponibilidad de las instancias de Googlebot. Si tu servidor responde a las solicitudes más rápidamente, es posible que podamos rastrear más páginas del sitio. De todas formas, Google solo deseará rastrear contenido de alta calidad, por lo que hacer que páginas de baja calidad sean más rápidas no hará que Googlebot aumente el rastreo de tu sitio. Por el contrario, si creemos que falta contenido de alta calidad en tu sitio, es probable que aumentemos tu presupuesto para rastrearlo.
A continuación, te mostramos cómo optimizar tus páginas y recursos para el rastreo:
- Usa robots.txt para evitar que Googlebot cargue recursos de gran tamaño y sin importancia. Asegúrate de bloquear solo los recursos que no sean críticos; es decir, los que no son importantes para comprender el significado de la página (como las imágenes decorativas).
- Cerciórate de que las páginas se carguen rápidamente.
- Presta atención a las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
- Tanto el tiempo destinado a responder las solicitudes del servidor como el necesario para procesar las páginas son importantes, incluido el tiempo de carga y ejecución de los recursos incorporados, como imágenes y secuencias de comandos. Ten en cuenta los recursos lentos o de gran tamaño necesarios para la indexación.
Especifica los cambios de contenido con códigos de estado HTTP
Por lo general, Google admite los
encabezados de solicitud HTTP If-Modified-Since y If-None-Match
para el rastreo. Los rastreadores de Google no envían los encabezados en todos los intentos de rastreo. Esto depende
del caso de uso de la solicitud (por ejemplo,
AdsBot tiene más
probabilidades de establecer el encabezado de la solicitud HTTP If-Modified-Since y If-None-Match). Si nuestros rastreadores envían el encabezado If-Modified-Since, el valor del encabezado
es la fecha y hora
en la que se rastreó por última vez el contenido. Según ese valor, el servidor puede optar por mostrar un
código de estado HTTP 304 (Not Modified) sin cuerpo de respuesta, en cuyo caso Google
reutilizará la versión de contenido que rastreó por última vez. Si el contenido es más reciente que la fecha
especificada por el rastreador en el encabezado If-Modified-Since, el servidor puede mostrar un
código de estado HTTP 200 (OK) con el cuerpo de la respuesta.
Más allá de los encabezados de la solicitud, puedes enviar un código de estado HTTP 304 (Not Modified) y ningún cuerpo de respuesta para cualquier solicitud de Googlebot si el contenido no cambió desde
la última vez que visitó la URL. Esto ahorrará tiempo y recursos de procesamiento del servidor,
lo que podría mejorar indirectamente la eficiencia del rastreo.
Oculta las URLs que no quieras que aparezcan en los resultados de la búsqueda
Desperdiciar recursos del servidor en páginas innecesarias puede reducir la actividad de rastreo de páginas que son importantes para ti, lo que podría causar una demora significativa en el descubrimiento de gran contenido nuevo o actualizado en un sitio.
Exponer muchas URLs que no quieres que se rastreen mediante la Búsqueda puede afectar negativamente el rastreo y la indexación de un sitio. Por lo general, esas URLs se clasifican en las siguientes categorías:
- Navegación por facetas e identificadores de sesión: (la navegación por facetas suele ser contenido duplicado del sitio; los identificadores de sesión y otros parámetros de URL que simplemente ordenan o filtran la página no proporcionan contenido nuevo). Obtén más información para administrar el rastreo de páginas de navegación por facetas.
- Contenido duplicado: ayuda a Google a identificar contenido duplicado para evitar el rastreo innecesario.
- Páginas de
soft 404: muestra un código404cuando una página ya no existe. - Páginas hackeadas: asegúrate de revisar el informe de problemas de seguridad y corregir o quitar las páginas hackeadas que encuentres.
- Espacios infinitos y proxies: bloquea su rastreo usando robots.txt.
- Contenido de spam y calidad baja: obviamente, es ideal evitarlo.
- Páginas del carrito de compras, páginas de desplazamiento infinito y páginas que realizan una acción (como páginas de registro o de compra inmediata).
Qué debes hacer:
- Usa robots.txt si no quieres que Google rastree un recurso o página en absoluto.
- Si se vuelve a usar un recurso común en varias páginas (como una imagen compartida o un archivo JavaScript), haz referencia al recurso desde la misma URL en cada página para que Google pueda almacenar en caché y reutilizar el mismo recurso sin necesidad de solicitarlo varias veces.
Qué debes evitar:
- No agregues ni quites páginas o directorios de robots.txt periódicamente como una forma de "reasignar" parte del presupuesto de rastreo para tu sitio. Usa robots.txt solo para páginas o recursos que no quieres que aparezcan en Google a largo plazo.
- No cambies los mapas del sitio ni uses otros mecanismos de ocultamiento temporales para reasignar el presupuesto.
Errores soft 404
Un error soft 404 es una URL que muestra una página que informa al usuario que el sitio
no existe y también un
200 (success)
código de estado. En algunos casos, puede ser una página sin un contenido principal o con páginas vacías.
Estas páginas pueden generarse por varios motivos a través del servidor web del sitio web, el sistema de administración de contenido o el navegador del usuario. Por ejemplo:
- Falta un archivo de inclusión del servidor.
- Hay una conexión dañada a la base de datos.
- Hay una página de resultados de búsqueda interna vacía.
- Hay un archivo de JavaScript no descargado o faltante.
Mostrar un código de estado 200 (success) atenta contra la buena experiencia del usuario, al igual que mostrar o sugerir un mensaje de error o algún tipo de error en la página. Los usuarios pueden pensar que la página funciona correctamente pero, luego, se encuentran con algún tipo de error. Esas páginas se excluyen de la Búsqueda.
Cuando los algoritmos de Google detecten que la página es en realidad un error según su contenido, Search Console mostrará un error soft 404 en el Informe de indexación de páginas del sitio.
Cómo corregir errores soft 404
Según el estado de la página y el resultado que desees, puedes resolver los errores soft 404
de varias maneras:
- La página y el contenido ya no están disponibles.
- La página o el contenido ahora se encuentra en otra ubicación.
- La página y el contenido todavía existen.
Intenta determinar la mejor solución para los usuarios.
La página y el contenido ya no están disponibles
Si quitaste la página y no tienes una de reemplazo con contenido similar en tu sitio, muestra un código (de estado) de respuesta 404 (not found) o 410 (gone) de la página. Estos códigos de estado les indican a los motores de búsqueda que la página no existe y que no quieres que la indexen.
Si tienes acceso a los archivos de configuración de tu servidor, puedes personalizar las páginas de error para lograr que sean útiles para los usuarios. Una buena página 404 personalizada permite que las personas encuentren la información que buscan y también proporciona otro contenido útil que las motiva a explorar más tu sitio. Aquí tienes algunas sugerencias para diseñar una página personalizada 404 que sea útil:
- Indícales claramente a los visitantes que no se puede encontrar la página que buscan. Usa un lenguaje amigable y atractivo.
-
Asegúrate de que tu página
404tenga el mismo aspecto (incluida la navegación) que el resto del sitio. - Procura agregar vínculos a tus publicaciones o artículos más populares y un vínculo a la página principal de tu sitio.
- Piensa en brindar a los usuarios una forma de denunciar un vínculo roto.
Las páginas 404 personalizadas se crean exclusivamente para los usuarios. Como estas páginas no tienen un propósito desde el punto de vista de un motor de búsqueda, el servidor debería mostrar un código de estado HTTP 404 para evitar que se indexen.
La página o el contenido ahora se encuentra en otra ubicación
Si trasladaste tu página o esta tiene un reemplazo, muestra un código 301 (permanent redirect) para redireccionar al usuario. Esto no interrumpirá su experiencia de navegación y también es una buena manera de informar a los motores de búsqueda la nueva ubicación de la página. Usa la Herramienta de inspección de URL para verificar que tu URL muestre el código adecuado.
La página y el contenido todavía existen
Si se marca una página buena con un error soft 404, es probable que no se haya cargado correctamente para Googlebot, que le falten recursos críticos, o bien que haya mostrado un mensaje de error destacado durante el procesamiento. Usa la Herramienta de inspección de URL para examinar el contenido procesado y el código HTTP que se mostró. Si la página procesada está vacía, casi vacía o si el contenido tiene un mensaje de error, es posible que tu página contenga muchos recursos que no se pueden cargar (imágenes, secuencias de comandos y otros elementos no textuales), y que eso sea interpretado como un error soft 404.
Estas son algunas de las razones por las que no se pueden cargar los recursos: recursos bloqueados (por robots.txt), demasiados recursos en una página, varios errores de servidor o recursos que tardan mucho en cargarse o que son muy grandes.
Controla el rastreo excesivo de tu sitio (emergencias)
Googlebot tiene algoritmos destinados a evitar sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si compruebas que Googlebot está sobrecargándolo, hay algunas medidas que puedes tomar.
Diagnóstico:
Supervisa el servidor para detectar solicitudes excesivas de Googlebot en tu sitio.
Solución:
En una emergencia, te recomendamos que sigas estos pasos para ralentizar un rastreo de Googlebot que esté sobrecargando el servidor:
- Muestra los códigos de estado de respuesta HTTP
503o429temporalmente para las solicitudes de Googlebot cuando el servidor esté sobrecargado. Googlebot volverá a intentar procesar esas URLs durante aproximadamente 2 días. Ten en cuenta que mostrar códigos de "no disponibilidad" durante más de algunos días hará que Google ralentice de forma permanente o detenga el rastreo de las URL de tu sitio, por lo que deberías seguir los siguientes pasos adicionales. -
Cuando disminuya la frecuencia de rastreo, deja de mostrar los códigos de estado de respuesta HTTP
503o429para las solicitudes de rastreo. Si se muestran503o429durante más de 2 días, Google quitará esas URL del índice. - Supervisa el rastreo y la capacidad del host a lo largo del tiempo.
- Si el rastreador problemático es uno de los rastreadores de AdsBot, es probable que hayas creado orientaciones de anuncios dinámicos de búsqueda para tu sitio que Google está intentando rastrear. Ese rastreo volverá a ocurrir cada 3 semanas. Si no cuentas con la capacidad de servidor necesaria para controlar estos rastreos, limita las orientaciones de tus anuncios o aumenta la capacidad de entrega.