Cómo afectan a la Búsqueda de Google tanto los códigos de estado HTTP como los errores de red y de DNS

En esta página se explica cómo afectan a la Búsqueda de Google diferentes códigos de estado HTTP, errores de red y errores de DNS. Explicamos los 20 códigos de estado que más veces ha detectado el robot de Google en la Web, así como los errores de DNS y de red más destacados. No se incluye ninguna explicación de los códigos de estado que aparecen con menos frecuencia, como 418 (I'm a teapot). Todos los problemas que se mencionan en esta página hacen que aparezca un error o una advertencia en el informe "Indexación de páginas" de Search Console.

Códigos de estado HTTP

Los códigos de estado HTTP los genera el servidor que aloja el sitio cuando responde a una solicitud de un cliente, como un navegador o un rastreador. Cada código de estado HTTP tiene un significado diferente, pero a menudo el resultado de la solicitud es el mismo. Por ejemplo, hay varios códigos de estado que indican la redirección, pero el resultado es el mismo.

Search Console genera mensajes de error de los códigos de estado del intervalo 4xx–5xx y de redirecciones fallidas (3xx). Si el servidor responde con un código de estado 2xx, es posible que el contenido recibido en la respuesta se tenga en cuenta en la indexación.

En la siguiente tabla se muestran los códigos de estado HTTP que más encuentra el robot de Google y una explicación de cómo Google gestiona cada uno de ellos.

Códigos de estado HTTP

2xx (success)

Google tiene en cuenta el contenido para determinar su indexación. Si el contenido sugiere un error, como una página vacía o un mensaje de error, Search Console mostrará un error soft 404.

200 (success)

Google pasa el contenido al proceso de indexación. Los sistemas de indexación pueden indexar el contenido, pero este proceso no está garantizado.

201 (created)
202 (accepted)

El robot de Google espera el contenido durante un tiempo limitado y luego envía lo que ha recibido a la indexación. El tiempo de espera depende del user-agent. Por ejemplo, es posible que el robot de Google para smartphones tenga un tiempo de espera diferente al del robot de Google para imágenes.

204 (no content)

El robot de Google indica a los sistemas de indexación que no ha recibido ningún contenido. Es posible que Search Console muestre un error soft 404 en el informe "Indexación de páginas" del sitio.

3xx (redirection)

El robot de Google hace hasta 10 saltos de redirección. Si el rastreador no recibe contenido en 10 saltos, Search Console mostrará un error de redirección en el informe "Indexación de páginas" del sitio. El número de saltos que sigue el robot de Google depende del user-agent. Por ejemplo, el límite del robot de Google para smartphones puede ser distinto al del robot de Google para imágenes.

En el caso de los archivos robots.txt, el robot de Google sigue al menos cinco redirecciones según lo definido en el RFC 1945. Después, se detiene y lo trata como un error 404 del archivo robots.txt.

Se ignora todo el contenido que el robot de Google recibe de la URL de redirección, y se tiene en cuenta el contenido de la URL de destino final para indexarlo.

301 (moved permanently)

El robot de Google sigue la redirección, y los sistemas de indexación la utilizan como un indicador importante de que la página de destino de la redirección debería ser la canónica.

302 (found)

El robot de Google sigue la redirección, y los sistemas de indexación la utilizan como un indicador poco importante de que la página de destino de la redirección debería ser la canónica.

303 (see other)
304 (not modified)

El robot de Google indica a los sistemas de indexación que el contenido es el mismo que la última vez que se rastreó. Estos sistemas pueden volver a calcular los indicadores de la URL, pero el código de estado no influye en la indexación.

307 (temporary redirect) Es equivalente a 302.
308 (moved permanently) Es equivalente a 301.

4xx (client errors)

Los sistemas de indexación de Google no tienen en cuenta en la indexación las URLs que devuelven un código de estado 4xx, y las URLs que ya están indexadas y devuelven un código de estado 4xx se retiran del índice.

Se ignora todo el contenido que el robot de Google recibe de las URLs que devuelven un código de estado 4xx.

400 (bad request)

Todos los errores 4xx, salvo 429, se tratan del mismo modo: el robot de Google indica a los sistemas de indexación que no existe el contenido.

Este proceso quita la URL de la indexación si ya se había indexado previamente. No se procesan las páginas 404 encontradas recientemente. La frecuencia de rastreo disminuye gradualmente.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

El robot de Google trata el código de estado 429 como un indicador de que el servidor está sobrecargado y lo considera un error del servidor.

5xx (server errors)

Los errores del servidor 5xx y 429 piden a los rastreadores de Google que ralenticen temporalmente el rastreo. Las URLs que ya están indexadas se conservan en el índice, pero se acaban retirando.

Si el archivo robots.txt devuelve un código de estado de error del servidor durante más de 30 días, Google utilizará la última copia almacenada en caché del archivo robots.txt. Si no hay ninguna, Google considera que no hay restricciones de rastreo.

Se ignora todo el contenido que el robot de Google recibe de las URLs que devuelven un código de estado 5xx.

500 (internal server error)

El robot de Google reduce la frecuencia de rastreo del sitio, y esta disminución es proporcional al número de URLs que devuelve un error del servidor. Los sistemas de indexación de Google retiran del índice las URLs que devuelven constantemente un error del servidor.

502 (bad gateway)
503 (service unavailable)

soft 404 errores

Un error soft 404 es una URL que devuelve una página en la que se informa al usuario de que la página que buscaba no existe y también se muestra un código de estado 200 (success). En algunos casos, puede ser una página sin un contenido principal o vacía.

Este tipo de páginas pueden generarse por diversos motivos por el servidor web o el sistema de gestión de contenido de tu sitio web, o por el navegador del usuario. Por ejemplo:

  • Falta un archivo de inclusión del servidor.
  • Hay una conexión dañada en la base de datos.
  • Hay una página de resultados de búsqueda interna vacía.
  • Hay un archivo JavaScript que no se ha descargado o que falta.

Devolver un código de estado 200 (success) empeora la experiencia de usuario, al igual que mostrar o sugerir un mensaje de error o algún tipo de error en la página. Los usuarios pueden pensar que la página funciona correctamente, pero luego se encuentran con algún tipo de error. Esas páginas se excluyen de la Búsqueda.

Cuando los algoritmos de Google detectan que es una página de error basándose en su contenido, Search Console lo registra en el informe "Indexación de páginas" del sitio mostrando un error soft 404.

Corregir errores soft 404

En función del estado de la página y del resultado que quieras conseguir, puedes corregir errores soft 404 de varias formas:

Intenta determinar cuál es la mejor solución para tus usuarios.

La página y el contenido ya no están disponibles

Si has retirado la página y no hay otra con contenido similar en tu sitio que la vaya a sustituir, devuelve un código de respuesta (de estado) 404 (not found) o 410 (gone) de esa página. Estos códigos de estado indican a los buscadores que la página no existe y que el contenido no se debería indexar.

Si tienes acceso a los archivos de configuración de tu servidor, puedes personalizar estas páginas de error para que resulten útiles a los usuarios. Una página 404 personalizada correctamente ayuda a los usuarios a encontrar la información que buscan y, además, les proporciona otro contenido útil que anima a seguir navegando por tu sitio. A continuación, te damos algunas sugerencias sobre cómo diseñar una página 404 personalizada y útil:

  • Explica claramente a los visitantes que no se puede acceder a la página que buscan. Incluye mensajes amables y acogedores.
  • Tu página 404 debe tener el mismo aspecto y el mismo sistema de navegación que el resto del sitio.
  • Puede que sea interesante añadir enlaces a tus artículos o a tus publicaciones más populares, además de un enlace a la página principal de tu sitio.
  • Procura incluir algún mecanismo que permita a los usuarios avisarte si hay algún enlace roto.

Como las páginas 404 personalizadas solo se crean para los usuarios y no son útiles desde el punto de vista del buscador, comprueba que el servidor devuelva un código de estado HTTP 404 para evitar que se indexen.

La página o el contenido han cambiado de lugar

Si tu página se ha movido o tiene una sustituta clara en tu sitio, devuelve un código 301 (permanent redirect) para redirigir al usuario a la nueva. Hacer esto no interrumpirá su experiencia de navegación y es una forma muy buena de informar a los buscadores sobre la nueva ubicación de la página. Con la herramienta de inspección de URLs, puedes comprobar si tu URL devuelve el código correcto.

La página y el contenido siguen ahí

Si una página que debería haberse clasificado como buena se ha marcado con un error soft 404, es probable que el robot de Google no la haya cargado correctamente, que le faltaran recursos clave o que haya mostrado un mensaje de error destacado durante el renderizado. Con la herramienta de inspección de URLs, puedes examinar el contenido renderizado y el código HTTP que se devuelve. Si la página renderizada está en blanco o prácticamente en blanco, o el contenido muestra un mensaje de error, es posible que haga referencia a muchos recursos que no pueden cargarse (imágenes, secuencias de comandos y otros elementos no textuales), lo que se podría considerar un error soft 404. Hay varias razones por las que es posible que los recursos no se carguen. Por ejemplo, puede que un archivo robots.txt los haya bloqueado, que haya varios errores del servidor, que la página tenga demasiados recursos o que estos sean demasiado grandes o de carga lenta.

Errores de red y de DNS

Los errores de red y de DNS tienen efectos rápidos y negativos en la presencia de una URL en la Búsqueda de Google. El robot de Google trata los tiempos de espera de la red, el reinicio de la conexión y los errores de DNS de forma similar a los errores del servidor 5xx. En el caso de que se produzcan errores de red, el rastreo empieza a ralentizarse inmediatamente, ya que un error de red indica que el servidor tal vez no pueda gestionar la carga del servicio. Como el robot de Google no ha podido acceder al servidor donde se aloja el sitio, Google tampoco ha recibido ningún contenido del servidor. La falta de contenido implica que Google no puede indexar las URLs rastreadas y que, en el plazo de unos días, se retirarán de su índice las URLs que ya estén indexadas y que no sean accesibles. Puede que en Search Console se genere un mensaje por cada error que se detecte.

Depurar errores de red

Estos errores se producen antes de que Google empiece a rastrear una URL o mientras lo está haciendo. Dado que los errores pueden producirse antes de que el servidor pueda responder, de forma que no hay ningún código de estado que pueda sugerir problemas, el diagnóstico de estos errores puede ser más complicado. Para depurar errores de tiempo de espera y de reinicio de conexión, sigue estos pasos:

  • Consulta la configuración y los registros de tu cortafuegos. Puede que el conjunto de reglas de bloqueo que hay sea demasiado general. Asegúrate de que ninguna regla del cortafuegos bloquee direcciones IP del robot de Google.
  • Observa el tráfico de red. Con herramientas como tcpdump y Wireshark se podrán capturar y analizar paquetes TCP, así como buscar anomalías que dirijan a un componente de red o módulo de servidor específicos.
  • Si no detectas nada sospechoso, ponte en contacto con tu empresa de alojamiento.

El error puede encontrarse en cualquier componente del servidor que gestione el tráfico de red. Por ejemplo, las interfaces de red sobrecargadas pueden retirar paquetes que provocan que se agoten tiempos de espera (impiden que se establezca una conexión) y reiniciar conexiones (paquete RST enviado porque un puerto se ha cerrado por error).

Depurar errores de DNS

La mayoría de las veces, los errores de DNS se deben a una configuración incorrecta. Sin embargo, también es posible que haya alguna regla del cortafuegos bloqueando consultas de DNS del robot de Google. Para depurar errores de DNS, sigue estos pasos:

  • Inspecciona las reglas de tu cortafuegos. Asegúrate de que ninguna regla del cortafuegos bloquee ninguna de las direcciones IP del robot de Google y de que las solicitudes UDP y TCP estén habilitadas.
  • Consulta tus registros DNS. Comprueba que los registros A y CNAME dirigen a las direcciones IP y a los nombres de host correctos, respectivamente. Por ejemplo:
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Comprueba que todos los servidores de nombres dirigen a las direcciones IP correctas de tu sitio. Por ejemplo:
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Si has hecho cambios en la configuración de DNS en las últimas 72 horas, es posible que tengas que esperar a que los cambios se propaguen por la red DNS mundial. Para acelerar este proceso, puedes limpiar la caché de DNS pública de Google.
  • Si utilizas tu propio servidor DNS, asegúrate de que funciona correctamente y de que no esté sobrecargado.