Cómo afectan los códigos de estado HTTP y los errores de red y DNS a la Búsqueda de Google

En esta página, se describe cómo los diferentes códigos de estado HTTP, los errores de red y los errores de DNS afectan a la Búsqueda de Google. Abordamos los 20 códigos de estado principales que Googlebot encontró en la Web, además de los errores de red y DNS más destacados. No se contemplan los códigos de estado menos comunes, como 418 (I'm a teapot). Todos los problemas que se mencionan en esta página generan un error o una advertencia correspondiente en el Informe de indexación de páginas de Search Console.

Códigos de estado HTTP

El servidor que aloja el sitio genera los códigos de estado HTTP cuando responde a una solicitud que realiza un cliente, como un navegador o un rastreador. Cada código de estado HTTP tiene un significado diferente, pero a menudo el resultado de la solicitud es el mismo. Por ejemplo, hay varios códigos de estado que indican un redireccionamiento, pero su resultado es el mismo.

Search Console genera mensajes de error para los códigos de estado en el rango 4xx–5xx y para redireccionamientos incorrectos (3xx). Si el servidor respondió con un código de estado 2xx, el contenido recibido en la respuesta se podría considerar para la indexación.

En la siguiente tabla, se incluyen los códigos de estado HTTP más encontrados por Googlebot y una explicación de cómo Google maneja cada código de estado.

Códigos de estado HTTP

2xx (success)

Google revisa el contenido y decide si es apto para que se indexe. Si el contenido sugiere un error (por ejemplo, una página vacía o un mensaje de error), Search Console mostrará un error soft 404.

200 (success)

Google pasa el contenido a la canalización de indexación. Es posible que los sistemas de indexación indexen el contenido, pero eso no está garantizado.

201 (created)
202 (accepted)

Googlebot espera el contenido durante un tiempo limitado y, luego, pasa todo lo que recibió a la canalización de indexación. El tiempo de espera depende del usuario-agente; por ejemplo, Googlebot para smartphones puede tener un tiempo de espera diferente al de Googlebot para imágenes.

204 (no content)

Googlebot le indica a la canalización de indexación que no recibió contenido. Es posible que Search Console muestre un error soft 404 en el Informe de indexación de páginas del sitio.

3xx (redirection)

Googlebot sigue hasta 10 saltos de redireccionamiento. Si el rastreador no recibe contenido en 10 saltos, Search Console mostrará el error de redireccionamiento en el Informe de indexación de páginas del sitio. La cantidad de saltos que sigue Googlebot depende del usuario-agente; por ejemplo, es posible que Googlebot para smartphones tenga un valor diferente al de Imagen de Googlebot.

En el caso de robots.txt, Googlebot sigue al menos cinco saltos de redireccionamiento, según lo que define RFC 1945, y luego se detiene y lo considera un 404 para el archivo robots.txt.

Se ignorará cualquier contenido que Googlebot reciba de la URL de redireccionamiento, y el contenido de la URL objetivo final se considerará para su indexación.

301 (moved permanently)

Googlebot sigue el redireccionamiento, y la canalización de indexación usa el redireccionamiento como un indicador importante de que el objetivo de redireccionamiento debe ser canónico.

302 (found)

Googlebot sigue el redireccionamiento, y la canalización de indexación usa el redireccionamiento como un indicador débil de que el objetivo de redireccionamiento debe ser canónico.

303 (see other)
304 (not modified)

Googlebot le indica a la canalización de indexación que el contenido es el mismo que la última vez que se rastreó. La canalización de indexación puede volver a calcular los indicadores de la URL, pero, de lo contrario, el código de estado no tendrá efecto en la indexación.

307 (temporary redirect) Equivale a 302.
308 (moved permanently) Equivale a 301.

4xx (client errors)

La canalización de indexación de Google no considera las URL que muestran un código de estado 4xx para su indexación, y se quitan del índice las URL que ya están indexadas y muestran un código de estado 4xx.

Se ignorará cualquier contenido que Googlebot reciba de las URLs que muestren un código de estado 4xx.

400 (bad request)

Todos los errores 4xx, excepto 429, se tratan de la misma manera: Googlebot le indica a la canalización de indexación que el contenido no existe.

La canalización de indexación quita la URL del índice si ya se había indexado. No se procesan las páginas 404 que se encontraron recientemente. La frecuencia de rastreo disminuye de forma gradual.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Googlebot trata el código de estado 429 como una señal de que el servidor está sobrecargado, y se considera un error de servidor.

5xx (server errors)

Los errores del servidor 5xx y 429 hacen que los rastreadores de Google se ralenticen de forma temporal con el rastreo. Las URLs ya indexadas se conservan en el índice, pero finalmente se descartan.

Si el archivo robots.txt muestra un código de estado de error de servidor durante más de 30 días, Google usará la última copia de robots.txt almacenada en caché. Si no está disponible, Google asumirá que no hay restricciones de rastreo.

Se ignorará cualquier contenido que Googlebot reciba de las URLs que muestren un código de estado 5xx.

500 (internal server error)

Googlebot disminuye la frecuencia de rastreo del sitio. La disminución de la frecuencia de rastreo es proporcional a la cantidad de URL individuales que muestran un error de servidor. La canalización de indexación de Google se quita de las URLs del índice que muestran un error de servidor de forma persistente.

502 (bad gateway)
503 (service unavailable)

soft 404 errores

Un error soft 404 es una URL que muestra una página para informar al usuario que el sitio no existe y también un 200 (success) código de estado. En algunos casos, puede ser una página sin un contenido principal o con páginas vacías.

Estas páginas pueden generarse por varios motivos a través del servidor web del sitio web, el sistema de administración de contenido o el navegador del usuario. Por ejemplo:

  • Falta un archivo de inclusión del servidor.
  • Hay una conexión dañada a la base de datos.
  • Hay una página de resultados de búsqueda interna vacía.
  • Hay un archivo de JavaScript no descargado o faltante.

Mostrar un código de estado 200 (success) atenta contra la buena experiencia del usuario, al igual que mostrar o sugerir un mensaje de error o algún tipo de error en la página. Los usuarios pueden pensar que la página funciona como corresponde, pero, luego, se encuentran con algún tipo de error. Esas páginas se excluyen de la Búsqueda.

Cuando los algoritmos de Google detecten que la página es en realidad un error según su contenido, Search Console mostrará un error soft 404 en el Informe de indexación de páginas del sitio.

Cómo corregir errores soft 404

Según el estado de la página y el resultado deseado, puedes resolver los errores soft 404 de varias maneras:

Intenta determinar la mejor solución para los usuarios.

La página y el contenido ya no están disponibles

Si quitaste la página y no tienes una de reemplazo con contenido similar en tu sitio, muestra un código (de estado) de respuesta 404 (not found) o 410 (gone) de la página. Estos códigos de estado les indican a los motores de búsqueda que la página no existe y que el contenido no debe indexarse.

Si tienes acceso a los archivos de configuración de tu servidor, puedes personalizar las páginas de error a fin de lograr que sean útiles para los usuarios. Una buena página 404 personalizada permite que las personas encuentren la información que buscan y también proporciona otro contenido útil que las motiva a explorar más tu sitio. Aquí tienes algunas sugerencias para diseñar una página personalizada 404 que sea útil:

  • Indícales claramente a los visitantes que no se puede encontrar la página que buscan. Usa un lenguaje amigable y atractivo.
  • Asegúrate de que tu página 404 tenga el mismo aspecto (incluida la navegación) que el resto del sitio.
  • Procura agregar vínculos a tus publicaciones o artículos más populares y un vínculo a la página principal de tu sitio.
  • Piensa en brindar a los usuarios una forma de denunciar un vínculo roto.

Las páginas 404 personalizadas se crean exclusivamente para los usuarios. Como estas páginas no tienen un propósito desde el punto de vista de un motor de búsqueda, el servidor debería mostrar un código de estado HTTP 404 para evitar que se indexen.

La página o el contenido ahora se encuentra en otra ubicación

Si trasladaste tu página o esta tiene un reemplazo, muestra un 301 (permanent redirect) para redireccionar al usuario. Esto no interrumpirá su experiencia de navegación y también es una buena manera de informar a los motores de búsqueda la nueva ubicación de la página. Usa la Herramienta de inspección de URL para verificar que tu URL muestre el código adecuado.

La página y el contenido todavía existen

Si se marca una página buena con un error soft 404, es probable que no se haya cargado correctamente para Googlebot, que le falten recursos críticos, o bien que haya mostrado un mensaje de error destacado durante el procesamiento. Usa la Herramienta de inspección de URL a fin de examinar el contenido procesado y el código HTTP que se mostró. Si la página procesada está vacía, casi vacía o si el contenido tiene un mensaje de error, es posible que tu página contenga muchos recursos que no se pueden cargar (imágenes, secuencias de comandos y otros elementos no textuales), y que eso sea interpretado como un error soft 404. Estas son algunas de las razones por las que no se pueden cargar los recursos: recursos bloqueados (por robots.txt), demasiados recursos en una página, varios errores de servidor o recursos que tardan mucho en cargarse o son muy grandes.

Errores de red y DNS

Los errores de red y DNS tienen efectos negativos rápidos en la presencia de una URL en la Búsqueda de Google. Googlebot trata los tiempos de espera de la red, el restablecimiento de la conexión y los errores de DNS de manera similar a los errores de servidor 5xx. En caso de errores de red, el rastreo comienza a disminuirse de inmediato, ya que un error de red es un indicador de que tal vez el servidor no puede manejar la carga de entrega. Como Googlebot no pudo acceder al servidor que aloja el sitio, Google tampoco recibió ningún contenido del servidor. La falta de contenido significa que Google no puede indexar las URLs rastreadas, y las URLs ya indexadas que son inaccesibles se quitarán del índice de Google en cuestión de días. Search Console podría generar errores para cada error correspondiente.

Cómo depurar errores de red

Estos errores ocurren antes de que Google comience a rastrear una URL o mientras la rastrea. Debido a que los errores pueden ocurrir antes de que el servidor pueda responder, y no hay un código de estado que pueda sugerir problemas, tal vez sea más difícil diagnosticarlos. Para depurar los errores de tiempo de espera y de restablecimiento de conexión, haz lo siguiente:

  • Revisa la configuración y los registros del firewall. Es posible que se haya establecido una regla de bloqueo demasiado amplia. Asegúrate de que las direcciones IP de Googlebot no estén bloqueadas por ninguna regla de firewall.
  • Observa el tráfico de red. Usa herramientas como tcpdump y Wireshark para capturar y analizar paquetes TCP, y busca anomalías que apunten a un componente de red o módulo de servidor específico.
  • Si no encuentras datos sospechosos, comunícate con tu empresa de hosting.

El error puede estar en cualquier componente del servidor que maneje tráfico de red. Por ejemplo, las interfaces de red sobrecargadas pueden descartar paquetes, lo que genera tiempos de espera (incapacidad de establecer una conexión) y restablecimientos de conexiones (se envió el paquete RST porque se cerró un puerto por error).

Cómo depurar errores de DNS

Los errores de DNS suelen deberse a una configuración incorrecta, pero también pueden generarse por una regla de firewall que bloquee las consultas de DNS de Googlebot. Para depurar errores de DNS, haz lo siguiente:

  • Inspecciona las reglas de firewall. Asegúrate de que ninguna regla de firewall bloquee ninguna de las IP de Google y de que se permitan las solicitudes UDP y TCP.
  • Revisa tus registros de DNS. Verifica que tus registros A y CNAME dirijan a las direcciones IP y al nombre de host correctos, respectivamente. Por ejemplo:
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Verifica que todos tus servidores de nombres apunten a las direcciones IP correctas de tu sitio. Por ejemplo:
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Si realizaste cambios en la configuración de DNS en las últimas 72 horas, es posible que debas esperar a que se propaguen los cambios en la red DNS global. Para acelerar la propagación, puedes vaciar la caché del DNS público de Google.
  • Si ejecutas tu propio servidor DNS, asegúrate de que esté en buen estado y que no esté sobrecargado.