Cómo funciona la Búsqueda de Google

¿Cómo funciona Google? A continuación, te ofrecemos una versión corta y otra larga de la respuesta a esta pregunta.

Google obtiene información de varias fuentes, entre las que se incluyen las siguientes:

  • Páginas web
  • Contenido enviado por usuarios, como el de Google Mi Negocio y el de Maps
  • Libros escaneados
  • Bases de datos públicas que figuran en Internet
  • Y muchas fuentes más

Sin embargo, aquí nos enfocaremos las páginas web.

La versión corta

Google sigue tres pasos básicos para generar resultados de páginas web:

Rastreo

El primer paso consiste en averiguar qué páginas existen en la Web. Ya que no hay un registro central donde figuren todas las páginas web existentes, Google debe buscar páginas nuevas constantemente para agregarlas a su lista de páginas conocidas. Algunas páginas son conocidas porque Google ya las visitó en algún momento. Por otro lado, Google descubre otras páginas cuando sigue un vínculo de una página conocida que se dirige a una nueva. También se descubren otras páginas cuando el propietario de un sitio web envía una lista de páginas (un mapa del sitio) para que Google las rastree. Es posible que, si usas una plataforma de host web administrada, como Wix o Blogger, esta le solicite a Google que rastree cualquier página actualizada o nueva que hayas creado.

Una vez que Google descubre una URL de página, la visita o rastrea para ver qué contiene. Google procesa la página y analiza el contenido con texto y sin texto, además del diseño visual general, para decidir dónde debe aparecer en los resultados de la Búsqueda. Cuanto mejor comprenda tu sitio Google, mejor podremos hacerlo coincidir con las personas que buscan tu contenido.

Para mejorar el rastreo de tu sitio, puedes hacer lo siguiente:

  • Verifica que Google pueda acceder a las páginas del sitio y que se vean bien. Google accede al sitio web como un usuario anónimo (un usuario sin contraseñas ni información). Google también debería poder ver todas las imágenes y otros elementos de la página para poder entenderla correctamente. Para hacer una verificación rápida, escribe la URL de tu página en la prueba de optimización.
  • Si creaste o actualizaste una sola página, puedes enviar una URL individual a Google. Para indicarle a Google que hay muchas páginas nuevas o actualizadas, usa un mapa del sitio.
  • Si le solicitas a Google que rastree solo una página, haz que esta sea la página principal. Google considera que la página principal es la más importante de tu sitio. Para que se pueda realizar un rastreo completo del sitio, asegúrate de que tu página principal (y todas las otras) cuenten con un buen sistema de navegación que vincule todas las secciones y páginas importantes de tu sitio. Eso ayuda a que los usuarios (y Google) puedan navegar sin problemas en tu sitio. En el caso de los sitios más pequeños (menos de 1,000 páginas), solo tienes que informar a Google sobre tu página principal, siempre que Google pueda acceder a todas las demás páginas siguiendo una ruta de vínculos que comiencen en tu página principal.
  • Haz que tu página esté vinculada a otra que Google ya conozca. No obstante, ten en cuenta no se seguirán los vínculos que figuren en anuncios, los que pagues para que se muestren en otros sitios, los que aparezcan en comentarios ni otros vínculos que no cumplan con los Lineamientos para Webmasters de Google.

Indexación

Después de que se descubre una página, Google intenta comprender de qué se trata. Este proceso se denomina indexación. Google analiza el contenido de la página, cataloga las imágenes y videos que se encuentran en ella, e intenta comprender su contenido de algún modo. Esta información se almacena en el índice de Google, una enorme base de datos que se guarda en muchas (muchísimas) computadoras.

Para mejorar la indexación de tu sitio, haz lo siguiente:

  • Crea títulos de páginas cortos y significativos.
  • Utiliza encabezados de página que reflejen su tema principal.
  • Usa texto para expresar el contenido de tu sitio en lugar de imágenes. Google puede comprender algunas imágenes y videos, pero no de la misma manera en la que entiende el texto. Como mínimo, anota tus imágenes y videos con texto alternativo y otros atributos, según corresponda.

Publicación (y clasificación)

Cuando un usuario realiza una consulta, Google intenta encontrar la respuesta más pertinente en su índice basándose en muchos factores. Entre otros aspectos, intenta identificar las respuestas de mejor calidad y analizar otros factores, como la ubicación del usuario, el idioma y el tipo de dispositivo (computadora o teléfono), para brindar la mejor experiencia y la respuesta más adecuada. Por ejemplo, si un usuario busca "tiendas de reparación de bicicletas" en París, encontrará distintos resultados que los que encontrará otro que consulte lo mismo en Hong Kong. Google no acepta pagos para mejorar la clasificación de las páginas, que se realiza de forma programática.

Para mejorar la publicación y clasificación, puedes hacer lo siguiente:

La versión larga

¿Quieres obtener más información? Puedes encontrarla a continuación:

La versión larga

Rastreo

El rastreo es el proceso a través del cual Googlebot visita páginas nuevas y actualizadas para agregarlas al índice de Google.

Usamos una cantidad enorme de computadoras para obtener (o "rastrear") miles de millones de páginas web. El programa que realiza la búsqueda se llama Googlebot (también conocido como "robot", "bot" o "araña"). Googlebot utiliza un proceso algorítmico para determinar los sitios que se rastrearán, la frecuencia del rastreo y la cantidad de páginas de cada sitio que formarán parte de esa búsqueda.

El proceso de rastreo de Google comienza con una lista de URL de páginas web que se genera a partir de procesos de rastreo previos y que se amplía gracias a los datos que proporcionan los propietarios de los sitios web sobre los mapas del sitio. Cuando Googlebot visita una página, encuentra vínculos y los agrega a su lista de páginas para rastrear. También se detectan los sitios nuevos, los cambios en los sitios existentes y los vínculos inactivos, y se utiliza la información para actualizar el índice de Google.

Durante el rastreo, Google procesa la página usando una versión reciente de Chrome. En el procesamiento, ejecuta todas las secuencias de comandos de página que encuentra. Si tu sitio usa contenido generado de forma dinámica, asegúrate de seguir los aspectos básicos de JavaScript SEO.

¿Cómo sabe Google qué páginas no debe rastrear?

  • Las páginas bloqueadas en robots.txt no se rastrean, pero es posible que se indexen si hay vínculos en otra página que se dirijan a ellas. (Google puede deducir el contenido de la página mediante un vínculo que dirija a ella e indexar la página sin analizar su contenido).
  • Google no puede rastrear una página a la que un usuario anónimo no pueda acceder. Por lo tanto, si es necesario ingresar a una cuenta o aprobar cualquier requisito de autorización, no se podrá rastrear la página.
  • Las páginas que ya se rastrearon y son consideradas duplicadas de otra página se rastrean con menos frecuencia.

Mejora el rastreo de tus páginas

Utiliza las siguientes técnicas para que Google descubra las páginas adecuadas de tu sitio:

Indexación

Googlebot procesa cada página que rastrea para comprender el contenido de la página. Eso incluye el procesamiento del contenido de texto, las etiquetas y los atributos clave del contenido, como las etiquetas <title> y los atributos alt, imágenes, videos y mucho más. Googlebot puede procesar muchos tipos de contenido, pero no todos. Por ejemplo, no podemos procesar el contenido de algunos archivos de rich media.

En algún punto entre el proceso de rastreo y de indexación, Google determina si la página es una versión duplicada o canónica de otra. Si se considera un duplicado, se la rastreará con mucha menos frecuencia. Las páginas similares se agrupan en un documento, que es un grupo de una o más páginas que incluye la página canónica (la más representativa del grupo) y todos los duplicados que se encuentren (que pueden ser URL alternativas para llegar a la misma página o versiones alternativas para dispositivos móviles o computadoras de escritorio).

Ten en cuenta que Google no indexa páginas con una directiva noindex (encabezado o etiqueta). No obstante, es necesario que pueda ver la directiva, ya que si la página está bloqueada con un archivo robots.txt, una página de inicio de sesión o por otro dispositivo, es posible que se indexe la página, incluso si Google no la visitó.

Mejora la indexación de tus páginas

Existen muchas técnicas para ayudar a que Google comprenda el contenido de tu página:

¿Qué es un "documento"?

A nivel interno, Google representa la Web como un conjunto (enorme) de documentos. Cada documento representa una o más páginas web. Esas páginas son idénticas o muy similares, pero son, en esencia, el mismo contenido, al que se puede acceder desde URL diferentes. Las distintas URL de un documento pueden dirigir a la misma página (por ejemplo, example.com/vestidos/verano/1234 y example.com?producto=1234 pueden mostrar la misma página) o a la misma página con pequeñas variaciones para usuarios de diferentes dispositivos (por ejemplo, example.com/mipagina para usuarios de computadoras y m.example.com/mipagina para los de dispositivos móviles).

Google elige una de las URL de un documento y la define como la URL canónica. La URL canónica del documento es la que Google rastrea e indexa con mayor frecuencia. Las otras URL se consideran duplicadas o alternativas, y pueden ocasionalmente rastrearse o publicarse según la solicitud del usuario. Por ejemplo, si la URL canónica de un documento es la URL para dispositivos móviles, es probable que Google de todas formas publique la URL para computadoras (alternativa) para los usuarios que realizan búsquedas en este tipo de dispositivo.

La mayoría de los informes de Search Console atribuyen datos a la URL canónica del documento. Algunas herramientas (como la herramienta para inspeccionar URL) admiten pruebas de URL alternativas, pero inspeccionar la URL canónica también debe proporcionar información sobre las URL alternativas.

Puedes indicarle a Google cuál prefieres que sea la URL canónica, pero es posible que Google elija una versión canónica diferente por varios motivos.

A continuación, se incluye un resumen de términos y cómo se usan en Search Console:

  • Documento: es un conjunto de páginas similares. Incluye una URL canónica y, posiblemente, URL alternativas, si tu sitio tiene páginas duplicadas. Las URL del documento pueden ser de la misma organización o de organizaciones diferentes (el dominio raíz, por ejemplo, "google" en www.google.com). Google elige la mejor URL para mostrar en los resultados de la Búsqueda según la plataforma (dispositivo móvil/computadora), el idioma o la ubicación del usuario, y muchas otras variables. Google descubre páginas relacionadas en tu sitio mediante rastreo orgánico o funciones que implementa el sitio, como redireccionamientos o etiquetas <link rel=alternate/canonical>. Las páginas relacionadas de otras organizaciones solo se pueden marcar como alternativas si tu sitio las codificó de manera explícita (mediante redireccionamientos o etiquetas de vínculos).
  • URL: es la URL que se usa para llegar a un contenido determinado de un sitio. El sitio puede resolver diferentes URL a la misma página.
  • Página: es una página web determinada, a la que se accede mediante una o más URL. Puede haber versiones diferentes de una página, según la plataforma del usuario (dispositivo móvil, computadora, tablet, etc.).
  • Versión: es una variación de la página, que generalmente se clasifica como "para dispositivos móviles", "para computadoras" y "AMP" (aunque estas últimas pueden tener versiones para dispositivos móviles y computadoras de escritorio). Cada versión puede tener una URL diferente (example.com o m.example.com) o la misma URL (si tu sitio usa la publicación dinámica o el diseño web responsivo, la misma URL puede mostrar diferentes versiones de la misma página) según la configuración del sitio. Las variaciones de idioma no se consideran versiones diferentes, sino documentos diferentes.
  • Página o URL canónica: es la URL que Google considera más representativa del documento. Google siempre rastrea esta URL. En algunas ocasiones, también se rastrean las URL duplicadas del documento.
  • URL o página alternativa o duplicada: es la URL del documento que Google puede rastrear ocasionalmente. Google también publica esas URL si son apropiadas para el usuario y la solicitud (por ejemplo, se entregará una URL alternativa para los usuarios de computadoras en lugar de una URL canónica para dispositivos móviles).
  • Sitio: por lo general, se usa como sinónimo de sitio web (un conjunto de páginas web sobre un mismo tema), pero a veces se usa como sinónimo de una propiedad de Search Console, aunque una propiedad en realidad se define como solo una parte de un sitio. Un sitio puede abarcar un intervalo de subdominios (y también dominios, para páginas de AMP vinculadas correctamente).

 Las páginas con el mismo contenido en diferentes idiomas se almacenan en distintos documentos a los que se hace referencia entre sí mediante etiquetas hreflang. Por eso, es importante usar etiquetas hreflang para el contenido traducido.

Publicación de resultados

Cuando un usuario ingresa una consulta, nuestras máquinas buscan en el índice las páginas que coinciden y muestran los resultados que consideramos más relevantes. La relevancia está determinada por cientos de factores, y trabajamos constantemente para mejorar nuestro algoritmo. Google tiene en cuenta la experiencia del usuario al momento de elegir y clasificar los resultados, así que asegúrate de que tu página se cargue rápido y esté optimizada para dispositivos móviles.

Mejora la publicación de tus páginas

Una versión aún más larga

Puedes encontrar una versión aún más larga sobre el funcionamiento de la Búsqueda de Google (incluye imágenes y videos).