Cómo funciona la Búsqueda (para usuarios avanzados)

Comprender el modo en que la Búsqueda de Google rastrea, indexa y publica resultados con el contenido es importante a la hora de depurar problemas y de anticipar cómo actuará la Búsqueda en tu sitio.

Rastreo

El rastreo es el proceso mediante el cual el robot de Google visita páginas nuevas y actualizadas para añadirlas al índice de Google.

Utilizamos una enorme cantidad de ordenadores para obtener (o "rastrear") miles de millones de páginas de la Web. El programa encargado de obtener este contenido es el robot de Google, también denominado robot o araña. El robot de Google determina mediante algoritmos qué sitios deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de ellos.

El proceso de rastreo de Google empieza con una lista de URLs de páginas web generada a partir de rastreos anteriores, que se amplía con los datos de los sitemaps que nos envían los propietarios de los sitios web. Cuando el robot de Google visita páginas, encuentra los enlaces que contienen y los añade a la lista de páginas para rastrear. Al detectar sitios nuevos, cambios en los sitios que ya conocemos y enlaces obsoletos, se actualiza el índice de Google con esta información.

Cuando rastreamos una página, la renderizamos con una versión reciente de Chrome y, durante el proceso, ejecutamos todas las secuencias de comandos que encontramos en ella. Si generas contenido dinámicamente en tu sitio, recuerda seguir los conceptos básicos de SEO en JavaScript.

¿Cómo sabe Google qué páginas no debe rastrear?

  • No rastreamos las páginas bloqueadas en archivos robots.txt, pero es posible que las indexemos si hay enlaces a ellas en otras páginas. Podemos deducir el contenido de una página si tenemos un enlace que lleve a ella, así como indexarla sin analizar su contenido.
  • No podemos rastrear las páginas a las que no se puede acceder de forma anónima, por lo que, si una página requiere iniciar sesión o tiene otras medidas de autorización, no se podrá rastrear.
  • Rastreamos con menos frecuencia las páginas que ya se hayan rastreado antes y se consideren duplicados de otra página.

Mejorar el rastreo

Con las técnicas que indicamos a continuación, nos ayudarás a descubrir las páginas adecuadas de tu sitio:

Indexación

El robot de Google procesa todas las páginas que rastrea para entender su contenido. Además del contenido textual, procesa la información incluida en etiquetas y atributos de contenido importantes, como las etiquetas <title>, los atributos "alt", las imágenes o los vídeos. El robot de Google puede procesar muchos tipos de contenido, pero hay otros que no puede procesar. Por ejemplo, no puede procesar el contenido de algunos archivos de rich media.

Entre los procesos de rastreo y de indexación determinamos si una página es una versión duplicada o canónica de otra. Si consideramos que es un duplicado, se rastreará con mucha menos frecuencia. Las páginas similares se agrupan en un documento, que es un grupo de al menos una página en el que se incluye la página canónica (la más representativa del grupo) y los duplicados que se hayan encontrado. Los duplicados pueden ser simplemente URLs distintas para llegar a una misma página o versiones alternativas para móviles u ordenadores.

No indexamos ninguna página que contenga una directiva noindex, ya sea en su encabezado o en una etiqueta. Sin embargo, para respetar esta directiva, primero tenemos que poder verla; por tanto, si una página está bloqueada por un archivo robots.txt, requiere iniciar sesión o está bloqueada de algún otro modo, es posible que la acabemos indexando aunque no la hayamos visitado.

Mejorar la indexación

Hay muchas técnicas que puedes aplicar para ayudarnos a entender mejor el contenido de tus páginas:

¿Qué es un "documento"?

Internamente, en Google representamos la Web como un enorme conjunto de documentos, en el que cada documento representa una o varias páginas web. Estas páginas son idénticas o muy parecidas, y tienen básicamente el mismo contenido, al que se puede acceder desde distintas URLs. Estas URLs pueden llevar a la misma página (por ejemplo, example.com/vestidos/verano/1234 y example.com?producto=1234 pueden dirigir al mismo contenido) o a una página idéntica, pero que tiene pequeñas variaciones para usuarios de determinados dispositivos (por ejemplo, example.com/mipagina para usuarios de ordenadores y m.example.com/mipagina para usuarios de móviles).

Elegimos una de esas URLs y la marcamos como la URL canónica del documento. Esa es la URL que rastreamos e indexamos con más frecuencia. Las demás se consideran duplicados o alternativas, y puede que se rastreen de vez en cuando. También es posible que se sirvan en solicitudes de usuarios que cumplan ciertas características. Por ejemplo, aunque la URL canónica de un documento sea la URL para móviles, es probable que incluyamos en los resultados la URL alternativa para ordenadores si el usuario está haciendo su búsqueda desde un ordenador.

La mayoría de los informes de Search Console atribuyen los datos a la URL canónica de los documentos. En algunas herramientas, como la herramienta de inspección de URLs, se pueden comprobar URLs alternativas, pero lo normal es que, al inspeccionar la URL canónica, también se obtenga información sobre las alternativas.

Puedes indicarnos qué URL quieres que sea canónica, pero es posible que elijamos otra distinta por varios motivos.

A continuación se incluye un breve glosario de términos donde se indica cómo se usan en Search Console:

  • Documento: conjunto de páginas similares que está formado por una URL canónica y, posiblemente, URLs alternativas si hay páginas duplicadas en tu sitio. Las URLs de un documento pueden ser de la misma organización (el dominio raíz, como "google" en www.google.com) o de organizaciones distintas. A la hora de elegir cuál es la mejor URL que se puede mostrar en los resultados de búsqueda, tenemos en cuenta la plataforma (móviles u ordenadores), el idioma o la ubicación de los usuarios, entre muchas otras variables. Descubrimos páginas relacionadas en tu sitio mediante el rastreo orgánico o mediante funciones implementadas en el propio sitio, como redirecciones o etiquetas <link rel=alternate/canonical>. Las páginas relacionadas que sean de otras organizaciones solo se pueden marcar como alternativas si así se indica en tu sitio de forma explícita mediante redirecciones o etiquetas de enlace.
  • URL: la URL con la que se accede a un contenido determinado de un sitio.
  • Página: una página web concreta, a la que se accede mediante una o varias URLs. Una página puede tener diferentes versiones para las distintas plataformas desde las que pueden acceder a ella los usuarios (móviles, ordenadores, tablets, etc.).
  • Versión: variación de una página, que suele ser "móvil", "ordenador" o "AMP", aunque AMP también puede tener versiones para móviles y ordenadores. En función de cómo esté configurado tu sitio, cada versión puede tener una URL diferente (example.com y m.example.com) o usar la misma; por ejemplo, en la misma URL se pueden mostrar diferentes versiones de la misma página dependiendo de si tu sitio utiliza la publicación dinámica o un diseño web adaptable. Las variaciones de idioma no se consideran versiones diferentes, sino documentos diferentes.
  • Página o URL canónica: la URL que consideramos más representativa de un documento y la que rastreamos siempre. En ocasiones, también se rastrean las URLs duplicadas de los documentos.
  • Página o URL alternativa o duplicada: URL de un documento que rastreamos de vez en cuando. A veces, se sirven estas URLs si son las más adecuadas para responder a una solicitud concreta de un usuario; por ejemplo, en las solicitudes que provienen de ordenadores, se sirven URLs para ordenadores, aunque sean versiones alternativas y su página canónica sea para móviles.
  • Sitio: por lo general, se utiliza como sinónimo de "sitio web", que es un conjunto de páginas web que están relacionadas por un concepto. No obstante, a veces este término también se usa como sinónimo de propiedad de Search Console, aunque en realidad una propiedad puede ser solo una parte de un sitio. Los sitios pueden abarcar varios subdominios, e incluso dominios si sus páginas AMP están enlazadas correctamente.

Publicación de resultados

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas que coincidan con ellas y devuelve los resultados que considera más relevantes. Para determinar esta relevancia, el sistema tiene en cuenta cientos de factores. Trabajamos constantemente para mejorar nuestro algoritmo. La experiencia de usuario es uno de los factores que tenemos en cuenta al elegir y posicionar resultados, por lo que te recomendamos que tus páginas se carguen rápidamente y estén optimizadas para móviles.

Mejorar los resultados

Puedes mejorar la forma en que se muestran tus páginas en los resultados de las siguientes maneras:

  • Si tus resultados van dirigidos a usuarios de ubicaciones concretas o que hablan determinados idiomas, puedes indicarnos tus preferencias.
  • Asegúrate de que tus páginas se carguen rápidamente y estén optimizadas para móviles.
  • Sigue las directrices para webmasters; de este modo, evitarás errores habituales y mejorarás el posicionamiento de tu sitio.
  • Valora la opción de implementar funciones de resultados de la Búsqueda en tu sitio, como tarjetas de recetas o de artículos.
  • Implementa AMP para que tus páginas se carguen más rápido en dispositivos móviles. Algunas páginas AMP también pueden aparecer en funciones de búsqueda adicionales, como el carrusel Noticias destacadas.
  • Estamos mejorando nuestro algoritmo constantemente, así que en lugar de tratar de averiguar sus criterios y diseñar tu página en consecuencia, crea contenido de calidad y actualizado que resulte interesante a los usuarios y sigue nuestras directrices.