Optimización del rastreo y la indexación

martes, 11 de agosto de 2009

Muchas de las preguntas sobre arquitectura de sitios web, rastreo e indexación, incluso preguntas sobre posicionamiento, pueden reducirse a una sola pregunta: ¿Es fácil para los motores de búsqueda rastrear tu sitio web? Hemos hablado sobre este tema recientemente, y a continuación encontrarás nuestra presentación y algunos de los puntos principales sobre este tema:




Internet es un lugar enorme [inglés] donde se está creando contenido nuevo todo el tiempo. Google cuenta con un número finito de recursos, así que cuando se enfrentan a la casi infinita cantidad de contenido que está disponible en la red, Googlebot sólo es capaz de encontrar y rastrear un porcentaje de dicho contenido. Y de los contenidos que hemos rastreado, sólo podemos indexar una parte.

Las URL actúan como puentes entre tu sitio web y el robot del motor de búsqueda. Los robots tienen que ser capaces de encontrar y cruzar esos puentes (por ejemplo, encontrar y rastrear tus URL) con el fin de llegar al contenido de tu sitio web. Si tus URL son complicadas o redundantes, los robots gastarán su tiempo en localizar y recordar el camino a seguir hasta tus URL; pero si están bien organizadas y llevan directamente al contenido, los robots utilizarán su tiempo para acceder a tu contenido, en lugar de rastrear páginas vacías o rastrear el mismo contenido una y otra vez a través de diferentes URL.

En la presentación anterior puedes ver algunos ejemplos de qué no hacer, ejemplos reales (aunque hemos cambiado los nombres) de "hacks" y códigos caseros en URL, parámetros de enmascaramiento como parte de la ruta de URL, espacios infinitos de rastreo y mucho más. También encontrarás algunas recomendaciones para enderezar ese laberinto de URL y ayudar a los robots a encontrar más rápido tu contenido, que incluyen:
  • Eliminar detalles específicos del usuario en las URL:
Los parámetros de URL, que no cambian el contenido de la página, como el ID de sesión o el orden de clasificación, se pueden quitar de la URL y ponerlos en una cookie. Al poner esta información en una cookie y hacer una redirección 301 a una URL "limpia", se conserva la información y se reduce el número de URL que apuntan a un mismo contenido.
  • Evitar espacios infinitos:
¿Tienes un calendario que enlaza a un número infinito de fechas pasadas o futuras (cada uno con su propia URL)? ¿Tienes datos paginados que devuelven un código de estado 200 al añadir &page=3563 a la dirección URL, incluso si no hay muchas páginas de datos? Si es así, tienes un espacio infinito de rastreo en tu sitio web, y los robots (¡y tu también!) podrían estar desperdiciando ancho de banda tratando de rastrearlo todo. Te recomendamos que tengas en cuenta estos consejos y trates de evitar los espacios infinitos.
  • Desactivar acciones que Googlebot no puede realizar:
A través del archivo robots.txt , puedes desactivar el rastreo de páginas de inicio, formularios de contacto, cestas de la compra y otras páginas cuya única funcionalidad es una acción que un robot no puede realizar. (Los robots son muy tímidos y además les gusta gastar poco, por lo que no suelen "Añadir a la cesta" o "Contactar"). Así permites que los robots utilicen más tiempo en rastrear contenido con el que realmente pueden hacer algo.
  • Una URL, un conjunto de contenidos:
En un mundo ideal, habría siempre una vinculación entre una URL y un determinado contenido: cada URL llevaría a una pieza de contenido única. Cuanto más cerca estemos de este ideal, más adecuado será tu sitio web para el rastreo y la indexación. Si tu sistema de gestión de contenidos (CMS) o la configuración actual de tu sitio web dificulta el rastreo, puedes usar el elemento de enlace canónico para indicar la URL preferida para un fragmento de contenido en concreto.

Si tienes más dudas sobre optimización de sitios web para rastreo e indexación, puedes consultar alguna de nuestras entradas anteriores [inglés] sobre este tema, o pasarte por nuestro foro .