Mejorando la indexacion de Flash

martes, 10 de marzo de 2009

Hemos recibido muchas peticiones para mejorar nuestro índice de archivos Flash Adobe. Ron Adler y Janis Stipins, ingenieros de software en nuestro equipo de indexación nos ofrecerán más información sobre nuestro comunicado en el que anunciábamos mejoras en la indexación de Flash [inglés] .

P: ¿Qué archivos Flash indexa Google mejor ahora?
Hemos mejorado nuestra habilidad para indexar texto en archivos SWF de todo tipo. Esto incluye "gadgets" en Flash como botones o menus, páginas web hechas con Flash y todo lo demás.

P: ¿Qué contenido indexa Google mejor de estos archivos Flash?
Todo el texto que los usuarios pueden ver cuando interactúan con tu sitio web en Flash. Si tu sitio web contiene Flash, el texto de los archivos Flash puede utilizarse cuando Google crea las descripciones (snippets) de tu sitio web. Además, las palabras que aparecen en tus archivos Flash se pueden usar para las búsquedas de Google.

Además de encontrar e indexar el contenido de texto en los archivos Flash, descubrimos URL que aparecen en los archivos Flash y las rastreamos, tal y como hacemos con las URL que aparecen en páginas que no son Flash. Por ejemplo, si tu aplicación Flash tiene enlaces a páginas internas de tu sitio web, Google puede ser capaz de encontrar y rastrear mejor tu sitio web.

P: ¿Qué ocurre con contenido no textual, como las imágenes?
Por el momento, sólo estamos buscando e indexando contenido de texto en archivos Flash. Si tus archivos Flash tan solo incluyen imágenes, no leeremos o indexaremos el texto que pueda aparecer en estas imágenes. De la misma forma que no generaremos texto ancla para los botones Flash que tengan alguna URL, pero que no tengan asociado ningún texto.

Además no indexaremos archivos FLV, tales como los videos de Youtube porque esos archivos no contienen elementos de texto.

P: ¿Cómo ve Google el contenido de los archivos Flash?
Hemos desarrollado un algoritmo que explora los archivos Flash de la misma forma que lo haría una persona: haciendo clic en los botones, introduciendo contenido y demás. Nuestro algoritmo recuerda todo el texto que encuentra en el camino y que luego estará disponible para ser indexado. No podemos contarte todos los detalles, pero podemos decirte que la efectividad del algoritmo ha sido mejorada utilizando la nueva librería para búsqueda SWF de Adobe.

P: ¿Qué necesito hacer para que Google indexe el texto de mis archivos Flash?
Pues realmente nada. Las mejoras que hemos realizado no requieren ninguna acción especial por parte de diseñadores web o webmasters. Si tienes contenido Flash en tu página web empezaremos a indexarlo automáticamente con las limitaciones que nuestra tecnología tiene (ver siguiente pregunta).

Así que deberías saber que Google es ahora capaz de ver el texto que se muestra a los visitantes de tu sitio web. Si prefieres que Google ignore la parte menos informativa de tu contenido, como el copyright o el aviso de carga, considera remplazar este texto por una imagen, lo cual lo hará invisible para nosotros.

P: ¿Cuáles son las limitaciones técnicas de Google en la indexación Flash?
Hay tres limitaciones principales por el momento y estamos trabajando para resolverlas:
  1. Googlebot no ejecuta algunos tipos de JavaScript. Así que si tu página web carga un archivo Flash vía JavaScript, Google quizás no se de cuenta de ese archivo Flash, en cuyo caso no será indexado.
  2. Por el momento no añadimos contenido de fuentes externas que se carguen a través de tus archivos Flash. Si tus archivos Flash cargan un archivo HTML, otro archivo XML, otro SWF, etc. Google indexará esa fuente (o fuentes), pero no será considerado parte del contenido de tu archivo Flash.
  3. Mientras que sí somos capaces de indexar Flash en casi todos los lenguajes que hay en la web, tenemos por el momento dificultades con el contenido Flash escrito en lenguajes bidireccionales. Hasta que esto no se arregle, no seremos capaces de indexar contenido en hebreo o en árabe de archivos Flash.
¡Estamos trabajando en ello, así que estad atentos!

Actualización : A todos, gracias por vuestras preguntas y sugerencias. Nuestro objetivo es mejorar la calidad de búsqueda de todos los usuarios y con mejor indexación de Flash crearemos mejores resultados de búsqueda. Hemos contestado abajo algunas de las preguntas más importantes. Gracias de nuevo.

Un sitio Flash en los resultados de búsqueda antes de las mejoras
Un sitio Flash después de la indexación mejorada, buscando
[nasa deep impact animation]
Ayúdanos a acceder e indexar tus archivos Flash
@fintan: Verificamos con Adobe que el contenido de texto desde sitios legítimos, como por ejemplo los que tienen scripts AS1 y AS2, pueden ser indexados por nuestro nuevo algoritmo.
@andrew, jonny m, erichazann, mike, ledge, stu, rex, blog, dis: En el lanzamiento del 1 de Julio no activamos la indexación Flash para estos archivos incrustados vía SWFObject. Ahora estamos probando una actualización que es compatible con técnicas normales de JavaScript para incrustar Flash, incluyendo SWFObject y SWFObject2.

@mike: Por el momento, el contenido que se carga desde otros archivos no se indexa. Hemos apuntado la petición de esta característica por parte de varios webmasters. Trabajamos en esto en una futura actualización.
Interacción entre páginas HTML y Flash
@captain cuisine: El texto que encontramos en archivos Flash se trata de la misma manera que el texto encontrado en otros archivos, como HMTL, PDF, etc. Si el archivo Flash se encuentra incrustado en HMTL (como muchos de los archivos que estamos encontrando), su contenido se asocia con la URL padre (parent) e indexada como una entidad separada.

@jeroen: Mostrar el mismo contenido Flash y una versión alternativa de HTML podría hacer que encontrásemos contenido duplicado. Esto no causaría una penalización, no reducimos la posición de un sitio web por causa del contenido duplicado. Pero estar atentos, ya que los resultados de búsqueda seguramente mostrarán una versión, no ambas.

@All: Estamos intentado mostrar a los usuarios los resultados más relevantes sin tener en cuenta el tipo de archivo. Estos significa que Flash, HTML con Flash incrustado, sólo HTML, PDF, etc., pueden tener la opción de que se sirvan en los resultados de búsqueda.
Indexando una gran cantidad de archivos Flash
@dsfdgsg: Hemos escuchado peticiones de enlaces internos (enlaces a un contenido específico dentro del archivo) no sólo para los resultados Flash, sino también para otros documentos de gran tamaño y presentaciones. En el caso de Flash, la capacidad de enlazar internamente requerirá una funcionalidad adicional en Flash que nosotros integramos.

@All: La mayoría de los archivos Flash existentes en Internet están bien respecto a su tamaño. No debería ser algo por lo que preocuparnos.
Más detalles sobre nuestro algoritmo de indexación Flash
@brian, marcos, bharath: Sobre ActionScript, nosotros somos capaces de encontrar nuevos enlaces que se cargan a través de este. Exploramos Flash como un usuario lo haría, no descompilamos el archivo SWF. A menos que tú hagas el ActionScript visible a los usuarios, Google no mostrará el código ActionScript.
@dlocks: Respetamos el class="external-link" donde quiera que lo encontremos en el HTML.