Retirada de URLs (2.ª parte): retirada de texto sensible de una página

Viernes, 6 de agosto del 2010

Nada es definitivo. Habrá ocasiones, tal y como vimos en nuestra entrada anterior sobre la retirada de URLs, en las que te interese bloquear o eliminar por completo una página de tu sitio. Otras veces, puede que sólo cambies algunas partes de una página o elimines determinados fragmentos de texto. En función de la frecuencia con la que se rastrea una página, los cambios pueden tardar algún tiempo en reflejarse en los resultados de búsqueda. En esta entrada del blog, hablaremos sobre los pasos que puedes seguir si ves que en los resultados de búsqueda todavía mostramos contenido obsoleto previamente eliminado, tanto en forma de "fragmento" como en la página almacenada en caché a la que lleva el resultado de búsqueda. Sigue estas instrucciones cuando el contenido antiguo incluya información sensible que necesites retirar cuanto antes. Si lo que quieres es simplemente actualizar un sitio web de manera normal, no es necesario que sigas estos pasos.

A modo de ejemplo, te recomendamos que le eches un vistazo al siguiente resultado de búsqueda ficticio:

Walter E. Coyote < Título

Jefe de desarrollo de la empresa Acme Corp entre 1948 y 2003: trabajó en el
dispositivo de alto secreto para la captura del Velocitus Incalculii que ha demostrado un gran potencial...

< Fragmento
www.example.com/about/waltercoyote - En caché < URL + enlace a la página almacenada en caché

Para cambiar el contenido que se muestra en el fragmento (o que aparece en la página en caché asociada), primero tendrás que modificar el contenido de la página en sí (la página real). A menos que se cambie el contenido visible de manera pública en una página, los procesos automáticos de Google seguirán mostrando partes del contenido original en los resultados de búsqueda.

Una vez modificado el contenido de la página, hay varias opciones que permiten reflejar los cambios realizados en los resultados de búsqueda:

  1. Espera a que el robot de Google vuelva a rastrear e indexar la página: es el método natural que se sigue para actualizar la mayoría del contenido de Google. A veces, el proceso puede ser bastante largo en función de la frecuencia con la que el robot de Google rastree la página en cuestión. Una vez rastreada e indexada la página, lo normal es que el contenido antiguo deje de estar visible y se sustituya por el contenido actualizado. Siempre y cuando el robot de Google no esté bloqueado (mediante el archivo robots.txt o debido a la imposibilidad de acceder correctamente al servidor) y pueda rastrear la página, no tendrás que hacer nada más. Por lo general, no se pueden agilizar los procesos de rastreo e indexación, ya que están totalmente automatizados y dependen de muchos factores externos.

  2. Utiliza la herramienta de retirada de URLs públicas de Google para solicitar la retirada de contenido eliminado en la página web de otro usuario. Si usas esta herramienta, tendrás que introducir la URL exacta de la página modificada, seleccionar la opción "El contenido ya se ha eliminado de la página" y, a continuación, indicar una o más palabras que se hayan eliminado por completo de la página.

    herramienta de retirada de caché de google

    Ten en cuenta que ninguna de las palabras que introduzcas puede aparecer en la página. Aunque se haya eliminado una palabra de una parte de la página, se denegará tu solicitud si la palabra en cuestión aún aparece en otras secciones. Asegúrate de que seleccionas una palabra (o palabras) que ya no aparezcan en ninguna parte de la página. Si en el ejemplo anterior hubieras eliminado "top secret velocitus incalculii capturing device", tendrías que enviar esas palabras y no algo como "mi proyecto". Sin embargo, si la palabra "top" o "device" sigue estando en cualquier parte de la página, se rechazará la solicitud. Para aumentar las probabilidades de éxito, introduce una única palabra que sepas con seguridad que no va a aparecer en ninguna otra parte de la página.

    Una vez procesada la solicitud y tras comprobar que las palabras introducidas no aparecen en ningún otro apartado de la página, el resultado de búsqueda dejará de mostrar un fragmento y la página almacenada en caché ya no estará disponible. El título y la URL de la página seguirán estando visibles y la entrada aún puede aparecer en resultados de búsqueda relacionados con el contenido eliminado (por ejemplo, búsquedas de velocitus incalculii), aunque estas palabras ya no se muestren en el fragmento. No obstante, tras volver a rastrear y a indexar la página, el nuevo fragmento y la nueva página almacenada en caché se podrán ver en los resultados de búsqueda.

    Ten en cuenta que necesitaremos visualizar la página con el fin de comprobar que se haya(n) eliminado la(s) palabra(s). Si la página ya no existe y el servidor genera un código de resultado HTTP 404 o 410 que nos impide verla, te recomendamos que solicites la retirada de la página completa.

  3. Utiliza la herramienta de retirada de URLs de Herramientas para webmasters de Google para solicitar la retirada de información de una página de tu sitio web Si tienes acceso a ese sitio web y has verificado su propiedad en Herramientas para webmasters de Google, podrás utilizar la herramienta de retirada de URLs (en Configuración del sitio > Acceso de rastreadores) para solicitar que se retiren el fragmento y la página almacenada en caché hasta que se vuelva a rastrear la página. Para usar esta herramienta, solo tienes que introducir la URL exacta de la página (no hace falta especificar las palabras eliminadas). Una vez procesada la solicitud, retiraremos el fragmento y la página almacenada en caché de los resultados de búsqueda. El título y la URL de la página seguirán estando visibles y la página puede seguir apareciendo en los resultados de búsquedas relacionadas con el contenido eliminado. Tras volver a rastrear y a indexar la página, se podrá ver el resultado de búsqueda con un fragmento y una página en caché actualizados (en función del nuevo contenido).

Google no sólo indexa y clasifica los elementos en función del contenido de una página, sino también de otros factores externos, como los enlaces internos a la URL. Así pues, es posible que una URL continúe apareciendo en los resultados de búsqueda relacionados con contenido que ya no se encuentra en la página, incluso después de volver a rastrearla y a indexarla. Aunque la herramienta de retirada de URLs puede retirar el fragmento y la página en caché de un resultado de búsqueda, no cambia ni elimina el título de ese resultado, ni tampoco modifica la URL que se muestra ni evita que la página aparezca al hacer búsquedas relacionadas con contenido antiguo o actual. Si para ti es importante eliminar ese contenido, asegúrate de que la URL cumpla los requisitos necesarios para la retirada total de los resultados de búsqueda.

Eliminación de contenido que no sea HTML

Si el contenido modificado no está en formato (X)HTML (por ejemplo, si se ha modificado una imagen, un archivo Flash o un archivo PDF), no podrás usar la herramienta de retirada de caché. Por lo tanto, si no quieres que el contenido antiguo aparezca en los resultados de búsqueda, la solución más rápida consiste en cambiar la URL del archivo para que la URL antigua genere un código de resultado HTTP 404 y usar la herramienta de retirada de URLs para eliminar la URL antigua. Por el contrario, si decides permitir que Google actualice la información de manera natural, debes saber que las vistas previas de contenido que no sea HTML (como enlaces de Vista rápida y archivos PDF) pueden tardar más en actualizarse tras el proceso de rastreo que las páginas HTML normales.

Prevención proactiva de la aparición de fragmentos o versiones en caché

Como webmaster, tienes la opción de utilizar etiquetas meta para evitar de manera proactiva la aparición de fragmentos o versiones en caché sin usar nuestras herramientas de retirada. A pesar de que no recomendamos que se aplique este procedimiento de manera sistemática (el fragmento puede ayudar a los usuarios a reconocer un resultado de búsqueda relevante con mayor rapidez, y una página almacenada en caché permite visualizar el contenido incluso en el caso de que el servidor no esté disponible de forma inesperada), puedes utilizar la etiqueta meta robots "nosnippet" para evitar que se muestre un fragmento o la etiqueta meta robots "noarchive" para inhabilitar el almacenamiento en caché de una página. Ten en cuenta que, si introduces estos cambios en páginas conocidas que no son nuevas, el robot de Google tendrá que volver a rastrearlas e indexarlas para que el cambio se haga visible en los resultados de búsqueda.

Esperamos que esta entrada del blog sirva para arrojar un poco de luz sobre los procesos de la herramienta de retirada de URLs para páginas actualizadas. En nuestra próxima entrada, hablaremos sobre las distintas maneras de solicitar la retirada de contenido de otros propietarios. ¡No te la pierdas!

Como siempre, no dudes en publicar cualquier comentario o pregunta en nuestro foro de ayuda para webmasters.

Por último, puede que también te interese consultar cómo gestionar qué información está disponible sobre ti online.