Explicamos la eliminación de URLs (parte II): cómo quitar texto sensible de una página

Viernes, 6 de agosto de 2010

El cambio puede ocurrir. A veces, como vimos en nuestra publicación anterior sobre la eliminación de URLs, es posible que bloquees o quites por completo una página de tu sitio. En otras ocasiones, quizás solo cambies partes de una página o quites ciertos fragmentos de texto. Según la frecuencia con la que se rastrea una página, estos cambios pueden demorar un tiempo en reflejarse en los resultados de la búsqueda. En esta entrada de blog, veremos los pasos que puedes seguir si seguimos mostrando contenido antiguo y que quitaste en los resultados de la búsqueda, ya sea como un "fragmento" o en la página almacenada en caché que está vinculada al resultado de la búsqueda. Esto tiene sentido cuando el contenido antiguo contiene información sensible que debe quitarse rápidamente; no es necesario hacerlo cuando solo se actualiza un sitio web normalmente.

A modo de ejemplo, veamos el siguiente resultado de la búsqueda ficticio:

Walter E. Coyote < Título

Director de desarrollo en Acme Corp 1948-2003: Trabajó en el
dispositivo de captura secreto velocitus incalculii que demostró potencial

< Fragmento
www.example.com/acercade/waltercoyote-En caché < URL + vínculo a la página almacenada en caché

Para cambiar el contenido que se muestra en el fragmento (o en la página vinculada en caché), primero deberás cambiar el contenido de la página (publicada) real. A menos que se cambie el contenido visible de forma pública de una página, los procesos automáticos de Google seguirán mostrando partes del contenido original en nuestros resultados de la búsqueda.

Una vez que se modifica el contenido de la página, hay varias opciones disponibles para que esos cambios sean visibles en nuestros resultados de la búsqueda:

  1. Espera a que Googlebot vuelva a rastrear e indexar la página: Es el método natural para actualizar la mayor parte del contenido en Google. A veces, puede tomar bastante tiempo, según la frecuencia con la que Googlebot rastrea la página en cuestión. Una vez que volvamos a rastrear y a indexar la página, por lo general, el contenido anterior no será visible, ya que se reemplazará por el contenido actual. Si Googlebot no puede rastrear la página en cuestión (ya sea mediante un archivo robots.txt o porque no puede acceder correctamente al servidor), no es necesario que hagas nada. Por lo general, no es posible acelerar el rastreo ni la indexación, ya que estos procesos están completamente automatizados y dependen de muchos factores externos.

  2. Usa la herramienta de eliminación de URLs públicas de Google para solicitar la eliminación de contenido que se haya quitado de la página web de otra persona. Con esta herramienta, es necesario ingresar la URL exacta de la página que se modificó, seleccionar la opción que indica que "Se quitó contenido de la página" y, luego, especificar una o más palabras que se hayan borrado por completo de esa página.

    herramienta de eliminación de caché de Google

    Ten en cuenta que ninguna de las palabras que ingreses puede aparecer en la página; incluso si una palabra se quitó de una parte de la página, tu solicitud se rechazará si esta aún aparece en otra parte. Asegúrate de elegir una o varias palabras que ya no aparezcan en ninguna parte de la página. Si en el ejemplo anterior quitaste "top secret velocitus incalculii capturing device", debes enviar esas palabras, y no algo como "mi proyecto". Sin embargo, si todavía se encuentran las palabras "top" o "device" en cualquier parte de la página, se rechazará la solicitud. Para maximizar las posibilidades de que todo salga bien, suele ser más fácil ingresar una palabra a fin de asegurarse de que ya no aparece en ninguna parte de la página.

    Una vez que se procese tu solicitud y se detecte que las palabras que enviaste ya no aparecen en la página, el resultado de la búsqueda ya no mostrará un fragmento ni estará disponible la página almacenada en caché. El título y la URL de la página seguirán siendo visibles, y es posible que la entrada siga apareciendo en los resultados de la búsqueda para las búsquedas relacionadas con el contenido que se quitó (como las búsquedas para velocitus incalculii), incluso si esas palabras ya no aparecen en el fragmento. Sin embargo, una vez que la página se volvió a rastrear e indexar, el fragmento nuevo y la página almacenada en caché pueden verse en nuestros resultados de la búsqueda.

    Ten en cuenta que tendremos que verificar la eliminación de las palabras al ver la página. Si la página ya no existe y el servidor muestra un código de resultado HTTP 404 o 410 correcto, no podemos ver la página. Es posible que te convenga solicitar la eliminación de la página.

  3. Usa la herramienta de eliminación de URL de Herramientas para webmasters de Google a fin de solicitar que se quite información de una página de tu sitio web. Si tienes acceso al sitio web en cuestión y verificaste su propiedad en las Herramientas para webmasters de Google, puedes usar la herramienta de eliminación de URL allí (en Configuración del sitio > Acceso del rastreador) para solicitar que se quiten el fragmento y la página almacenada en caché hasta que se la vuelva a rastrear. Para usar esta herramienta, solo debes enviar la URL exacta de la página (no es necesario que especifiques las palabras quitadas). Una vez que se procese tu solicitud, quitaremos el fragmento y la página almacenada en caché de los resultados de la búsqueda. El título y la URL de la página seguirán siendo visibles, y es posible que esta también siga clasificando en los resultados de la búsqueda para las búsquedas relacionadas con el contenido que se quitó. Una vez que la página se haya vuelto a rastrear e indexar, se podrá ver el resultado de la búsqueda con un fragmento actualizado y una página almacenada en caché (según el contenido nuevo).

Google indexa y clasifica los elementos no solo según el contenido de una página, sino también en función de otros factores externos, como los vínculos entrantes a la URL. Debido a esto, es posible que una URL siga apareciendo en los resultados de la búsqueda de contenido que ya no existe en la página, incluso después de que esta se haya vuelto a rastrear e indexar. Si bien la herramienta de eliminación de URL puede quitar el fragmento y la página almacenada en caché de un resultado de la búsqueda, no cambiará ni quitará el título del resultado ni la URL que se muestra, ni impedirá que se muestre la página para búsquedas basadas en contenido actual o anterior. Si esto es importante para ti, debes asegurarte de que la URL cumpla con los requisitos para una eliminación completa de nuestros resultados de la búsqueda.

Cómo quitar contenido que no es de HTML

Si el contenido que se modificó no está en (X)HTML (por ejemplo, si se modificó una imagen, un archivo Flash o un archivo PDF), no podrás usar la herramienta de eliminación de caché. Por lo tanto, si es importante que el contenido anterior ya no esté visible en los resultados de la búsqueda, la solución más rápida sería cambiar la URL del archivo para que la anterior muestre un código de resultado HTTP 404 y usar la herramienta de eliminación de URL para quitar la URL anterior. De lo contrario, si decides permitir que Google actualice tu información de forma natural, ten en cuenta que las vistas previas de contenido que no sea de HTML (como los vínculos de Vista rápida de archivos PDF) tomarán más tiempo que las páginas HTML normales en actualizarse después de volver a rastrearse.

Cómo impedir de forma proactiva la aparición de fragmentos o versiones almacenadas en caché

Como webmaster, tienes la opción de usar etiquetas meta de robots para evitar la aparición de fragmentos o versiones en caché sin usar nuestras herramientas de eliminación. Aunque no lo recomendamos como enfoque predeterminado (el fragmento puede ayudar a los usuarios a reconocer un resultado de la búsqueda relevante más rápido, mientras que una página almacenada en caché les brinda la posibilidad de ver tu contenido incluso si, por un evento inesperado, tu servidor no está disponible), puedes usar la etiqueta robots "nosnippet" meta para impedir que se muestre un fragmento o la etiqueta "noarchive" robots meta para inhabilitar el almacenamiento en caché de una página. Ten en cuenta que, si se modifica esta opción en las páginas existentes y conocidas, Googlebot deberá volver a rastrearlas e indexarlas para que se pueda el cambio ver en los resultados de la búsqueda.

Esperamos que esta entrada de blog ayude a aclarar algunos de los procesos detrás de la herramienta de eliminación de URL en el caso de páginas actualizadas. En nuestra próxima entrada de blog, analizaremos algunas formas de solicitar la eliminación de contenido que no te pertenece. No te la pierdas.

Como siempre, recibiremos con gusto tus comentarios y preguntas en nuestro Foro de ayuda para webmasters.

Por último, es posible que también te interese leer cómo administrar la información disponible en Internet sobre ti.