Especificaciones de la etiqueta Robots meta
, data-nosnippet
y X-Robots-Tag
En este documento se detalla cómo se pueden usar las configuraciones a nivel de página y de texto para ajustar la forma en la que Google presenta el contenido en los resultados de la búsqueda. Puedes especificar la configuración a nivel de página con una etiqueta meta
en las páginas HTML o en un encabezado HTTP. Además, puedes especificar la configuración a nivel de texto con el atributo data-nosnippet
en los elementos HTML dentro de una página.
Ten en cuenta que esta configuración solo se puede leer y seguir si los rastreadores tienen permiso para acceder a las páginas que la incluyen.
La regla <meta name="robots" content="noindex">
se aplica a los rastreadores de motores de búsqueda. Para bloquear rastreadores que no son de búsqueda, como AdsBot-Google
, es posible que debas agregar reglas orientadas al rastreador específico (por ejemplo, <meta name="AdsBot-Google" content="noindex">
).
Cómo usar la etiqueta robots meta
La etiqueta robots meta
permite usar un enfoque detallado y específico de la página para controlar la forma en la que se debe indexar una página HTML en particular y cómo se debe mostrar a los usuarios en los resultados de la Búsqueda de Google. Coloca la etiqueta robots meta
en la sección <head>
de una página, como se muestra a continuación:
<!DOCTYPE html> <html><head> <meta name="robots" content="noindex"> (…) </head> <body>(…)</body> </html>
En este ejemplo, la etiqueta robots meta
indica a los motores de búsqueda que no muestren la página en los resultados de la búsqueda. El valor del atributo name
(robots
) especifica que se aplica la regla a todos los rastreadores. Los atributos name
y content
no distinguen mayúsculas de minúsculas. Para enfocarte en un rastreador específico, reemplaza el valor robots
del atributo name
por el token de usuario-agente del rastreador en cuestión. Google admite dos tokens de usuario-agente en la etiqueta robots meta
. Otros valores, como los siguientes, se ignoran:
googlebot
: Para todos los resultados de textogooglebot-news
: Para resultados de noticias
Por ejemplo, para indicarle a Google que no muestre un resumen específicamente en los resultados de la búsqueda, puedes especificar googlebot
como el nombre de la etiqueta meta
:
<meta name="googlebot" content="nosnippet">
Para mostrar un resumen completo en los resultados de la búsqueda web de Google, pero no en Google Noticias, especifica googlebot-news
como el nombre de la etiqueta meta
:
<meta name="googlebot-news" content="nosnippet">
Para especificar varios rastreadores de forma individual, usa varias etiquetas robots meta
:
<meta name="googlebot" content="notranslate"> <meta name="googlebot-news" content="nosnippet">
Para bloquear la indexación de recursos que no son HTML, como archivos PDF, de video o de imagen, usa el encabezado de respuesta X-Robots-Tag
en su lugar.
Cómo usar el encabezado HTTP X-Robots-Tag
Se puede usar X-Robots-Tag
como elemento del encabezado de la respuesta HTTP para una URL determinada. Las reglas que se puedan usar en una etiqueta robots meta
también se pueden especificar como X-Robots-Tag
. A continuación, se incluye un ejemplo de una respuesta HTTP con X-Robots-Tag
que indica a los rastreadores que no indexen una página:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
Se pueden combinar varios encabezados X-Robots-Tag
dentro de la respuesta HTTP o puedes especificar una lista de reglas separadas por comas. A continuación se muestra un ejemplo de encabezado en una respuesta HTTP que tiene un elemento noimageindex
X-Robots-Tag
combinado con una X-Robots-Tag
unavailable_after
.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noimageindex X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)
De manera opcional, X-Robots-Tag
puede especificar un usuario-agente antes de las reglas. Por ejemplo, se puede usar el siguiente grupo de encabezados HTTP X-Robots-Tag
para permitir que se muestre de forma condicional una página en los resultados de la búsqueda de diferentes motores de búsqueda:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Las reglas que se especifican sin un usuario-agente son válidas para todos los rastreadores. El encabezado HTTP, el nombre del usuario-agente y los valores especificados no distinguen mayúsculas de minúsculas.
Reglas de indexación y publicación válidas
Las siguientes reglas, que también están disponibles en formato apto para la lectura automática, se pueden usar para controlar la indexación y la publicación de un resumen con la etiqueta robots meta
y X-Robots-Tag
. Cada valor representa una regla específica. Se pueden combinar varias reglas en una lista separada por comas o en etiquetas meta
independientes. Estas reglas no distinguen entre mayúsculas y minúsculas.
Reglas | |
---|---|
|
No hay restricciones de indexación ni de publicación. Esta regla es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita. |
|
No se mostrará esta página, este contenido multimedia o este recurso en los resultados de la búsqueda. Si no especificas esta regla, es posible que se indexe la página o el recurso, y que aparezca en los resultados de la búsqueda. Para quitar información de Google, sigue nuestra guía paso a paso. |
|
No sigue los vínculos de esta página. Si no especificas esta regla, Google podrá usar los vínculos de la página para descubrirlas. Más información sobre nofollow .
|
|
Equivale a noindex, nofollow .
|
|
No muestra un fragmento de texto ni una vista previa de video en los resultados de la búsqueda de esta página. Una miniatura de imagen estática aún puede ser visible (si está disponible), cuando proporciona una mejor experiencia del usuario. Esto se aplica a todas los tipos de resultados de la búsqueda (en la Búsqueda web de Google, Google Imágenes, Descubre y resúmenes creados con IA) y también evitará que el contenido se use como entrada directa para los resúmenes creados con IA. Si no especificas esta regla, Google podrá generar un fragmento de texto y una vista previa de video con la información que encuentre en la página.
Para excluir ciertas secciones del contenido en los fragmentos de los resultados de la Búsqueda,
usa el atributo HTML |
|
Google puede indexar el contenido de una página si está incorporada en otra a través de
|
|
Usa un máximo de [número] caracteres para el fragmento de texto del resultado de la búsqueda (ten en cuenta que una URL puede aparecer como varios resultados de la búsqueda en una página de resultados de búsqueda). Esto no afecta las vistas previas de imágenes ni videos, Esto se aplica a todos los tipos de resultados de la búsqueda (como la Búsqueda web de Google, Google Imágenes, Descubre, Asistente y resúmenes creados con IA), y también limitará la cantidad de contenido que se puede usar como entrada directa para los resúmenes creados con IA. Sin embargo, este límite no se aplica si un publicador otorgó permiso por separado para que se use el contenido. Por ejemplo, si el publicador proporciona contenido en forma de datos estructurados in-page o tiene un contrato de licencia con Google, este parámetro de configuración no interfiere con los usos permitidos más específicos. Si no se especifica un [número] analizable, se ignora esa regla. Si no especificas esta regla, Google elegirá la longitud del fragmento. Valores especiales:
Ejemplos: Para impedir que un fragmento aparezca en los resultados de la búsqueda, incluye lo siguiente: <meta name="robots" content="max-snippet:0"> Para permitir que se muestren hasta 20 caracteres en el fragmento, incluye lo siguiente: <meta name="robots" content="max-snippet:20"> Para especificar que no haya un límite de caracteres en el fragmento, incluye lo siguiente: <meta name="robots" content="max-snippet:-1"> |
|
Establece el tamaño máximo de una vista previa de imagen para esta página en los resultados de la búsqueda.
Si no especificas la regla Valores aceptados de [parámetro de configuración]:
Esto se aplica a todos los tipos de resultados de la búsqueda (como en la Búsqueda web de Google, Google Imágenes, Descubre y Asistente). Sin embargo, este límite no se aplica si un publicador otorgó permiso por separado para que se use el contenido. Por ejemplo, si el publicador proporciona contenido en forma de datos estructurados in-page (como versiones canónicas y AMP de un artículo) o tiene un contrato de licencia con Google, este parámetro de configuración no interferirá con los usos permitidos más específicos.
Si no quieres que Google utilice imágenes en miniatura más grandes cuando sus páginas de AMP y la versión canónica de un artículo se muestran en la Búsqueda o Descubre, especifica un valor Ejemplo: <meta name="robots" content="max-image-preview:standard"> |
|
Usa fragmentos de video de un máximo de [número] segundos para los videos de esta página en los resultados de la búsqueda.
Si no especificas la regla Valores especiales:
Se aplica a todos los tipos de resultados de la búsqueda (en la Búsqueda web de Google, Google Imágenes, Google Videos, Descubre y Asistente). Si no se especifica un [número] analizable, se ignora esa regla. Ejemplo: <meta name="robots" content="max-video-preview:-1"> |
|
No se ofrecerá una versión traducida de esta página en los resultados de la búsqueda. Si no especificas esta regla, Google podría proporcionar una traducción del vínculo de título y del fragmento de un resultado de la búsqueda en el caso de resultados que no estén en el idioma de la búsqueda. Si el usuario hace clic en el vínculo de título traducido, todas las interacciones adicionales con la página se realizarán a través de Google Traductor, que traducirá automáticamente los vínculos que el usuario siga. |
|
No se indexan las imágenes de esta página. Si no especificas este valor, es posible que las imágenes de la página se indexen y aparezcan en los resultados de la búsqueda. |
|
No se mostrará esta página en los resultados de la búsqueda después de la fecha y hora indicadas. Ambos datos deben especificarse en un formato que se haya adoptado ampliamente, incluidos, entre otros, los formatos RFC 822, RFC 850 y ISO 8601. Si no se especifica una hora o fecha válida, se ignora la regla. De forma predeterminada, el contenido no tiene fecha de vencimiento. Si no especificas esta regla, es posible que esta página aparezca en los resultados de la búsqueda de forma indefinida. Googlebot disminuirá la frecuencia de rastreo de la URL considerablemente una vez que se especifique la fecha y hora. Ejemplo: <meta name="robots" content="unavailable_after: 2020-09-21"> |
Referencia de las reglas históricas y otras que no se usan
La Búsqueda de Google no usa las siguientes reglas y las ignora. Incluimos estas reglas aquí porque las personas suelen preguntarnos sobre ellas o las usamos en el pasado.
Lista de reglas históricas y otras que no se usan | |
---|---|
|
La Búsqueda de Google ya no usa la regla noarchive para controlar si se muestra un vínculo en caché en los resultados de la búsqueda, ya que la función de vínculo en caché ya no existe.
|
|
La Búsqueda de Google no usa la regla nocache .
|
|
La Búsqueda de Google ya no usa la regla |
Cómo administrar reglas de indexación y publicación combinadas
Puedes crear una instrucción con varias reglas que combine reglas de la etiqueta robots meta
con comas o varias etiquetas meta
. A continuación, se muestra un ejemplo de una etiqueta robots meta
que indica a los rastreadores web que no indexen la página ni rastreen ninguno de los vínculos que contiene:
Lista separada por comas
<meta name="robots" content="noindex, nofollow">
Múltiples etiquetas meta
<meta name="robots" content="noindex"> <meta name="robots" content="nofollow">
En el ejemplo siguiente, se limita el resumen de texto a 20 caracteres y se permite la vista previa grande de una imagen:
<meta name="robots" content="max-snippet:20, max-image-preview:large">
Cuando se especifiquen varios rastreadores y diferentes reglas, el motor de búsqueda usará la suma de las reglas negativas. Por ejemplo:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
Durante el rastreo, Googlebot interpretará una página que contenga estas etiquetas meta
como si tuviera una regla noindex, nofollow
.
Cómo usar el atributo HTML data-nosnippet
Puedes designar partes textuales de una página HTML para que no se usen como fragmento. Esto se puede hacer a nivel de los elementos HTML con el atributo HTML data-nosnippet
en los elementos span
, div
y section
. El elemento data-nosnippet
se considera un atributo booleano.
Como con todos los atributos booleanos, se ignora cualquier valor especificado. Para garantizar que los rastreadores puedan leer la sección HTML, el código HTML que contenga debe ser válido y todas las etiquetas apropiadas deben estar cerradas correctamente.
Ejemplos:
<p>This text can be shown in a snippet <span data-nosnippet>and this part would not be shown</span>.</p> <div data-nosnippet>not in snippet</div> <div data-nosnippet="true">also not in snippet</div> <div data-nosnippet="false">also not in snippet</div> <!-- all values are ignored --> <div data-nosnippet>some text</html> <!-- unclosed "div" will include all content afterwards --> <mytag data-nosnippet>some text</mytag> <!-- NOT VALID: not a span, div, or section --> <p>This text can be shown in a snippet.</p> <div data-nosnippet> <p>However, this is not in snippet.</p> <ul> <li>Stuff not in snippet</li> <li>More stuff not in snippet</li> </ul> </div>
En general, aunque Google procesa páginas para indexarlas, no se garantiza el procesamiento.
Debido a esto, la extracción de data-nosnippet
puede ocurrir tanto antes como después del procesamiento. Para evitar un procesamiento dudoso, no agregues ni quites el atributo data-nosnippet
de los nodos existentes con JavaScript.
Cuando agregues elementos DOM por medio de JavaScript, incluye el atributo data-nosnippet
según sea necesario en el momento en que agregues por primera vez el elemento al DOM de la página. Si se usan elementos personalizados, únelos o procésalos con elementos div
, span
o section
si tienes que usar data-nosnippet
.
Cómo usar datos estructurados
Las etiquetas Robots meta
rigen la cantidad de contenido que Google extrae automáticamente de las páginas web para mostrarlas como resultados de la búsqueda. Sin embargo, muchos publicadores también usan los datos estructurados de schema.org para que haya información específica disponible en la presentación de la búsqueda. Las limitaciones de etiquetas Robots meta
no afectan el uso de esos datos estructurados, con la excepción de los valores article.description
y description
para datos estructurados especificados en otros trabajos creativos. Para especificar la longitud máxima de una vista previa según estos valores de description
, usa la regla max-snippet
. Por ejemplo, los datos estructurados de recipe
en una página se pueden incluir en el carrusel de recetas, incluso si la vista previa del texto estuviera limitada. Puedes limitar la longitud de una vista previa de texto con max-snippet
, pero esa etiqueta robots meta
no se aplica cuando se proporciona la información con datos estructurados para resultados enriquecidos.
Si quieres administrar el uso de datos estructurados en tus páginas web, modifica los tipos y valores de datos estructurados, y agrega o quita información para proporcionar solo los datos que deseas que estén disponibles. También ten en cuenta que se pueden seguir usando los datos estructurados para los resultados de la búsqueda cuando se declaran en un elemento data-nosnippet
.
Implementación práctica de X-Robots-Tag
Puedes agregar X-Robots-Tag
a las respuestas HTTP de un sitio en los archivos de configuración del software del servidor web en tu sitio. Por ejemplo, en los servidores web basados en Apache, puedes usar archivos .htaccess y httpd.conf. La ventaja de usar un elemento X-Robots-Tag
con las respuestas HTTP es que puedes especificar reglas de rastreo que se aplican globalmente en un sitio. La posibilidad de usar expresiones regulares ofrece un gran nivel de flexibilidad.
Por ejemplo, para agregar una X-Robots-Tag
de noindex, nofollow
a la respuesta HTTP para todos los archivos .PDF
de un sitio completo, agrega el siguiente resumen al archivo raíz .htaccess
del sitio o httpd.conf
, en Apache, o el archivo .conf
del sitio, en NGINX.
Apache
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }
Puedes usar X-Robots-Tag
para los archivos que no estén en formato HTML, como los de imagen, en los que no es posible usar etiquetas robots meta
de HTML. A continuación, se muestra un ejemplo de cómo agregar una regla noindex
X-Robots-Tag
a archivos de imagen (.png
, .jpeg
, .jpg
, .gif
) en todo un sitio:
Apache
<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
NGINX
location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }
También puedes configurar los encabezados X-Robots-Tag
para los archivos estáticos individuales:
Apache
# the htaccess file must be placed in the directory of the matched file. <Files "unicorn.pdf"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }
Cómo combinar reglas de robots.txt con reglas de indexación y publicación
Las etiquetas robots meta
y los encabezados HTTP X-Robots-Tag
se descubren cuando se rastrea una URL. Si no está permitido rastrear una página a través del archivo robots.txt, no se encontrará ninguna instrucción sobre reglas de indexación o publicación y, en consecuencia, se ignorará la página. Si se deben seguir reglas de indexación o publicación, no se puede impedir el rastreo de las URLs que contengan esas reglas.