Especificaciones de la etiqueta meta
Robots, y los elementos data-nosnippet
y X-Robots-Tag
En este documento se explica cómo cambiar la forma en que Google muestra tu contenido en los resultados de búsqueda mediante ajustes a nivel de página y de texto. Los ajustes a nivel de página se pueden configurar incluyendo una etiqueta meta
en páginas HTML o en encabezados HTTP. En cambio, los ajustes a nivel de texto deben especificarse añadiendo el atributo data-nosnippet
a elementos HTML de las páginas.
Recuerda que los rastreadores solo pueden ver y respetar estos ajustes si tienen acceso a las páginas en cuestión.
La regla <meta name="robots" content="noindex">
se aplica a los rastreadores de buscadores. Para bloquear rastreadores que no pertenezcan a buscadores, como AdsBot-Google
, debes añadir reglas dirigidas específicamente al rastreador que quieras bloquear; por ejemplo, <meta name="AdsBot-Google" content="noindex">
.
Usar la etiqueta meta
robots
La etiqueta meta
robots permite utilizar un enfoque granular y a nivel de página para controlar cómo se deben indexar y servir a los usuarios páginas concretas en los resultados de la Búsqueda de Google. Incluye la etiqueta meta
robots en la sección <head>
de una página determinada. Por ejemplo:
<!DOCTYPE html> <html><head> <meta name="robots" content="noindex"> (…) </head> <body>(…)</body> </html>
En este ejemplo, la etiqueta meta
robots indica a los buscadores que no muestren esa página en los resultados de búsqueda. Como el atributo name
tiene el valor robots
, la regla se aplica a todos los rastreadores. En los atributos name
y content
se distingue entre mayúsculas y minúsculas. Para que afecte solo a un rastreador concreto, sustituye el valor robots
del atributo name
por el token de user-agent del rastreador en cuestión. Google admite dos tokens de user-agent en la etiqueta meta
robots; otros valores se ignoran:
googlebot
: para todos los resultados de texto.googlebot-news
: para resultados de noticias.
Por ejemplo, para indicar a Google que no muestre ningún fragmento en los resultados de búsqueda, puedes especificar googlebot
como nombre de la etiqueta meta
:
<meta name="googlebot" content="nosnippet">
Para mostrar un fragmento completo en los resultados de búsqueda web de Google, pero no en Google News, especifica googlebot-news
como nombre de la etiqueta meta
:
<meta name="googlebot-news" content="nosnippet">
Para especificar varios rastreadores de forma individual, puedes utilizar varias etiquetas meta
robots:
<meta name="googlebot" content="notranslate"> <meta name="googlebot-news" content="nosnippet">
Si quieres bloquear la indexación de recursos que no sean HTML (como archivos PDF, de vídeo o de imagen), usa el encabezado de respuesta X-Robots-Tag
.
Usar la cabecera HTTP X-Robots-Tag
X-Robots-Tag
se puede utilizar como un elemento de la respuesta de encabezado HTTP de una URL determinada. Cualquier regla que se pueda usar en una etiqueta meta
robots también se puede especificar como X-Robots-Tag
. A continuación, se muestra un ejemplo de una respuesta HTTP con un encabezado X-Robots-Tag
que indica a los rastreadores que no indexen una página:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
Es posible combinar varias cabeceras X-Robots-Tag
en la respuesta HTTP o especificar una lista de reglas separadas por comas. A continuación, se muestra un ejemplo de una respuesta de cabecera HTTP que incluye una cabecera X-Robots-Tag
noimageindex
y una cabecera X-Robots-Tag
unavailable_after
.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noimageindex X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)
En el encabezado X-Robots-Tag
, se puede especificar de forma opcional un user-agent antes de las reglas. Por ejemplo, con el siguiente conjunto de encabezados HTTP X-Robots-Tag
, se puede permitir que se muestre una página en los resultados de búsqueda de diferentes buscadores de forma condicional:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Las reglas sin user-agent son válidas para todos los rastreadores. El encabezado HTTP, el nombre de user-agent y los valores especificados no distinguen entre mayúsculas y minúsculas.
Reglas de indexación y publicación válidas
Las siguientes reglas, que también están disponibles en formato electrónico, se pueden utilizar para controlar la indexación y el servicio de un fragmento con la etiqueta meta
robots y X-Robots-Tag
. Cada valor representa una regla. Se pueden combinar varias reglas en una lista separada por comas o en etiquetas meta
independientes. En estas reglas no se distingue entre mayúsculas y minúsculas.
Reglas | |
---|---|
|
No hay restricciones de indexación ni de publicación. Esta regla es el valor predeterminado y no tiene ningún efecto si se utiliza de forma explícita. |
|
No se muestra la página, el contenido multimedia o el recurso en los resultados de búsqueda. Si no incluyes esta regla, puede que la página, el contenido multimedia o el recurso se indexe y aparezca en los resultados de búsqueda. Para quitar información de Google, sigue nuestra guía detallada. |
|
No se siguen los enlaces de esta página. Si no incluyes esta regla, Google puede seguir los enlaces que hay en la página para descubrir las páginas enlazadas. Más información sobre nofollow
|
|
Es equivalente a noindex, nofollow .
|
|
No se muestra ningún cuadro de búsqueda de enlaces de sitios en los resultados de búsqueda de esta página. Si no incluyes esta regla, Google puede generar un cuadro de búsqueda específico de tu sitio en los resultados de búsqueda, junto con otros enlaces directos que lleven a tu sitio. |
|
No se muestra ningún fragmento ni la vista previa de ningún vídeo en los resultados de búsqueda de esta página. Es posible que se siga mostrando una miniatura de imagen estática si hay una disponible en el caso de que mejore la experiencia de usuario. Se aplica a todo tipo de resultados de búsqueda (en la Búsqueda web de Google, Google Imágenes, Discover y resúmenes de IA) y también evitará que el contenido se use como entrada directa en los resúmenes creados con IA. Si no incluyes esta regla, Google puede generar fragmentos de texto y vistas previas de vídeos a partir de la información que haya en la página.
Si no quieres que determinadas secciones de tu contenido aparezcan en los fragmentos de los resultados de búsqueda, utiliza el atributo HTML |
|
Google puede indexar el contenido de una página si está insertada en otra página mediante
|
|
Se usan un máximo de [número] caracteres como fragmento de texto para este resultado de búsqueda. Recuerda que una URL puede aparecer como varios resultados de búsqueda en una página de resultados de búsqueda. No afecta a las vistas previas de imágenes o vídeos. Esto se aplica a todas las formas de resultados de búsqueda (como la Búsqueda web de Google, Google Imágenes, Discover, el Asistente o los resúmenes de IA) y también limitará cuánto contenido se puede utilizar como entrada directa en los resúmenes de IA. Sin embargo, si un editor ha dado permiso por separado para usar su contenido, este límite no se tendrá en cuenta. Por ejemplo, si el editor proporciona contenido en forma de datos estructurados en la página o tiene un contrato de licencia con Google, lo definido en este ajuste no interrumpe los usos permitidos más específicos. Esta regla se ignora si no se especifica ningún elemento [número] que se pueda analizar. Si no incluyes esta regla, Google elegirá la longitud del fragmento que considere oportuna. Valores especiales:
Ejemplos: Para que no aparezca ningún fragmento en los resultados de búsqueda, incluye esta etiqueta: <meta name="robots" content="max-snippet:0"> Para permitir que el fragmento de una página pueda tener hasta 20 caracteres, utiliza esta etiqueta: <meta name="robots" content="max-snippet:20"> Para indicar que se pueden usar tantos caracteres como hagan falta en el fragmento de una página, añade esta etiqueta: <meta name="robots" content="max-snippet:-1"> |
|
Se fija el tamaño máximo de la vista previa de las imágenes de esta página cuando aparecen en los resultados de búsqueda.
Si no incluyes la regla Valores [ajuste] aceptados:
Se aplica a todo tipo de resultados de búsqueda (como la Búsqueda web de Google, Google Imágenes, Discover o el Asistente). Sin embargo, no se aplica en los casos en los que un editor haya dado un permiso por separado para utilizar el contenido. Por ejemplo, si un editor proporciona contenido en forma de datos estructurados en una página (como versiones AMP y canónica de un artículo) o tiene un contrato de licencia con Google, este ajuste no interrumpirá los usos permitidos más específicos.
Si no quieres que Google muestre imágenes en miniatura de mayor tamaño cuando sus páginas AMP y la versión canónica de un artículo aparezcan en la Búsqueda o en Discover, da un valor Ejemplo: <meta name="robots" content="max-image-preview:standard"> |
|
Utiliza fragmentos de vídeo de [número] segundos como máximo al incluir vídeos de esta página en los resultados de búsqueda.
Si no incluyes la regla Valores especiales:
Se aplica a todo tipo de resultados de búsqueda (en la Búsqueda web de Google, Google Imágenes, Google Vídeos, Discover o el Asistente). Esta regla se ignora si no se especifica ningún elemento [número] que se pueda analizar. Ejemplo: <meta name="robots" content="max-video-preview:-1"> |
|
No se ofrece la traducción de esta página en los resultados de búsqueda. Si no incluyes esta regla, Google puede proporcionar una traducción del enlace de título y del fragmento de un resultado de búsqueda que no esté en el mismo idioma que la consulta de búsqueda. Si el usuario hace clic en el enlace de título traducido, todas las interacciones posteriores con la página se hacen a través del Traductor de Google, que traduce automáticamente los enlaces que se van siguiendo. |
|
No se indexan las imágenes de esta página. Si no incluyes este valor, las imágenes de la página pueden indexarse y aparecer en los resultados de búsqueda. |
|
No se muestra esta página en los resultados de búsqueda después de la fecha y hora especificadas. La fecha y la hora deben especificarse en formatos ampliamente aceptados, como RFC 822, RFC 850 o ISO 8601. Esta regla se ignora si no se especifica ningún valor de fecha y hora válido. De forma predeterminada, el contenido no tiene fecha de vencimiento. Si no incluyes esta regla, esta página puede mostrarse en los resultados de búsqueda de forma indefinida. El robot de Google reducirá considerablemente la frecuencia con la que rastrea la URL después de la fecha y la hora indicadas. Ejemplo: <meta name="robots" content="unavailable_after: 2020-09-21"> |
Referencia de las reglas antiguas y otras que no se usan
La Búsqueda de Google no utiliza las siguientes reglas y las ignora. Las incluimos aquí porque los usuarios nos han preguntado por ellas o las hemos usado en el pasado.
Lista de reglas antiguas y otras reglas no utilizadas | |
---|---|
|
La Búsqueda de Google ya no usa la regla noarchive para controlar si se muestra un enlace en caché en los resultados de búsqueda, ya que la función de enlace en caché ha dejado de estar disponible.
|
|
La Búsqueda de Google no utiliza la regla nocache .
|
Usar conjuntamente reglas de indexación y publicación
Puedes crear una instrucción con varias reglas que combine reglas de etiquetas meta
robots con comas o usando varias etiquetas meta
. A continuación, se muestra un ejemplo de una etiqueta meta
robots que indica a los rastreadores web que no indexen la página y que no rastreen ninguno de los enlaces que contiene:
Lista separada por comas
<meta name="robots" content="noindex, nofollow">
Varias etiquetas meta
<meta name="robots" content="noindex"> <meta name="robots" content="nofollow">
A continuación, se muestra un ejemplo que incluye un fragmento de texto con límite de 20 caracteres y que permite previsualizar una imagen de gran tamaño:
<meta name="robots" content="max-snippet:20, max-image-preview:large">
Cuando se especifiquen varios rastreadores y reglas, el buscador concatenará las reglas negativas. Por ejemplo:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
La página que contiene estas etiquetas meta
se interpretará como si tuviera una regla noindex, nofollow
cuando el robot de Google la rastree.
Utilizar el atributo HTML de data-nosnippet
Puedes marcar partes del texto de una página HTML para que no se incluyan en fragmentos. Se puede hacer a nivel de elemento HTML con el atributo HTML data-nosnippet
en los elementos span
, div
y section
. data-nosnippet
se considera un atributo booleano.
Como ocurre con todos los atributos booleanos, se ignora cualquier valor especificado. Para que los sistemas automatizados puedan interpretar correctamente las directivas, el código HTML de la sección debe ser válido y todas las etiquetas deben estar cerradas según corresponda.
Ejemplos:
<p>This text can be shown in a snippet <span data-nosnippet>and this part would not be shown</span>.</p> <div data-nosnippet>not in snippet</div> <div data-nosnippet="true">also not in snippet</div> <div data-nosnippet="false">also not in snippet</div> <!-- all values are ignored --> <div data-nosnippet>some text</html> <!-- unclosed "div" will include all content afterwards --> <mytag data-nosnippet>some text</mytag> <!-- NOT VALID: not a span, div, or section --> <p>This text can be shown in a snippet.</p> <div data-nosnippet> <p>However, this is not in snippet.</p> <ul> <li>Stuff not in snippet</li> <li>More stuff not in snippet</li> </ul> </div>
Normalmente, Google procesa las páginas para indexarlas, pero no se garantiza el renderizado.
Por este motivo, la extracción de data-nosnippet
puede producirse tanto antes como después del renderizado. Para evitar el renderizado ambiguo, no añadas ni elimines el atributo data-nosnippet
de los nodos existentes a través de JavaScript.
Al añadir elementos DOM a través de JavaScript, incluye el atributo data-nosnippet
según sea necesario cuando añadas inicialmente el elemento al DOM de la página. Si vas a utilizar elementos personalizados, encapsúlalos o renderízalos con elementos div
, span
o section
si tienes que usar data-nosnippet
.
Usar datos estructurados
Las etiquetas meta
Robots controlan la cantidad de contenido que Google extrae automáticamente de las páginas web para mostrarlo como resultados de búsqueda. No obstante, muchos editores también utilizan los datos estructurados de schema.org para que determinada información aparezca en las búsquedas. Las limitaciones de las etiquetas meta
Robots no afectan al uso de esos datos estructurados, a excepción de los valores article.description
y description
que se especifican en otras obras creativas. Con la regla max-snippet
, puedes especificar la longitud máxima de una vista previa basada en los valores description
. Por ejemplo, los datos estructurados recipe
de una página se pueden incluir en el carrusel de recetas, aunque la vista previa de texto esté limitada. Con el valor max-snippet
, puedes limitar la longitud de una vista previa de texto, pero la etiqueta meta
robots no se aplica cuando la información se proporciona mediante datos estructurados para resultados enriquecidos.
Para gestionar el uso de datos estructurados en tus páginas web, puedes modificar los tipos y valores de estos datos. Para hacerlo, añade o quita información para proporcionar solo los datos que quieres que estén disponibles. Ten en cuenta también que los resultados de búsqueda seguirán pudiendo aprovechar los datos estructurados si se declaran dentro de un elemento data-nosnippet
.
Implementación práctica de X-Robots-Tag
Puedes añadir X-Robots-Tag
a las respuestas HTTP de un sitio a través de los archivos de configuración del software de servidor web de tu sitio. Por ejemplo, en los servidores web Apache puedes utilizar archivos .htaccess y httpd.conf. La ventaja que ofrece el uso de una cabecera X-Robots-Tag
con respuestas HTTP es que permite especificar las reglas de rastreo que se deben aplicar globalmente en un sitio. La posibilidad de utilizar expresiones regulares ofrece un gran nivel de flexibilidad.
Por ejemplo, para añadir una directiva X-Robots-Tag
noindex, nofollow
a la respuesta HTTP de todos los archivos .PDF
de un sitio, añade el siguiente fragmento al archivo raíz .htaccess
o al archivo httpd.conf
del sitio en Apache, o al archivo .conf
en NGINX.
Apache
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }
Puedes utilizar X-Robots-Tag
para archivos que no sean HTML, como archivos de imagen en los que no se puedan utilizar etiquetas meta
robots en HTML. A continuación, se muestra un ejemplo de cómo añadir una regla X-Robots-Tag
noindex
para archivos de imagen (.png
,.jpeg
,.jpg
,.gif
) en todo un sitio:
Apache
<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
NGINX
location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }
También puedes configurar los encabezados X-Robots-Tag
de archivos estáticos concretos:
Apache
# the htaccess file must be placed in the directory of the matched file. <Files "unicorn.pdf"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }
Combinar reglas de robots.txt con reglas de indexación y publicación
Las etiquetas meta
robots y los encabezados HTTP X-Robots-Tag
se descubren al rastrear una URL. Si no se permite rastrear una página a través del archivo robots.txt, no se podrá encontrar ninguna información sobre reglas para indexar y servir contenido, y la página se ignorará. Si se deben seguir reglas para indexar o servir contenido, no se debe impedir el rastreo de las URLs que contengan esas reglas.