Specifiche relative al meta tag robots, all'attributo data-nosnippet e all'intestazione X-Robots-Tag

Abstract

Questo documento descrive in che modo le impostazioni a livello di pagina e di testo ti consentono di regolare come Google presenta i tuoi contenuti nei risultati di ricerca. Puoi specificare le impostazioni a livello di pagina includendo un meta tag sulle pagine HTML o in un'intestazione HTTP. Puoi specificare le impostazioni a livello di testo con l'attributo data- nosnippet su elementi HTML all'interno di una pagina.

Utilizzo del meta tag robots

Il meta tag robots ti consente di utilizzare un approccio granulare e specifico di pagina per controllare in che modo una pagina singola dovrebbe essere indicizzata e fornita agli utenti nei risultati della Ricerca Google. Inserisci il meta tag robots nella sezione <head> di una determinata pagina, in questo modo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Il meta tag robots nell'esempio riportato sopra comunica ai motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name (robots) specifica che l'istruzione si applica a tutti i crawler. Per indicare un crawler specifico, sostituisci il valore robots dell'attributo name con lo stesso nome del crawler a cui vuoi fare riferimento. I crawler specifici sono noti anche come user-agent (un crawler utilizza il proprio user-agent per richiedere una pagina). Il nome user-agent del web crawler standard di Google è Googlebot. Per impedire solo a Googlebot di indicizzare la pagina, aggiorna il tag come indicato di seguito:

<meta name="googlebot" content="noindex" />

Il tag ora darà istruzioni specifiche a Google di non mostrare la pagina nei risultati di ricerca. Entrambi gli attributi name e content non fanno distinzione tra maiuscole e minuscole.

I motori di ricerca possono avere crawler differenti per proprietà o scopi diversi. Consulta l'elenco completo dei crawler di Google. Ad esempio, per mostrare una pagina nei risultati della Ricerca Google, ma non in Google News, utilizza il meta tag riportato di seguito:

<meta name="googlebot-news" content="noindex" />

Per specificare più crawler singolarmente, utilizza più meta tag robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Utilizzo dell'intestazione HTTP X-Robots-Tag

X-Robots-Tag può essere utilizzato come elemento della risposta dell'intestazione HTTP di un URL specifico. Qualsiasi istruzione utilizzabile in un meta tag robots può anche essere specificata come un X-Robots-Tag. Di seguito è riportato un esempio di risposta HTTP con un X-Robots-Tag che dà istruzione ai crawler di non indicizzare una pagina:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

È possibile combinare più intestazioni X-Robots-Tag all'interno della risposta HTTP. In alternativa puoi specificare un elenco di istruzioni separate da virgole. Di seguito è riportato un esempio di risposta dell'intestazione HTTP che contiene un X-Robots-Tag noarchivecombinato con un X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag può eventualmente specificare uno user-agent prima delle istruzioni. Ad esempio, il seguente set di intestazioni HTTP X-Robots-Tag può essere usato per permettere di mostrare in base alle condizioni una pagina nei risultati di ricerca su motori di ricerca diversi.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Le istruzioni specificate senza uno user-agent sono valide per tutti i crawler. L'intestazione HTTP, il nome dello user-agent e i valori specificati non fanno distinzione tra maiuscole e minuscole.

Istruzioni di indicizzazione e pubblicazione valide

Le istruzioni seguenti possono essere usate per controllare l'indicizzazione e la pubblicazione di uno snippet con il meta tag robots e X-Robots-Tag. All'interno dei risultati di ricerca, uno snippet è un breve estratto di testo usato per dimostrare la pertinenza di un documento alla query di un utente. Nella tabella che segue vengono mostrate tutte le istruzioni seguite da Google e il relativo significato. Ogni valore rappresenta un'istruzione specifica. È possibile combinare più istruzioni in un elenco separato da virgole. Per le istruzioni non viene fatta distinzione tra maiuscole e minuscole.

Istruzioni

all

Non sono presenti limitazioni per l'indicizzazione e la pubblicazione. Questa istruzione è il valore predefinito e non ha alcun effetto se viene elencata in modo esplicito.

noindex

Non mostrare questa pagina nei risultati di ricerca.

nofollow

Non seguire i link su questa pagina.

none

Equivalente a noindex, nofollow.

noarchive

Non mostrare un link Copia cache nei risultati di ricerca.

nosnippet

Impedisce la visualizzazione di uno snippet di testo nei risultati di ricerca di questa pagina. La miniatura statica di un'immagine (se disponibile) potrebbe ancora essere visibile se l'esperienza utente risulta migliore. Questo si applica a qualsiasi forma di risultato di ricerca (su Ricerca Google, Google Immagini e Discover).

max-snippet:[number]

Usa un massimo di [number] caratteri come snippet testuale per questo risultato di ricerca. Tieni presente che all'interno di una pagina dei risultati di ricerca un URL potrebbe comparire per più risultati di ricerca. Ciò non influirà sulle anteprime di immagini o video. Questo si applica a qualsiasi forma di risultato di ricerca (ad esempio, Ricerca Google, Google Immagini, Discover e Assistente Google). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un accordo di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici. Questa istruzione viene ignorata se non viene specificato alcun valore [number] analizzabile.

Valori speciali:

  • 0: non deve essere mostrato nessuno snippet. Equivalente a nosnippet.
  • -1: Google sceglierà la lunghezza dello snippet che ritiene più efficace per aiutare gli utenti a scoprire i tuoi contenuti e indirizzarli al tuo sito.

Esempio:


<meta name="robots" content="max-snippet:20">

max-image-preview:[setting]

Imposta la dimensione massima dell'anteprima di un'immagine per questa pagina nei risultati di ricerca.

Valori accettati per setting:

  • none: non deve essere mostrata nessuna anteprima dell'immagine.
  • standard: è possibile mostrare un'anteprima predefinita dell'immagine.
  • large: è possibile mostrare un'anteprima dell'immagine che sia larga al massimo quanto l'area visibile.

Questo si applica a qualsiasi forma di risultato di ricerca (ad esempio, Ricerca Google, Google Immagini, Discover e Assistente Google). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce i contenuti sotto forma di dati strutturati in-page (ad esempio versioni AMP e canonica di un articolo) o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici.

I publisher che non vogliono che Google usi immagini in miniatura più grandi quando le loro pagine AMP e la versione canonica di un articolo vengono mostrate in Ricerca o in Discover dovrebbero specificare un valore max-image-preview pari a standard o none.

Esempio:


<meta name="robots" content="max-image-preview:standard">

max-video-preview:[number]

Usa un massimo di [number] secondi come snippet video per i video di questa pagina nei risultati di ricerca.

Altri valori supportati:

  • 0: al massimo, un'immagine statica può essere usata nel rispetto dell'impostazione max-image-preview.
  • -1: nessun limite.

Questo si applica a tutte le forme di risultato di ricerca (su Ricerca Google, Google Immagini, Google Video, Discover e Assistente Google). Questa istruzione viene ignorata se non viene specificato alcun valore [number] analizzabile.

Esempio:


<meta name="robots" content="max-video-preview:-1">

notranslate

Non proporre la traduzione della pagina nei risultati di ricerca.

noimageindex

Non indicizzare le immagini in questa pagina.

unavailable_after: [date/time]

Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificate. La data e l'ora devono essere specificate in un formato ampiamente adottato tra cui, ad esempio, RFC 822, RFC 850 e ISO 8601. Questa istruzione viene ignorata se non viene specificato alcun valore [date/time] valido. Per impostazione predefinita, il contenuto non ha data di scadenza.

Esempio:


<meta name="robots" content="unavailable_after: 2020-09-21">

Gestione di istruzioni di indicizzazione e pubblicazione combinate

Puoi creare un'istruzione con più indicazioni combinando le istruzioni dei meta tag robots con le virgole. Di seguito è riportato un esempio di meta tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione nessun link sulla pagina:

<meta name="robots" content="noindex, nofollow">

Di seguito è riportato un esempio che limita lo snippet di testo a 20 caratteri e consente un'anteprima delle immagini di grandi dimensioni:

<meta name="robots" content="max-snippet:20, max-image-preview:large">

Per le situazioni in cui vengono specificati più crawler con diverse istruzioni, il motore di ricerca utilizza la somma delle istruzioni negative. Ad esempio:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot identificherà la pagina contenente questi meta tag come una pagina con istruzione noindex, nofollow.

Utilizzare l'attributo HTML data-nosnippet

Puoi contrassegnare le parti testuali di una pagina HTML da non utilizzare come snippet. Puoi eseguire questa operazione a livello di elemento HTML con l'attributo HTML data-nosnippet negli elementi span, div e section. data-nosnippet è considerato un attributo booleano ed è valido con o senza valore. Per poter essere leggibile ai computer, la sezione HTML deve contenere codice HTML valido e tutti i tag appropriati devono essere chiusi conformemente.

Esempi:

<p>This text can be shown in a snippet
 <span data-nosnippet>and this part would not be shown</span>.</p>

<div data-nosnippet>not in snippet</div>
<div data-nosnippet="true">also not in snippet</div>

<div data-nosnippet>some text</html>
<!-- unclosed "div" will include all content afterwards -->

<mytag data-nosnippet>some text</mytag>
<!-- NOT VALID: not a span, div, or section -->

Normalmente, Google visualizza le pagine per poterle indicizzare, ma il rendering non è garantito. Per questo motivo, l'estrazione di data-nosnippet può avvenire sia prima che dopo il rendering. Per non incorrere in incertezze riguardo il rendering, non aggiungere o rimuovere l'attributo data-nosnippet dei nodi esistenti tramite JavaScript. Se aggiungi elementi DOM tramite JavaScript, includi l'attributo data-nosnippet necessario durante l'aggiunta iniziale dell'elemento al DOM della pagina. Se vengono usati elementi personalizzati, aggregali o esegui il rendering con gli elementi div, span o section se devi usare data- nosnippet.

Utilizzo di dati strutturati

I meta tag robots regolano la quantità di contenuti che Google estrae automaticamente dalle pagine web per visualizzarli nei risultati di ricerca. Molti publisher, però, usano anche i dati strutturati di schema.org per rendere disponibili determinate informazioni per la presentazione nella ricerca. Le limitazioni dei meta tag robots non incidono sull'uso dei dati strutturati, ad eccezione di article.description e dei valori description per i dati strutturati specificati per altre opere creative. Per specificare la durata massima di un'anteprima in base a questi valori description, usa il meta tag robots max-snippet. Ad esempio, i dati strutturati recipe in una pagina sono idonei per essere inseriti nel carosello di ricette, anche se l'anteprima di testo sarebbe limitata. Puoi limitare la durata di un'anteprima di testo con max-snippet, ma questo meta tag robots non viene applicato se le informazioni vengono fornite usando dati strutturati per i risultati multimediali.

Per gestire l'uso dei dati strutturati delle tue pagine web, modifica i tipi e i valori dei dati strutturati aggiungendo o rimuovendo le informazioni per fornire solo i dati che vuoi rendere disponibili. Tieni presente inoltre che i dati strutturati restano utilizzabili per i risultati di ricerca quando sono dichiarati all'interno di un elemento data-nosnippet.

Implementazione pratica di X-Robots-Tag

Puoi aggiungere X-Robots-Tag alle risposte HTTP di un sito tramite i file di configurazione del software del server web del tuo sito. Ad esempio, sui server web basati su Apache puoi usare i file .htaccess e httpd.conf. Il vantaggio di usare X-Robots-Tag con le risposte HTTP è che puoi specificare le istruzioni di scansione da applicare globalmente su un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

Ad esempio, per aggiungere X-Robots-Tag noindex, nofollow alla risposta HTTP di tutti i file PDF di un sito intero, aggiungi lo snippet seguente ai file .htaccess o .httpd.conf del root di un sito su Apache o al file .conf del sito su NGINX.

Apache:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX:

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Puoi utilizzare l'intestazione X-Robots-Tag per i file non HTML come i file immagine in cui non è possibile utilizzare i meta tag robots nell'HTML. Di seguito è riportato un esempio di come aggiungere un'istruzione X-Robots-Tag noindex per i file immagine (.png, .jpeg, .jpg, .gif) su un intero sito.

Apache:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

NGINX:

location ~* \.(png|jpe?g|gif)$ {
  add_header X-Robots-Tag "noindex";
}

Combinazione di istruzioni di scansione con istruzioni di indicizzazione/pubblicazione

I meta tag robots e le intestazioni HTTP X-Robots-Tag vengono rilevati quando un URL viene sottoposto a scansione. Se una pagina viene esclusa dalla scansione tramite il file robots.txt, ogni informazione relativa alle istruzioni di indicizzazione e pubblicazione non viene rilevata e, pertanto, viene ignorata. Se occorre seguire le istruzioni di indicizzazione o pubblicazione, gli URL contenenti tali istruzioni non possono essere esclusi dalla scansione.