Specifiche relative al meta tag robots e all'intestazione HTTP X-Robots-Tag

Abstract

Questo documento illustra in che modo le impostazioni di indicizzazione a livello di pagina ti consentono di controllare il modo in cui Google rende disponibili i contenuti attraverso i risultati di ricerca. Puoi specificare tali impostazioni includendo un meta tag nelle pagine (X)HTML o in un'intestazione HTTP.

Utilizzare il meta tag robots

Il meta tag robots ti consente di utilizzare un approccio dettagliato e specifico per la pagina, per controllare in che modo una singola pagina deve essere indicizzata e pubblicata. Inserisci il meta tag robots nella sezione <head> di una determinata pagina, in questo modo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Il meta tag robots nell'esempio riportato sopra comunica alla maggior parte dei motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name (robots) specifica che l'istruzione si applica a tutti i crawler. Per indicare un crawler specifico, sostituisci il valore robots dell'attributo name con il nome del crawler desiderato. I crawler specifici sono noti anche come user-agent (un crawler utilizza il proprio user-agent per richiedere una pagina). Il nome dello user-agent del crawler web standard di Google è Googlebot. Per impedire solo a Googlebot di sottoporre la pagina a scansione, aggiorna il tag come indicato di seguito:

<meta name="googlebot" content="noindex" />

A questo punto, il tag indica a Google (ma non agli altri motori di ricerca) di non mostrare la pagina nei propri risultati di ricerca web. Gli attributi name e content non fanno distinzione tra maiuscole e minuscole.

I motori di ricerca possono avere crawler differenti per proprietà o scopi differenti. Consulta l'elenco completo dei crawler di Google. Ad esempio, per mostrare una pagina nei risultati di ricerca web di Google ma non in Google News, utilizza il meta tag riportato di seguito:

<meta name="googlebot-news" content="noindex" />

Se devi specificare più crawler singolarmente, puoi utilizzare più meta tag robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Se i nostri crawler riscontrano istruzioni concorrenti, utilizzeranno l'istruzione più restrittiva.

Utilizzare l'intestazione HTTP X-Robots-Tag

L'intestazione X-Robots-Tag può essere utilizzata come elemento della risposta dell'intestazione HTTP per un determinato URL. Le istruzioni utilizzabili in un meta tag robots possono essere specificate anche come X-Robots-Tag. Di seguito è riportato un esempio di risposta HTTP con un'intestazione X-Robots-Tag che comunica ai crawler di non indicizzare una pagina:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

È possibile combinare più intestazioni X-Robots-Tag all'interno della risposta HTTP. In alternativa, puoi specificare un elenco di istruzioni separate da virgole. Di seguito è riportato un esempio di risposta dell'intestazione HTTP con un'intestazione X-Robots-Tag di tipo noarchive combinata con un'intestazione X-Robots-Tag di tipo unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

L'intestazione X-Robots-Tag può, eventualmente, specificare uno user-agent prima delle istruzioni. Ad esempio, il seguente gruppo di intestazioni HTTP X-Robots-Tag può essere utilizzato per consentire la visualizzazione di una pagina nei risultati di ricerca per diversi motori in base a condizioni:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Le istruzioni specificate senza uno user-agent sono valide per tutti i crawler. La sezione riportata di seguito illustra come gestire istruzioni combinate. Il nome e i valori specificati non fanno distinzione tra maiuscole e minuscole.

Istruzioni di indicizzazione e pubblicazione valide

Molte altre istruzioni possono essere utilizzate per controllare l'indicizzazione e la pubblicazione con il meta tag robots e l'intestazione X-Robots-Tag. Ogni valore rappresenta un'istruzione specifica. La seguente tabella mostra tutte le istruzioni seguite da Google e il rispettivo significato. Nota. È possibile che queste istruzioni possano non essere trattate allo stesso modo dai crawler di tutti gli altri motori di ricerca. È possibile combinare più istruzioni in un elenco separato da virgole (vedi qui sotto per informazioni sulla gestione di istruzioni combinate). Queste istruzioni non fanno distinzione tra maiuscole e minuscole.

Istruzioni
all Non vi sono limitazioni per l'indicizzazione e la pubblicazione. Nota. Questa istruzione è il valore predefinito e non ha alcun effetto se viene elencata in modo esplicito.
noindex Non mostrare la pagina e non mostrare un link "Copia cache" nei risultati di ricerca.
nofollow Non seguire i link su questa pagina.
none Equivale a noindex, nofollow.
noarchive Non mostrare un link "Copia cache" nei risultati di ricerca.
nosnippet Impedisce la visualizzazione di uno snippet di testo nei risultati di ricerca di questa pagina. Una miniatura statica (se disponibile) continuerà a essere visibile.
notranslate Non proporre la traduzione della pagina nei risultati di ricerca.
noimageindex Non indicizzare le immagini in questa pagina.
unavailable_after: [RFC-850 date/time] Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificata. La data/l'ora deve essere specificata nel formato RFC 850.

Dopo che il file robots.txt (o l'assenza di tale file) ha dato l'autorizzazione a eseguire la scansione della pagina, per impostazione predefinita le pagine vengono considerate sottoponibili a scansione, archiviabili e i relativi contenuti vengono approvati per essere utilizzati negli snippet inclusi nei risultati di ricerca, a meno che l'autorizzazione venga negata in modo specifico in un meta tag robots o in un'intestazione X-Robots-Tag.

Gestire le istruzioni di indicizzazione e pubblicazione combinate

Puoi creare un'istruzione con più indicazioni combinando le istruzioni dei meta tag robots con le virgole. Di seguito è riportato un esempio di meta tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione nessun link sulla pagina:

<meta name="robots" content="noindex, nofollow">

Per le situazioni in cui vengono specificati più crawler con diverse istruzioni, il motore di ricerca utilizza la somma delle istruzioni negative. Ad esempio:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot identificherà la pagina contenente questi meta tag come una pagina con istruzione noindex, nofollow.

Implementazione pratica dell'intestazione X-Robots-Tag con Apache

Puoi aggiungere l'intestazione X-Robots-Tag alle risposte HTTP di un sito utilizzando i file .htaccess e httpd.conf disponibili per impostazione predefinita sui server web basati su Apache. Il vantaggio di utilizzare un'intestazione X-Robots-Tag con le risposte HTTP è che puoi specificare istruzioni di scansione che vengono applicate a livello globale su un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

Ad esempio, per aggiungere un'intestazione X-Robots-Tag di tipo noindex, nofollow alla risposta HTTP per tutti i file .PDF del sito, aggiungi il seguente snippet al file .htaccess o httpd.conf principale del sito:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Puoi utilizzare l'intestazione X-Robots-Tag per i file non HTML come i file immagine in cui non è possibile utilizzare i meta tag robot. Di seguito è riportato un esempio di aggiunta di un'istruzione X-Robots-Tag di tipo noindex per tutti i file immagine (.png, .jpeg, .jpg, .gif) del sito:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Combinare le istruzioni di scansione con istruzioni di indicizzazione/pubblicazione

Le intestazioni HTTP X-Robots-Tag e i meta tag robot vengono rilevati quando un URL viene sottoposto a scansione. Se a una pagina non viene concesso di eseguire la scansione tramite il file robots.txt, ogni informazione relativa alle istruzioni di indicizzazione e pubblicazione non viene rilevata e, pertanto, viene ignorata. Se occorre seguire le istruzioni di indicizzazione o pubblicazione, gli URL contenenti tali istruzioni non possono essere esclusi dalla scansione.

Invia feedback per...