Domande frequenti (FAQ) relative agli elementi robots

Domande generali sugli elementi robots

Il mio sito web ha bisogno di un file robots.txt?

No. Quando Googlebot visita un sito web, come prima cosa chiede l'autorizzazione a eseguire la scansione cercando di recuperare il file robots.txt. In genere, un sito web senza file robots.txt, tag meta robots o intestazioni HTTP X-Robots-Tag viene sottoposto a scansione e indicizzato normalmente.

Quale metodo devo utilizzare per bloccare i crawler?

Dipende. In breve, ci sono motivi validi per utilizzare ognuno di questi metodi:

  • File robots.txt: utilizza questo metodo se la scansione dei tuoi contenuti causa problemi sul server. Ad esempio, potrebbe essere utile non consentire la scansione di script di calendario illimitati. Non utilizzare il file robots.txt per bloccare contenuti privati (per farlo, utilizza l'autenticazione lato server) o per gestire la canonicalizzazione. Per assicurarti che un URL non venga indicizzato, utilizza invece il meta tag robots o l'intestazione HTTP X-Robots-Tag.
  • Tag meta robots: utilizza questo metodo se devi controllare in che modo una singola pagina HTML viene visualizzata nei risultati di ricerca o per assicurarti che non venga mostrata.
  • Intestazione HTTP X-Robots-Tag: utilizza questo metodo se devi controllare in che modo i contenuti vengono visualizzati nei risultati di ricerca o per assicurarti che non vengano mostrati.

Posso utilizzare il file robots.txt, il tag meta robots o l'intestazione HTTP X-Robots-Tag per rimuovere il sito di un'altra persona dai risultati di ricerca?

No. Questi metodi sono applicabili solo per i siti in cui puoi modificare il codice o aggiungere file. Scopri di più sulla rimozione di informazioni da Google.

Come faccio a rallentare la scansione del mio sito web da parte di Google?

In genere, puoi regolare l'impostazione relativa alla frequenza di scansione nel tuo account Google Search Console.

Domande sul file robots.txt

Utilizzo lo stesso file robots.txt per più siti web. Posso utilizzare un URL completo anziché un percorso relativo?

No. Le regole contenute nel file robots.txt (ad eccezione di sitemap:) sono valide solo per i percorsi relativi.

Posso inserire il file robots.txt in una sottodirectory?

No. Il file deve trovarsi nella directory principale del sito web.

Voglio bloccare una cartella privata. Posso impedire ad altre persone di leggere il mio file robots.txt?

No. Il file robots.txt può essere letto da vari utenti. Se vuoi mantenere privati elementi come cartelle o nomi file dei contenuti, non elencarli nel file robots.txt. È sconsigliato pubblicare file robots.txt differenti in base allo user agent o ad altri attributi.

Devo includere una regola di tipo allow per consentire la scansione?

No, non devi includere una regola allow. Tutti gli URL sono implicitamente consentiti e la regola allow viene utilizzata per eseguire l'override delle regole disallow nello stesso file robots.txt.

Cosa succede se il mio file robots.txt contiene un errore o utilizza una regola non supportata?

Di solito i web crawler sono molto flessibili e non vengono influenzati da piccoli errori nel file robots.txt. In generale, il peggio che può capitare è che regole errate o non supportate vengano ignorate. Ricorda, però, che Google non può fare deduzioni in relazione al file robots.txt, ma si limita a interpretare il file recuperato. Detto questo, gli eventuali problemi nel tuo file robots.txt sono di solito facili da risolvere.

Quale programma devo utilizzare per creare un file robots.txt?

Puoi utilizzare qualsiasi programma in grado di creare un file di testo valido. I programmi comunemente utilizzati per creare file robots.txt sono Blocco note, TextEdit, vi o Emacs. Scopri di più sulla creazione di file robots.txt. Dopo aver creato il file, convalidalo usando lo strumento Tester dei file robots.txt.

Se impedisco a Google di eseguire la scansione di una pagina utilizzando una regola disallow nel file robots.txt, la pagina scompare dai risultati di ricerca?

Se impedisci a Google di eseguire la scansione di una pagina, è probabile che questa venga rimossa dall'indice di Google.

Tuttavia, la regola disallow del file robots.txt non garantisce che una pagina non venga visualizzata nei risultati: Google potrebbe comunque decidere, in base a informazioni esterne come i link in entrata, che questa pagina sia pertinente e di mostrare l'URL nei risultati. Se vuoi bloccare esplicitamente l'indicizzazione di una pagina, utilizza il tag meta noindex robots o l'intestazione HTTP X-Robots-Tag. In questo caso, consenti la pagina nel file robots.txt: per far sì che il tag venga riconosciuto e applicato, la pagina deve poter essere sottoposta a scansione. Scopri come controllare cosa condividi con Google.

Dopo quanto tempo le modifiche apportate al file robots.txt vengono applicate ai risultati di ricerca?

Innanzitutto, la cache del file robots.txt deve essere aggiornata (in genere, i contenuti vengono memorizzati nella cache per massimo un giorno). Puoi velocizzare questa procedura inviando il file robots.txt aggiornato a Google. Anche dopo l'individuazione della modifica, è impossibile fornire un'indicazione temporale esatta: la scansione e l'indicizzazione dei singoli URL sono processi complicati che potrebbero richiedere molto tempo. Ricorda, inoltre, che anche se il file robots.txt non consente di accedere a un URL, tale URL può rimanere visibile nei risultati di ricerca, nonostante non venga sottoposto a scansione. Se vuoi velocizzare la rimozione da Google delle pagine che hai bloccato, invia una richiesta di rimozione.

Come faccio a sospendere temporaneamente ogni operazione di scansione del mio sito web?

Puoi sospendere temporaneamente ogni operazione di scansione restituendo un codice di stato HTTP 503 (service unavailable) per tutti gli URL, incluso il file robots.txt. Verranno eseguiti tentativi periodici di accesso al file robots.txt, fino a quando l'accesso non sarà nuovamente possibile. Sconsigliamo di modificare il file robots.txt in modo da non consentire la scansione.

Il mio server non è sensibile alle maiuscole. Come faccio a non consentire del tutto la scansione di alcune cartelle?

Le regole del file robots.txt sono sensibili alle maiuscole. In questo caso, ti consigliamo di verificare che solo una versione dell'URL sia indicizzata utilizzando i metodi di canonicalizzazione. Così facendo, puoi avere meno righe nel file robots.txt e sarà più facile gestirlo. Se non fosse possibile, ti consigliamo di elencare le combinazioni comuni del nome della cartella o di accorciarlo il più possibile, utilizzando solo i primi caratteri anziché il nome completo. Ad esempio, anziché elencare tutte le permutazioni di lettere maiuscole e minuscole di /MyPrivateFolder, puoi elencare le permutazioni di /MyP (se hai la certezza che non esiste nessun altro URL sottoponibile a scansione che inizi con questi caratteri). In alternativa, se la scansione non è un problema, potresti utilizzare un tag meta robots o un'intestazione HTTP X-Robots-Tag.

Ho previsto la restituzione di un codice 403 Forbidden per tutti gli URL, incluso il file robots.txt. Per quale motivo il sito viene comunque sottoposto a scansione?

Il codice di stato HTTP 403 Forbidden e altri codici di stato HTTP 4xx vengono interpretati come indicatori del fatto che il file robots.txt non esiste. Per questo motivo, di solito i crawler danno per scontato che sia possibile sottoporre a scansione tutti gli URL del sito web. Per bloccare la scansione del sito web, il file robots.txt deve restituire un codice di stato HTTP 200 OK e contenere una regola disallow adeguata.

Domande sul tag meta robots

Il meta tag robots sostituisce il file robots.txt?

No. Il file robots.txt controlla quali pagine vengono sottoposte a scansione. Il meta tag robots controlla se una pagina viene indicizzata, ma per individuare questo tag è necessario sottoporre a scansione la pagina. Se la scansione di una pagina è problematica (ad esempio, se la pagina causa un sovraccarico del server), utilizza il file robots.txt. Se il problema è relativo unicamente al visualizzare o meno una pagina nei risultati di ricerca, puoi utilizzare il meta tag robots.

È possibile utilizzare il meta tag robots per bloccare parzialmente l'indicizzazione di una pagina?

No, il tag meta robots è un'impostazione a livello di pagina.

Posso utilizzare il meta tag robots al di fuori di una sezione <head>?

No, il tag meta robots deve trovarsi nella sezione <head> di una pagina.

Il meta tag robots non consente la scansione?

No. Anche se il meta tag robots riporta l'istruzione noindex, di tanto in tanto l'URL deve essere risottoposto a scansione per verificare se il meta tag è stato modificato.

Qual è la differenza tra il tag meta nofollow robots e l'attributo per i link rel="nofollow"?

Il tag meta nofollow robots si applica a tutti i link presenti su una pagina. L'attributo per i link rel="nofollow" si applica solo a link specifici su una pagina. Per scoprire di più sull'attributo per i link rel="nofollow", consulta la nostra documentazione sullo spam generato dagli utenti e sull'attributo rel="nofollow".

Domande sull'intestazione HTTP X-Robots-Tag

Come posso verificare l'intestazione X-Robots-Tag per un URL?

Un modo semplice per visualizzare le intestazioni server consiste nell'utilizzare lo strumento Controllo URL in Google Search Console. Per controllare le intestazioni della risposta di un URL, prova a cercare "strumento di verifica delle intestazioni server".