Googlebot

Googlebot è il nome generico di due tipi di web crawler utilizzati dalla Ricerca Google:

Googlebot Smartphone: un crawler mobile che simula un utente che usa un dispositivo mobile.
Googlebot Desktop: un crawler desktop che simula un utente che usa un computer desktop.

Puoi identificare il sottotipo di Googlebot esaminando l'intestazione della richiesta HTTP user-agent nella richiesta. Tuttavia, entrambi i tipi di crawler rispettano lo stesso token di prodotto (token dello user- agent) nel file robots.txt, quindi non puoi scegliere selettivamente come target Googlebot Smartphone o Googlebot Desktop usando il file robots.txt.

Per la maggior parte dei siti, Google indicizza principalmente la versione mobile dei contenuti. La maggior parte delle richieste di scansione di Googlebot viene effettuata usando il crawler mobile, mentre una piccola parte viene effettuata con il crawler desktop.

Modalità di accesso di Googlebot al proprio sito

Googlebot non dovrebbe accedere a gran parte dei siti in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi, questa frequenza potrebbe risultare leggermente superiore in brevi periodi. Se il tuo sito non riesce a stare al passo con le richieste di scansione di Google, puoi ridurre la frequenza di scansione.

Quando esegue la scansione per la Ricerca Google, Googlebot esegue la scansione dei primi 2 MB di un tipo di file supportato e dei primi 64 MB di un file PDF. Dal punto di vista del rendering, ogni risorsa a cui viene fatto riferimento nell'HTML (ad esempio CSS e JavaScript) viene recuperata separatamente e ogni recupero è vincolato dallo stesso limite di dimensione del file che si applica agli altri file (ad eccezione dei file PDF).
Una volta raggiunto il limite di interruzione, Googlebot interrompe il recupero e invia solo la parte del file già scaricata per includerla nell'indicizzazione. Il limite per le dimensioni del file viene applicato ai dati non compressi; altri crawler di Google, ad esempio Googlebot Video e Googlebot Image, potrebbero avere limiti diversi.

Quando esegui la scansione da indirizzi IP negli Stati Uniti, il fuso orario di Googlebot è Fuso orario del Pacifico.

Altre proprietà tecniche di Googlebot sono descritte nella panoramica dei crawler di Google.

Impedire a Googlebot di visitare il proprio sito

Googlebot scopre nuovi URL da sottoporre a scansione principalmente dai link incorporati nelle pagine sottoposte a scansione in precedenza. È quasi impossibile tenere segreto un sito evitando di pubblicare link che vi rimandino. Ad esempio, non appena un utente fa clic su un link dal tuo sito "segreto" a un altro sito, l'URL "segreto" del tuo sito potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro sito nel suo log referrer.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione una serie di opzioni. Ricorda che esiste una differenza tra scansione e indicizzazione; il blocco della scansione di una pagina da parte di Googlebot non impedisce la visualizzazione dell'URL della pagina nei risultati di ricerca:

Vuoi impedire a Googlebot di eseguire la scansione di una pagina? Utilizza un file robots.txt.
Non vuoi che Google indicizzi una pagina? Utilizza noindex.
Vuoi impedire l'accesso a una pagina sia ai crawler che agli utenti? Utilizza un altro metodo, ad esempio la protezione tramite password.

Il blocco di Googlebot influisce sulla Ricerca Google (inclusi Feed personalizzato e tutte le funzionalità della Ricerca Google), nonché su altri prodotti come Google Immagini, Google Video e Google News.

Verifica di Googlebot

Prima di decidere di bloccare Googlebot, tieni presente che l'intestazione della richiesta HTTP user-agent utilizzata da Googlebot è spesso oggetto di spoofing da parte di altri crawler. È importante verificare che una richiesta problematica provenga effettivamente da Google. Il miglior modo per farlo è utilizzare una ricerca DNS inversa nell'IP di origine della richiesta oppure far corrispondere l'IP di origine con gli intervalli di indirizzi IP di Googlebot.