Dicembre dedicato alla scansione: come e perché Googlebot esegue il crawling

Martedì 3 dicembre 2024

Probabilmente avete sentito dire che la Ricerca Google deve fare un po' di lavoro prima che una pagina web possa essere visualizzata nei risultati della Ricerca Google. Uno di questi passaggi è chiamato scansione: la scansione per la Ricerca Google viene eseguita da Googlebot, un programma in esecuzione sui server di Google che recupera un URL e gestisce aspetti come errori di rete, reindirizzamenti e altre piccole complicazioni che potrebbero verificarsi nel percorso compiuto dall'URL sul web. Tuttavia, ci sono alcuni dettagli di cui non si parla spesso. Ogni settimana di questo mese esploreremo alcuni di questi aspetti specifici, in quanto potrebbero avere un effetto significativo sulla modalità di scansione dei vostri siti.

Facciamo un passo indietro: che cos'è la scansione?

La scansione è il processo di rilevamento di pagine web nuove e aggiornate e del loro download. In breve, Googlebot riceve un URL, invia una richiesta HTTP al server che lo ospita e poi gestisce la risposta del server, eventualmente seguendo i reindirizzamenti, gestendo gli errori e passando i contenuti della pagina al sistema di indicizzazione di Google.

Tuttavia, le pagine web moderne non contengono solo HTML puro, quindi che dire delle altre risorse che compongono una pagina? In che modo la scansione di queste risorse influisce sul "budget di scansione"? Queste risorse possono essere memorizzate nella cache da parte di Google? Esiste una differenza tra gli URL che non sono mai stati sottoposti a scansione e quelli già indicizzati? In questo post risponderemo a queste domande e ad altre ancora.

Googlebot e risorse delle pagine sottoposte a scansione

Oltre all'HTML, i siti web moderni utilizzano una combinazione di diverse tecnologie come JavaScript e CSS per offrire agli utenti esperienze vivaci e funzionalità utili. Quando accedete a queste pagine con un browser, questo scarica prima l'URL principale che ospita i dati necessari per iniziare a creare la pagina per l'utente, ovvero il codice HTML. Questi dati iniziali potrebbero contenere riferimenti a risorse come JavaScript e CSS, ma anche immagini e video che il browser scaricherà di nuovo per costruire la pagina finale che verrà poi presentata all'utente.

Google fa esattamente la stessa cosa, anche se in modo leggermente diverso:

Googlebot scarica i dati iniziali dall'URL principale, ovvero il codice HTML della pagina.
Googlebot trasmette i dati recuperati al servizio di rendering web (WRS).
Utilizzando Googlebot, WRS scarica le risorse a cui fanno riferimento i dati originali.
WRS costruisce la pagina utilizzando tutte le risorse scaricate come farebbe il browser di un utente.

Rispetto a un browser, il tempo tra ogni passaggio potrebbe essere notevolmente più lungo a causa di vincoli di pianificazione come il carico percepito del server che ospita le risorse necessarie per il rendering di una pagina; ed è qui che entra in gioco il budget di scansione.

La scansione delle risorse necessarie per il rendering di una pagina riduce il budget di scansione del nome host che ospita la risorsa. Per migliorare questo aspetto, WRS tenta di memorizzare nella cache ogni risorsa (JavaScript e CSS) a cui viene fatto riferimento nelle pagine di cui esegue il rendering. La durata (TTL) della cache WRS non è interessata dalle istruzione di memorizzazione nella cache HTTP. Al contrario, WRS memorizza nella cache tutto per un massimo di 30 giorni, il che contribuisce a preservare il budget di scansione del sito per altre attività di scansione.

Dal punto di vista dei proprietari di siti, la gestione di come e quali risorse vengono sottoposte a scansione può influire sul budget di scansione del sito. Vi consigliamo di:

Utilizzare il minor numero possibile di risorse per offrire agli utenti un'ottima esperienza; meno risorse sono necessarie per il rendering di una pagina, meno budget di scansione viene speso durante questo processo.
Utilizzare i parametri per il busting della cache con cautela; se gli URL delle risorse cambiano, Google potrebbe dover eseguire nuovamente la scansione delle risorse, anche se i relativi contenuti non sono cambiati. Ciò, ovviamente, comporterà un utilizzo del budget di scansione.
Ospitare le risorse su un nome host diverso rispetto al sito principale, ad esempio utilizzando una CDN o semplicemente ospitando le risorse su un sottodominio diverso. In questo modo, i problemi relativi al budget di scansione verranno trasferiti all'host che pubblica le risorse.
Aggiornamento del 6 dicembre 2024: questa strategia può comportare un rallentamento delle prestazioni della pagina a causa dell'overhead della connessione a un nome host diverso, pertanto non la consigliamo per le risorse critiche (come JavaScript o CSS) che sono necessarie per il rendering di una pagina. Tuttavia, per risorse non critiche più grandi come video o download, vale la pena prendere in considerazione questo approccio.

Tutti questi punti si applicano anche alle risorse multimediali. Se Googlebot (o più specificamente Googlebot-Image e Googlebot-Video) le recupera, consumerà il budget di scansione del sito.

Potreste essere tentati di aggiungere anche robots.txt all'elenco, ma dal punto di vista del rendering la mancata autorizzazione della scansione delle risorse di solito causa problemi. Se WRS non riesce a recuperare una risorsa fondamentale per il rendering, la Ricerca Google potrebbe avere difficoltà a estrarre i contenuti della pagina e a consentirne il posizionamento nella Ricerca.

Che cos'è la scansione di Googlebot?

La fonte migliore per analizzare le risorse sottoposte a scansione da parte di Google è costituita dai log di accesso non elaborati del sito, che contengono una voce per ogni URL richiesto da browser e crawler. Per identificare i crawler di Google nel log di accesso, pubblichiamo i nostri intervalli IP nella documentazione per gli sviluppatori.

La seconda migliore risorsa è, ovviamente, il report Statistiche di scansione di Search Console, che suddivide ogni tipo di risorsa in base al crawler:

Il report Statistiche di scansione in Search Console che mostra i diversi tipi di risorse sottoposte a scansione da Googlebot

Infine, se volete approfondire questi argomenti e parlarne con altri utenti, la community di Search Central è il posto giusto per voi, ma potete trovarci anche su LinkedIn.

Scritto da Martin Splitt e Gary Illyes

Aggiornamenti

Aggiornamento del 6 dicembre 2024: è stato rilevato l'impatto sulle prestazioni della pubblicazione di risorse da un'origine diversa.