Ripasso su robots: presentazione di una nuova serie

Lunedì 24 febbraio 2025

Di tanto in tanto riceviamo domande sui file robots.txt, sui meta tag robots e sulle funzionalità di controllo che offrono. Dopo la nostra serie di dicembre sulla scansione, abbiamo pensato che fosse il momento perfetto per un breve ripasso. Se vi incuriosiscono questi controlli, continuate a seguire questa nuova serie di post del blog.

Iniziamo dal principio, con il file robots.txt.

Dunque, che cos'è il file robots.txt?

Un "robots.txt" è un file che qualsiasi sito web può fornire. Nella sua forma più semplice, è un file di testo archiviato sul server e quasi tutti i siti web ne hanno uno. Per visualizzarlo, aggiungete /robots.txt alla fine del nome di dominio e poi andate a questo indirizzo. Ad esempio, il file robots.txt di questo sito web si trova all'indirizzo developers.google.com/robots.txt.

La maggior parte dei siti web utilizza sistemi di gestione dei contenuti (CMS) che generano automaticamente questi file, ma anche se crei il tuo sito web "manualmente", è facile crearli. Esamineremo alcune delle varianti nei post futuri.

A cosa servono questi file?

I file robots.txt indicano ai crawler dei siti web quali parti di un sito web sono disponibili per l'accesso automatico (la scansione) e quali no. Consentono ai siti di gestire tutto, dall'intero sito, a parti del sito o persino a file specifici al loro interno. Oltre a essere leggibili dai computer, i file sono anche leggibili da una persona. Ciò significa che c'è sempre una risposta chiara (positiva o negativa) a indicare se è consentito o meno l'accesso automatico a una pagina da parte di un crawler specifico.

È una prassi standard per chiunque crei un crawler seguire queste direttive ed è facile per uno sviluppatore supportarle: sono disponibili più di 1000 librerie open source. Il file fornisce istruzioni ai crawler per la scansione ottimale di un sito web. I siti web moderni possono essere complessi, la navigazione automatica può essere difficile e le regole del file robots.txt aiutano i crawler a concentrarsi sui contenuti appropriati. In questo modo, i crawler possono anche evitare le pagine create dinamicamente che potrebbero generare un carico sul server e rendere la scansione non necessaria inefficiente. Poiché i file robots.txt sono utili sia dal punto di vista tecnico che per le relazioni con i proprietari dei siti web, la maggior parte degli operatori di crawler commerciali li segue.

Creati e ampliati dal pubblico

I file robots.txt esistono quasi da quando esiste internet e sono uno degli strumenti essenziali che consentono a internet di funzionare. L'HTML, la base delle pagine web, è stato inventato nel 1991, i primi browser sono arrivati nel 1992 e i file robots.txt nel 1994; ciò significa che risalgono addirittura a prima di Google, fondata nel 1998. Da allora il formato è rimasto per lo più invariato e un file delle prime versioni sarebbe ancora valido oggi. Dopo tre anni di coinvolgimento della community globale, nel 2022 è stato definito come standard proposto dall'IETF.

Se avete un sito web, è probabile che abbiate anche un file robots.txt. Esiste una community vivace e attiva che si occupa di file robots.txt e sono disponibili migliaia di strumenti software che aiutano a creare, testare, gestire o comprendere i file robots.txt di tutte le forme e dimensioni. La bellezza di robots.txt è che non avete bisogno di strumenti sofisticati: è possibile leggere il file in un browser e, per un sito web che gestite, modificarlo in un semplice editor di testo.

Uno sguardo al futuro…

Il formato del file robots.txt è flessibile. Può ancora crescere, la community web pubblica può espandersi e i crawler possono annunciare le estensioni, se opportuno, senza interrompere l'utilizzo esistente. Questo è accaduto nel 2007, quando i motori di ricerca hanno annunciato la direttiva "Sitemap". Inoltre, si verifica regolarmente man mano che nuovi "user-agent" vengono supportati dagli operatori di crawler e dai motori di ricerca, ad esempio quelli utilizzati per scopi di AI.

Il file robots.txt rappresenta il presente e il futuro. I nuovi formati di file richiedono alcuni anni per essere finalizzati con la più grande comunità internet, mentre gli strumenti adeguati per renderli utili per l'ecosistema richiedono ancora più tempo. Il file robots.txt è semplice, granulare ed espressivo, è ben compreso e accettato e funziona bene ormai da decenni.

Volete conoscere i dettagli? Continuate a seguirci per non perdervi le prossime edizioni della nostra serie di post Ripasso su robots nel blog di Search Central.