Introduzione ai file robots.txt
Un file robots.txt indica ai crawler dei motori di ricerca a quali URL possono accedere sul tuo sito.
Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina web da Google, blocca l'indicizzazione con il meta tag noindex
oppure proteggi tramite password la pagina.
Per cosa viene utilizzato un file robots.txt?
Un file robots.txt viene usato principalmente per gestire il traffico dei crawler verso il tuo sito e solitamente per escludere un file da Google, a seconda del tipo di file:
Effetto del file robots.txt su diversi tipi di file | |
---|---|
Pagina web |
Puoi utilizzare un file robots.txt per le pagine web (HTML, PDF o altri formati non multimediali che Google può leggere) per gestire il traffico di scansione, se ritieni che il server possa essere sovraccaricato di richieste dal crawler di Google, oppure per evitare che venga eseguita la scansione di pagine simili o non importanti del tuo sito. Se la tua pagina web è bloccata da un file robots.txt, il relativo URL può comunque essere visualizzato nei risultati di ricerca, ma il risultato di ricerca non avrà una descrizione. Anche i file immagine, i file video, i PDF e altri file non HTML incorporati nella pagina bloccata verranno esclusi dalla scansione, a meno che non vi venga fatto riferimento da altre pagine autorizzate per la scansione. Se vedi questo risultato di ricerca per la tua pagina e vuoi sistemarlo, rimuovi la voce del file robots.txt che blocca la pagina. Se vuoi escludere completamente la pagina dai risultati della Ricerca, usa un altro metodo. |
File multimediale |
Utilizza un file robots.txt per gestire il traffico di scansione e anche per impedire la visualizzazione di file immagine, video e audio nei risultati di ricerca di Google. Ciò non impedisce ad altri utenti o altre pagine di rimandare al tuo file immagine, video o audio. |
File di risorse | Puoi utilizzare un file robots.txt per bloccare i file di risorse, come file immagine, script o stile non importanti, se ritieni che le pagine caricate senza queste risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da queste risorse. |
Comprendere i limiti di un file robots.txt
Prima di creare o modificare un file robots.txt, dovresti conoscere i limiti di questo metodo di blocco degli URL. A seconda dei tuoi obiettivi e della tua situazione, può essere opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul web.
-
Le regole del file robots.txt potrebbero non essere supportate da tutti i motori di ricerca.
Le istruzioni nei file robots.txt non possono imporre il comportamento del crawler per il tuo sito, ma spetta al crawler rispettarle. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Pertanto, per proteggere le informazioni dai web crawler, ti consigliamo di utilizzare altri metodi di blocco, ad esempio la protezione tramite password dei file privati presenti sul tuo server. -
Interpretazione diversa della sintassi a seconda del crawler.
Anche se i web crawler affidabili si attengono alle regoole di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare per i diversi web crawler, poiché alcuni potrebbero non comprendere determinate istruzioni. -
Una pagina non consentita nel file robots.txt può
comunque essere indicizzata se altri siti includono rimandi a questa pagina.
Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito se altre posizioni del web hanno link che rimandano a questo URL. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati di ricerca di Google. Per evitare che l'URL venga visualizzato nei risultati di ricerca di Google, dovresti proteggere tramite password i file sul server, usare l'intestazione della risposta o ilmeta
tagnoindex
o rimuovere completamente la pagina.
Creare o aggiornare un file robots.txt
Se ritieni di averne bisogno, scopri come creare un file robots.txt. In alternativa, se ne hai già uno, scopri come aggiornarlo.
Vuoi saperne di più? Consulta le seguenti risorse: