Regole utili per i file robots.txt

Di seguito alcune regole utili per i file robots.txt:

Regole utili
Non consentire la scansione dell'intero sito	Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione. Nota: questa regola non si applica ai vari crawler AdsBot, i cui nomi devono essere indicati espressamente. User-agent: * Disallow: /
Non consentire la scansione di una directory e dei relativi contenuti	Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory. Attenzione: ricorda di non utilizzare il file robots.txt per bloccare l'accesso ai contenuti privati; utilizza invece un'autenticazione corretta. Gli URL non consentiti dal file robots.txt possono essere comunque indicizzati senza essere sottoposti a scansione e il file robots.txt può essere visualizzato da chiunque, comunicando potenzialmente la posizione di contenuti privati. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Consentire l'accesso a un singolo crawler	Solo `googlebot-news` può eseguire la scansione dell'intero sito. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Consentire l'accesso a tutti i crawler tranne uno	`Unnecessarybot` non può eseguire la scansione del sito, tutti gli altri bot possono farlo. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Non consentire la scansione di una singola pagina web	Ad esempio, non consentire la pagina `useless_file.html` in `https://example.com/useless_file.html` e `other_useless_file.html` nella directory `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Non consentire la scansione dell'intero sito, tranne di una sottodirectory	I crawler possono accedere solo alla sottodirectory `public`. User-agent: * Disallow: / Allow: /public/
Bloccare un'immagine specifica su Google Immagini	Ad esempio, non consentire l'immagine `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Bloccare tutte le immagini del tuo sito su Google Immagini	Google non è in grado di indicizzare immagini e video senza eseguirne la scansione. User-agent: Googlebot-Image Disallow: /
Non consentire la scansione di un tipo di file specifico	Ad esempio, non consentire la scansione di tutti i file `.gif`. User-agent: Googlebot Disallow: /*.gif$
Non consentire la scansione di un intero sito, ma consentire `Mediapartners-Google`	Questa implementazione consente di non visualizzare le tue pagine nei risultati di ricerca, ma il web crawler `Mediapartners-Google` potrà comunque analizzarle per stabilire quali annunci mostrare ai visitatori del sito. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Utilizza i caratteri jolly `*` e `$` per applicare una regola agli URL che terminano con una stringa specifica	Ad esempio, non consentire tutti i file `.xls`. User-agent: Googlebot Disallow: /*.xls$