Regole utili per i file robots.txt
Di seguito alcune regole utili per i file robots.txt:
| Regole utili | |
|---|---|
| Non consentire la scansione dell'intero sito |
Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione. User-agent: * Disallow: / |
| Non consentire la scansione di una directory e dei relativi contenuti |
Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Consentire l'accesso a un singolo crawler |
Solo User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Consentire l'accesso a tutti i crawler tranne uno |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Non consentire la scansione di una singola pagina web |
Ad esempio, non consentire la pagina User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Non consentire la scansione dell'intero sito, tranne di una sottodirectory |
I crawler possono accedere solo alla sottodirectory User-agent: * Disallow: / Allow: /public/ |
|
Bloccare un'immagine specifica su Google Immagini |
Ad esempio, non consentire l'immagine User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Bloccare tutte le immagini del tuo sito su Google Immagini |
Google non è in grado di indicizzare immagini e video senza eseguirne la scansione. User-agent: Googlebot-Image Disallow: / |
|
Non consentire la scansione di un tipo di file specifico |
Ad esempio, non consentire la scansione di tutti i file User-agent: Googlebot Disallow: /*.gif$ |
|
Non consentire la scansione di un intero sito, ma consentire |
Questa implementazione consente di non visualizzare le tue pagine nei risultati di ricerca, ma il web crawler User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Utilizza i caratteri jolly * e $ per applicare una regola agli URL che terminano con una
stringa specifica
|
Ad esempio, non consentire tutti i file User-agent: Googlebot Disallow: /*.xls$ |