Regole utili per i file robots.txt

Di seguito alcune regole utili per i file robots.txt:

Regole utili
Non consentire la scansione dell'intero sito

Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione.

User-agent: *
Disallow: /
Non consentire la scansione di una directory e dei relativi contenuti

Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Consentire l'accesso a un singolo crawler

Solo googlebot-news può eseguire la scansione dell'intero sito.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Consentire l'accesso a tutti i crawler tranne uno

Unnecessarybot non può eseguire la scansione del sito, tutti gli altri bot possono farlo.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Non consentire la scansione di una singola pagina web

Ad esempio, non consentire la pagina useless_file.html in https://example.com/useless_file.html e other_useless_file.html nella directory junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Non consentire la scansione dell'intero sito, tranne di una sottodirectory

I crawler possono accedere solo alla sottodirectory public.

User-agent: *
Disallow: /
Allow: /public/

Bloccare un'immagine specifica su Google Immagini

Ad esempio, non consentire l'immagine dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloccare tutte le immagini del tuo sito su Google Immagini

Google non è in grado di indicizzare immagini e video senza eseguirne la scansione.

User-agent: Googlebot-Image
Disallow: /

Non consentire la scansione di un tipo di file specifico

Ad esempio, non consentire la scansione di tutti i file .gif.

User-agent: Googlebot
Disallow: /*.gif$

Non consentire la scansione di un intero sito, ma consentire Mediapartners-Google

Questa implementazione consente di non visualizzare le tue pagine nei risultati di ricerca, ma il web crawler Mediapartners-Google potrà comunque analizzarle per stabilire quali annunci mostrare ai visitatori del sito.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Utilizza i caratteri jolly * e $ per applicare una regola agli URL che terminano con una stringa specifica

Ad esempio, non consentire tutti i file .xls.

User-agent: Googlebot
Disallow: /*.xls$