Regole utili per i file robots.txt

Di seguito alcune regole utili per i file robots.txt:

Regole utili
Non consentire la scansione dell'intero sito

Ricorda che, in alcune situazioni, gli URL del sito potrebbero essere comunque indicizzati, anche se non sono stati sottoposti a scansione.

User-agent: *
Disallow: /
Consentire la scansione di un intero sito (con una regola Disallow vuota)

In questo modo, tutti i crawler possono accedere esplicitamente all'intero sito. È funzionalmente equivalente a non avere alcun file robots.txt o a utilizzare una regola Allow: /.

User-agent: *
Disallow:
Non consentire la scansione di una directory e dei relativi contenuti

Aggiungi una barra al nome della directory per impedire la scansione di un'intera directory.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Non consentire la scansione di una singola pagina web

Ad esempio, non consentire la pagina useless_file.html in https://example.com/useless_file.html e other_useless_file.html nella directory junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Non consentire la scansione dell'intero sito, tranne di una sottodirectory

I crawler possono accedere solo alla sottodirectory public.

User-agent: *
Disallow: /
Allow: /public/
Consentire l'accesso a un singolo crawler

Solo Googlebot-News può eseguire la scansione dell'intero sito.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Consentire l'accesso a tutti i crawler tranne uno

Unnecessarybot non può eseguire la scansione del sito, tutti gli altri bot possono farlo.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Non consentire la scansione di un intero sito, ma consentire Storebot-Google

Questa implementazione consente di non visualizzare le tue pagine nei risultati della Ricerca Google, ma il web crawler Storebot-Google potrà comunque analizzarle per mostrare i tuoi prodotti su Google Shopping.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Bloccare tutte le immagini del tuo sito su Google (inclusi tutte le posizioni in cui vengono visualizzate le immagini su Google, tra cui Google Immagini e Feed personalizzato)

Google non è in grado di indicizzare immagini e video senza eseguirne la scansione.

User-agent: Googlebot-Image
Disallow: /

Bloccare un'immagine specifica su Google Immagini

Ad esempio, non consentire l'immagine dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Non consentire la scansione di un tipo di file specifico

Ad esempio, non consentire la scansione di tutti i file .gif.

User-agent: Googlebot
Disallow: /*.gif$
Utilizzare i caratteri jolly * e $ per trovare una corrispondenza con gli URL che terminano con una stringa specifica

Ad esempio, non consentire tutti i file .xls.

User-agent: Googlebot
Disallow: /*.xls$
Combinare più user agent in un unico gruppo

Il raggruppamento delle regole per più crawler in un unico gruppo rende il file più breve e più facile da gestire, in quanto tutte le regole del gruppo si applicano a ogni user agent elencato. È come elencare due volte gli user agent con le rispettive regole.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /