Przydatne reguły pliku robots.txt

Oto kilka częstych przydatnych reguł pliku robots.txt:

Przydatne reguły
Zakaz indeksowania całej witryny

Pamiętaj, że w niektórych sytuacjach adresy URL z witryny wciąż mogą być indeksowane, nawet gdy nie zostały przeskanowane.

User-agent: *
Disallow: /
Zakaz indeksowania katalogu i jego zawartości

Aby zablokować indeksowanie całego katalogu, dodaj do jego nazwy ukośnik.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Zezwolenie na dostęp jednemu robotowi

Tylko googlebot-news może zindeksować całą witrynę.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Zezwolenie na dostęp wszystkim robotom oprócz jednego

Unnecessarybot nie może indeksować witryny. Wszystkie inne roboty mogą.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Zakaz indeksowania jednej strony internetowej

Na przykład: zakaz indeksowania strony useless_file.html pod adresem https://example.com/useless_file.html i strony other_useless_file.html w katalogu junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Zakaz skanowania całej witryny z wyjątkiem podkatalogu

Roboty mają dostęp tylko do podkatalogu public.

User-agent: *
Disallow: /
Allow: /public/

Zakaz dostępu do konkretnego obrazu w Grafice Google

Na przykład: zakaz indeksowania obrazu dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Zakaz dostępu do wszystkich obrazów z Twojej witryny w Grafice Google

Google nie może indeksować obrazów ani filmów bez ich skanowania.

User-agent: Googlebot-Image
Disallow: /

Zakaz indeksowania plików określonego typu

Na przykład: zakaz indeksowania wszystkich plików .gif.

User-agent: Googlebot
Disallow: /*.gif$

Zakaz indeksowania całej witryny, ale z zezwoleniem dla robota Mediapartners-Google

Strony nie będą widoczne w wynikach wyszukiwania, ale robot Mediapartners-Google wciąż będzie mógł je analizować, aby wybierać reklamy do wyświetlenia użytkownikom witryny.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Użycie symboli wieloznacznych *$ w celu dopasowania adresów URL, które kończą się określonym ciągiem

Na przykład: zakaz indeksowania wszystkich plików .xls.

User-agent: Googlebot
Disallow: /*.xls$