Przydatne reguły pliku robots.txt

Oto kilka częstych przydatnych reguł pliku robots.txt:

Przydatne reguły
Zakaz indeksowania całej witryny	Pamiętaj, że w niektórych sytuacjach adresy URL z witryny wciąż mogą być indeksowane, nawet gdy nie zostały przeskanowane. Uwaga: nie dotyczy to różnych robotów AdsBot, które należy wyraźnie wskazać. User-agent: * Disallow: /
Zakaz indeksowania katalogu i jego zawartości	Aby zablokować indeksowanie całego katalogu, dodaj do jego nazwy ukośnik. Uwaga: pamiętaj, żeby nie używać pliku robots.txt do blokowania dostępu do treści prywatnych. Zamiast tego zastosuj prawidłowe uwierzytelnianie. Adresy URL zabronione w pliku robots.txt wciąż mogą być indeksowane bez skanowania, a plik robots.txt jest publicznie dostępny i może spowodować ujawnienie lokalizacji treści prywatnych. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Zezwolenie na dostęp jednemu robotowi	Tylko `googlebot-news` może zindeksować całą witrynę. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Zezwolenie na dostęp wszystkim robotom oprócz jednego	`Unnecessarybot` nie może indeksować witryny. Wszystkie inne roboty mogą. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Zakaz indeksowania jednej strony internetowej	Na przykład: zakaz indeksowania strony `useless_file.html` pod adresem `https://example.com/useless_file.html` i strony `other_useless_file.html` w katalogu `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Zakaz skanowania całej witryny z wyjątkiem podkatalogu	Roboty mają dostęp tylko do podkatalogu `public`. User-agent: * Disallow: / Allow: /public/
Zakaz dostępu do konkretnego obrazu w Grafice Google	Na przykład: zakaz indeksowania obrazu `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Zakaz dostępu do wszystkich obrazów z Twojej witryny w Grafice Google	Google nie może indeksować obrazów ani filmów bez ich skanowania. User-agent: Googlebot-Image Disallow: /
Zakaz indeksowania plików określonego typu	Na przykład: zakaz indeksowania wszystkich plików `.gif`. User-agent: Googlebot Disallow: /*.gif$
Zakaz indeksowania całej witryny, ale z zezwoleniem dla robota `Mediapartners-Google`	Strony nie będą widoczne w wynikach wyszukiwania, ale robot `Mediapartners-Google` wciąż będzie mógł je analizować, aby wybierać reklamy do wyświetlenia użytkownikom witryny. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Użycie symboli wieloznacznych `*` i `$` w celu dopasowania adresów URL, które kończą się określonym ciągiem	Na przykład: zakaz indeksowania wszystkich plików `.xls`. User-agent: Googlebot Disallow: /*.xls$