Przydatne reguły pliku robots.txt
Oto kilka częstych przydatnych reguł pliku robots.txt:
| Przydatne reguły | |
|---|---|
| Zakaz indeksowania całej witryny |
Pamiętaj, że w niektórych sytuacjach adresy URL z witryny wciąż mogą być indeksowane, nawet gdy nie zostały przeskanowane. User-agent: * Disallow: / |
| Zakaz indeksowania katalogu i jego zawartości |
Aby zablokować indeksowanie całego katalogu, dodaj do jego nazwy ukośnik. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Zezwolenie na dostęp jednemu robotowi |
Tylko User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Zezwolenie na dostęp wszystkim robotom oprócz jednego |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Zakaz indeksowania jednej strony internetowej |
Na przykład: zakaz indeksowania strony User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Zakaz skanowania całej witryny z wyjątkiem podkatalogu |
Roboty mają dostęp tylko do podkatalogu User-agent: * Disallow: / Allow: /public/ |
|
Zakaz dostępu do konkretnego obrazu w Grafice Google |
Na przykład: zakaz indeksowania obrazu User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Zakaz dostępu do wszystkich obrazów z Twojej witryny w Grafice Google |
Google nie może indeksować obrazów ani filmów bez ich skanowania. User-agent: Googlebot-Image Disallow: / |
|
Zakaz indeksowania plików określonego typu |
Na przykład: zakaz indeksowania wszystkich plików User-agent: Googlebot Disallow: /*.gif$ |
|
Zakaz indeksowania całej witryny, ale z zezwoleniem dla robota |
Strony nie będą widoczne w wynikach wyszukiwania, ale robot User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Użycie symboli wieloznacznych * i $ w celu dopasowania adresów URL, które kończą się określonym ciągiem
|
Na przykład: zakaz indeksowania wszystkich plików User-agent: Googlebot Disallow: /*.xls$ |