Przypomnienie o pliku robots.txt – elastycznym rozwiązaniu do kontrolowania sposobu indeksowania Twojej witryny przez roboty

Piątek, 7 marca 2025 roku

Plik robots.txt to narzędzie stosowane przez właścicieli witryn od ponad 30 lat. Jest ono szeroko obsługiwane przez operatorów robotów (np. narzędzia dla właścicieli witryn, usługi i wyszukiwarki). W tym wydaniu cyklu powtórek na temat pliku robots przyjrzymy się bliżej plikowi robots.txt jako elastycznemu sposobowi na informowanie robotów o tym, co mają robić (lub nie) w Twojej witrynie.

Pierwsze kroki z plikiem robots.txt

Ich działanie jest proste: tworzysz plik tekstowy o nazwie „robots.txt”, a potem przesyłasz go do swojej witryny. Jeśli korzystasz z systemu zarządzania treścią (CMS), jest to jeszcze łatwiejsze. Możesz pozostawić plik robots.txt pusty (lub nie mieć go w ogóle), jeśli cała witryna może być indeksowana, lub możesz dodać reguły, aby zarządzać indeksowaniem. Aby na przykład poinformować wszystkie boty (nazywane też robotami) o tym, że nie mogą korzystać ze strony „Dodaj do koszyka”, możesz w pliku robots.txt wpisać:

user-agent: *
disallow: /cart

Dokładniejsze informacje o tym, co możesz zrobić za pomocą pliku robots.txt

Plik robots.txt to szwajcarski scyzoryk, który pozwala określić, co różne roboty mają robić w Twojej witrynie, a czego nie mogą robić: może to być kilka linii kodu lub złożony plik z bardziej rozbudowanymi regułami, które kierują się na bardzo konkretne wzorce adresów URL. Pliku robots.txt możesz użyć do rozwiązania problemów technicznych (takich jak niepotrzebnie ponumerowane strony) lub z powodów redakcyjnych lub osobistych (np. gdy nie chcesz, aby robot indeksował określone treści). Możesz na przykład:

Poinformować kilka botów (ale nie wszystkie) o tej samej regule

Ta grupa mówi zarówno examplebot, jak i otherbot, aby nie używać ścieżki /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Poinformować jednego bota, aby unikał ścieżek zawierających określony fragment tekstu

Możesz na przykład powiedzieć documentsbot, aby nie indeksował żadnych plików, których nazwa zawiera ciąg „.pdf”.

user-agent: documentsbot
disallow: *.pdf

Poinformuj bota, że może indeksować Twój blog, ale nie wersje robocze

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Zablokować robota na części witryny, przy jednoczesnym zezwalaniu innym robotom na dostęp do witryny

Plik robots.txt uniemożliwia wspomnianemu robotowi aicorp-trainer-bot dostęp do czegokolwiek poza stroną główną, a za to zezwala innym robotom (np. wyszukiwarkom) na dostęp do witryny.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Dodawanie komentarza dla siebie w przyszłości

Możesz rozpocząć wiersz od #, aby przypomnieć sobie, dlaczego umieściłeś(-aś) tam daną regułę.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Więcej informacji znajdziesz na liście przydatnych reguł pliku robots.txt.

Wprowadzanie zmian w pliku robots.txt (praktycznie)

Protokół Robots Exclusion Protocol (REP) działa poprzez łączenie reguł („allow” lub „disallow”) i określanie, do których robotów mają one zastosowanie. Nie musisz się uczyć programowania ani bawić się narzędziami. Wystarczy, że zapiszesz te reguły w pliku tekstowym i prześlesz go do swojej witryny.

W przypadku większości witryn jest to jeszcze prostsze. Jeśli korzystasz z systemu CMS, zwykle zawiera on wbudowane funkcje ułatwiające zmianę pliku robots.txt. Niektóre systemy CMS umożliwiają na przykład dostosowanie pliku robots.txt za pomocą pól wyboru lub prostego formularza, a wiele z nich ma wtyczki, które pomagają skonfigurować i stworzyć reguły dla pliku robots.txt. Aby sprawdzić, co jest możliwe w Twoim systemie CMS, wyszukaj nazwę systemu CMS + „edytuj plik robots.txt”.

Po skonfigurowaniu możesz przetestować, czy plik jest skonfigurowany zgodnie z Twoimi oczekiwaniami. Istnieje wiele narzędzi do testowania stworzonych przez społeczność internetową, które mogą w tym pomóc, np. narzędzie do testowania pliku robots.txt TametheBots i ten parser pliku robots.txt, które korzystają z biblioteki parsera pliku robots.txt typu open source.

Jeśli masz pytania na temat pliku robots.txt, odwiedź naszą stronę na LinkedIn lub porozmawiaj z podobnymi do Ciebie ekspertami na forach społeczności.


Zobacz pozostałe odcinki serii odświeżającej wiadomości o tagu robots: