Przypomnienie o pliku robots.txt – elastycznym rozwiązaniu do kontrolowania sposobu indeksowania Twojej witryny przez roboty

Piątek, 7 marca 2025 roku

Plik robots.txt to narzędzie stosowane przez właścicieli witryn od ponad 30 lat. Jest ono szeroko obsługiwane przez operatorów robotów (np. narzędzia dla właścicieli witryn, usługi i wyszukiwarki). W tym wydaniu cyklu powtórek na temat pliku robots przyjrzymy się bliżej plikowi robots.txt jako elastycznemu sposobowi na informowanie robotów o tym, co mają robić (lub nie) w Twojej witrynie.

Pierwsze kroki z plikiem robots.txt

Ich działanie jest proste: tworzysz plik tekstowy o nazwie „robots.txt”, a potem przesyłasz go do swojej witryny. Jeśli korzystasz z systemu zarządzania treścią (CMS), jest to jeszcze łatwiejsze. Możesz pozostawić plik robots.txt pusty (lub nie mieć go w ogóle), jeśli cała witryna może być indeksowana, lub możesz dodać reguły, aby zarządzać indeksowaniem. Aby na przykład poinformować wszystkie boty (nazywane też robotami) o tym, że nie mogą korzystać ze strony „Dodaj do koszyka”, możesz w pliku robots.txt wpisać:

user-agent: *
disallow: /cart

Dokładniejsze informacje o tym, co możesz zrobić za pomocą pliku robots.txt

Plik robots.txt to szwajcarski scyzoryk, który pozwala określić, co różne roboty mają robić w Twojej witrynie, a czego nie mogą robić: może to być kilka linii kodu lub złożony plik z bardziej rozbudowanymi regułami, które kierują się na bardzo konkretne wzorce adresów URL. Pliku robots.txt możesz użyć do rozwiązania problemów technicznych (takich jak niepotrzebnie ponumerowane strony) lub z powodów redakcyjnych lub osobistych (np. gdy nie chcesz, aby robot indeksował określone treści). Możesz na przykład:

Poinformować kilka botów (ale nie wszystkie) o tej samej regule Ta grupa mówi zarówno `examplebot`, jak i `otherbot`, aby nie używać ścieżki `/search`.	user-agent: examplebot user-agent: otherbot disallow: /search
Poinformować jednego bota, aby unikał ścieżek zawierających określony fragment tekstu Możesz na przykład powiedzieć `documentsbot`, aby nie indeksował żadnych plików, których nazwa zawiera ciąg „.pdf”.	user-agent: documentsbot disallow: *.pdf
Poinformuj bota, że może indeksować Twój blog, ale nie wersje robocze	user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
Zablokować robota na części witryny, przy jednoczesnym zezwalaniu innym robotom na dostęp do witryny Plik robots.txt uniemożliwia wspomnianemu robotowi `aicorp-trainer-bot` dostęp do czegokolwiek poza stroną główną, a za to zezwala innym robotom (np. wyszukiwarkom) na dostęp do witryny.	user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
Dodawanie komentarza dla siebie w przyszłości Możesz rozpocząć wiersz od `#`, aby przypomnieć sobie, dlaczego umieściłeś(-aś) tam daną regułę.	# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/

Więcej informacji znajdziesz na liście przydatnych reguł pliku robots.txt.

Wprowadzanie zmian w pliku robots.txt (praktycznie)

Protokół Robots Exclusion Protocol (REP) działa poprzez łączenie reguł („allow” lub „disallow”) i określanie, do których robotów mają one zastosowanie. Nie musisz się uczyć programowania ani bawić się narzędziami. Wystarczy, że zapiszesz te reguły w pliku tekstowym i prześlesz go do swojej witryny.

W przypadku większości witryn jest to jeszcze prostsze. Jeśli korzystasz z systemu CMS, zwykle zawiera on wbudowane funkcje ułatwiające zmianę pliku robots.txt. Niektóre systemy CMS umożliwiają na przykład dostosowanie pliku robots.txt za pomocą pól wyboru lub prostego formularza, a wiele z nich ma wtyczki, które pomagają skonfigurować i stworzyć reguły dla pliku robots.txt. Aby sprawdzić, co jest możliwe w Twoim systemie CMS, wyszukaj nazwę systemu CMS + „edytuj plik robots.txt”.

Po skonfigurowaniu możesz przetestować, czy plik jest skonfigurowany zgodnie z Twoimi oczekiwaniami. Istnieje wiele narzędzi do testowania stworzonych przez społeczność internetową, które mogą w tym pomóc, np. narzędzie do testowania pliku robots.txt TametheBots i ten parser pliku robots.txt, które korzystają z biblioteki parsera pliku robots.txt typu open source.

Jeśli masz pytania na temat pliku robots.txt, odwiedź naszą stronę na LinkedIn lub porozmawiaj z podobnymi do Ciebie ekspertami na forach społeczności.

Autorzy: Martin Splitt i John Mueller, zespół Search Relations

Przypomnienie o pliku robots.txt – elastycznym rozwiązaniu do kontrolowania sposobu indeksowania Twojej witryny przez roboty Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Pierwsze kroki z plikiem robots.txt

Dokładniejsze informacje o tym, co możesz zrobić za pomocą pliku robots.txt

Wprowadzanie zmian w pliku robots.txt (praktycznie)

Zobacz pozostałe odcinki serii odświeżającej wiadomości o tagu robots:

Przypomnienie o pliku robots.txt – elastycznym rozwiązaniu do kontrolowania sposobu indeksowania Twojej witryny przez roboty