Piątek, 7 marca 2025 roku
Plik robots.txt to narzędzie stosowane przez właścicieli witryn od ponad 30 lat. Jest ono szeroko obsługiwane przez operatorów robotów (np. narzędzia dla właścicieli witryn, usługi i wyszukiwarki). W tym wydaniu cyklu powtórek na temat pliku robots przyjrzymy się bliżej plikowi robots.txt jako elastycznemu sposobowi na informowanie robotów o tym, co mają robić (lub nie) w Twojej witrynie.
Pierwsze kroki z plikiem robots.txt
Ich działanie jest proste: tworzysz plik tekstowy o nazwie „robots.txt”, a potem przesyłasz go do swojej witryny. Jeśli korzystasz z systemu zarządzania treścią (CMS), jest to jeszcze łatwiejsze. Możesz pozostawić plik robots.txt pusty (lub nie mieć go w ogóle), jeśli cała witryna może być indeksowana, lub możesz dodać reguły, aby zarządzać indeksowaniem. Aby na przykład poinformować wszystkie boty (nazywane też robotami) o tym, że nie mogą korzystać ze strony „Dodaj do koszyka”, możesz w pliku robots.txt wpisać:
user-agent: * disallow: /cart
Dokładniejsze informacje o tym, co możesz zrobić za pomocą pliku robots.txt
Plik robots.txt to szwajcarski scyzoryk, który pozwala określić, co różne roboty mają robić w Twojej witrynie, a czego nie mogą robić: może to być kilka linii kodu lub złożony plik z bardziej rozbudowanymi regułami, które kierują się na bardzo konkretne wzorce adresów URL. Pliku robots.txt możesz użyć do rozwiązania problemów technicznych (takich jak niepotrzebnie ponumerowane strony) lub z powodów redakcyjnych lub osobistych (np. gdy nie chcesz, aby robot indeksował określone treści). Możesz na przykład:
Poinformować kilka botów (ale nie wszystkie) o tej samej regule
Ta grupa mówi zarówno |
user-agent: examplebot user-agent: otherbot disallow: /search |
Poinformować jednego bota, aby unikał ścieżek zawierających określony fragment tekstu
Możesz na przykład powiedzieć |
user-agent: documentsbot disallow: *.pdf |
Poinformuj bota, że może indeksować Twój blog, ale nie wersje robocze |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Zablokować robota na części witryny, przy jednoczesnym zezwalaniu innym robotom na dostęp do witryny
Plik robots.txt uniemożliwia wspomnianemu robotowi |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Dodawanie komentarza dla siebie w przyszłości
Możesz rozpocząć wiersz od |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Więcej informacji znajdziesz na liście przydatnych reguł pliku robots.txt.
Wprowadzanie zmian w pliku robots.txt (praktycznie)
Protokół Robots Exclusion Protocol (REP) działa poprzez łączenie reguł („allow” lub „disallow”) i określanie, do których robotów mają one zastosowanie. Nie musisz się uczyć programowania ani bawić się narzędziami. Wystarczy, że zapiszesz te reguły w pliku tekstowym i prześlesz go do swojej witryny.
W przypadku większości witryn jest to jeszcze prostsze. Jeśli korzystasz z systemu CMS, zwykle zawiera on wbudowane funkcje ułatwiające zmianę pliku robots.txt. Niektóre systemy CMS umożliwiają na przykład dostosowanie pliku robots.txt za pomocą pól wyboru lub prostego formularza, a wiele z nich ma wtyczki, które pomagają skonfigurować i stworzyć reguły dla pliku robots.txt. Aby sprawdzić, co jest możliwe w Twoim systemie CMS, wyszukaj nazwę systemu CMS + „edytuj plik robots.txt”.
Po skonfigurowaniu możesz przetestować, czy plik jest skonfigurowany zgodnie z Twoimi oczekiwaniami. Istnieje wiele narzędzi do testowania stworzonych przez społeczność internetową, które mogą w tym pomóc, np. narzędzie do testowania pliku robots.txt TametheBots i ten parser pliku robots.txt, które korzystają z biblioteki parsera pliku robots.txt typu open source.
Jeśli masz pytania na temat pliku robots.txt, odwiedź naszą stronę na LinkedIn lub porozmawiaj z podobnymi do Ciebie ekspertami na forach społeczności.