Poniedziałek, 24 lutego 2025 roku
Od czasu do czasu dostajemy pytania o plik robots.txt, metatagi robots i funkcje kontroli, które oferuje. Po naszej grudniowej serii artykułów o indeksowaniu uznaliśmy, że to dobry moment na przypomnienie podstawowych informacji. Jeśli chcesz dowiedzieć się więcej o tych funkcjach, czytaj nową serię postów na blogu.
Zacznijmy od samego początku, czyli od pliku robots.txt.
Co to jest plik robots.txt?
Plik „robots.txt” to plik, który może udostępniać każda witryna. W najprostszej postaci jest to plik tekstowy przechowywany na serwerze. Prawie wszystkie witryny mają plik robots.txt.
Aby wyświetlić jeden z nich, dodaj /robots.txt
na końcu nazwy domeny, a potem otwórz tę stronę. Na przykład plik robots.txt tej witryny znajduje się pod adresem developers.google.com/robots.txt
.
Większość witryn korzysta z systemów zarządzania treścią (CMS), które tworzą te pliki automatycznie, ale nawet jeśli tworzysz witrynę „ręcznie”, utworzenie pliku jest proste. W kolejnych postach przyjrzymy się niektórym z tych opcji.
Do czego służą te pliki?
Pliki robots.txt informują roboty, które części witryny są dostępne dla automatycznego dostępu (nazywamy to indeksowaniem), a które nie. Umożliwia to witrynom uwzględnienie wszystkiego, od całej witryny po jej części lub nawet konkretne pliki. Pliki są czytelne dla komputera, ale też dla człowieka. Oznacza to, że zawsze można uzyskać jednoznaczną odpowiedź „tak” lub „nie” na pytanie, czy dana strona może być indeksowana automatycznie przez konkretnego robota.
Przestrzeganie tych dyrektyw to standardowa praktyka dla każdego, kto tworzy robota indeksującego. Jest to też łatwe dla dewelopera, ponieważ dostępnych jest ponad 1000 bibliotek open source. Plik zawiera instrukcje dla robotów indeksujących, które umożliwiają optymalne indeksowanie witryny. Nowoczesne witryny mogą być skomplikowane, a ich automatyczne nawigowanie może być trudne. Reguły w pliku robots.txt pomagają robotom skupić się na odpowiednich treściach. Pomaga to też robotom omijać strony generowane dynamicznie, które mogłyby obciążać serwer i niepotrzebnie zmniejszać skuteczność indeksowania. Ponieważ pliki robots.txt są przydatne pod względem technicznym i korzystne dla relacji z właścicielami witryn, większość operatorów komercyjnych robotów stosuje się do nich.
Tworzone i rozwijane przez użytkowników
Pliki robots.txt istnieją prawie od początku istnienia internetu i są jednym z podstawowych narzędzi, które umożliwiają prawidłowe działanie internetu. Język HTML, czyli podstawa stron internetowych, został wynaleziony w 1991 r., pierwsze przeglądarki pojawiły się w 1992 r., a plik robots.txt w 1994 r. Oznacza to, że są starsze niż firma Google, która powstała w 1998 r. Od tego czasu format nie uległ znacznym zmianom, a plik z wczesnych wersji nadal byłby prawidłowy. Po 3 latach zaangażowania globalnej społeczności w 2022 r. został on zaproponowany jako standard IETF.
Jeśli masz witrynę, prawdopodobnie masz też plik robots.txt. Istnieje żywa i aktywna społeczność związana z plikami robots.txt. Są też tysiące narzędzi programowych, które pomagają tworzyć i testować pliki robots.txt w różnych formatach oraz nimi zarządzać. Plik robots.txt ma jednak tę zaletę, że nie musisz używać wyszukanych narzędzi. Można go odczytać w przeglądarce, a w przypadku witryny, którą zarządzasz, możesz go dostosować w prostym edytorze tekstu.
Dobrze jest trzymać rękę na pulsie…
Format pliku robots.txt jest elastyczny. Jest miejsce na rozwój – społeczność internetowa może go rozwijać, a roboty mogą ogłaszać rozszerzenia w odpowiednich przypadkach bez zakłócania dotychczasowego sposobu korzystania. Stało się tak w 2007 r., gdy wyszukiwarki ogłosiły dyrektywę „sitemap”. Do podobnych zdarzeń dochodzi regularnie, ponieważ operatorzy robotów i wyszukiwarki zaczynają obsługiwać nowe „klienty użytkowników”, np. te używane do celów związanych z AI.
Plik robots.txt jest już na stałe. Nowe formaty plików wymagają kilku lat, aby zostały sfinalizowane przez szerszą społeczność internetową, a odpowiednie narzędzia, które sprawią, że będą one przydatne w ekosystemie, potrzebują jeszcze więcej czasu. Plik jest łatwy, szczegółowy i wyrazisty, dobrze rozumiany i akceptowany, a co najważniejsze – działa, tak jak działał przez ostatnie dziesięciolecia.
Chcesz dowiedzieć się więcej? Obserwuj blog Centrum wyszukiwarki, aby nie przegapić kolejnych odcinków serii o tagu robots.