Piątek, 14 marca 2025 roku
Plik robots.txt umożliwia właścicielom witryn łatwe kontrolowanie, które części witryny są dostępne dla robotów.
Aby pomóc właścicielom witryn w dokładniejszym określaniu sposobu, w jaki wyszukiwarki i roboty internetowe mogą korzystać z ich stron, społeczność zajmująca się opracowywaniem standardów internetowych w 1996 r. wprowadziła tagi robots meta
zaledwie kilka miesięcy po zaproponowaniu tagów meta
do HTML (i co ciekawe, jeszcze przed założeniem Google). Później dodano nagłówki odpowiedzi HTTP X-Robots-Tag
.
Te instrukcje są wysyłane razem z adresem URL, więc roboty mogą je wziąć pod uwagę tylko wtedy, gdy nie plik robots.txt nie zabrania im indeksowania danego adresu URL. Razem tworzą one protokół Robots Exclusion Protocol (REP).
Tagi robots meta
Metatagi (lub elementy) to sposób na uwzględnienie metadanych zrozumiałych dla komputerów.
Tagi robots meta
to jeden z rodzajów tagów meta
, które obowiązują roboty, w tym roboty wyszukiwarek. Sygnalizują one: czy treści są zablokowane pod kątem indeksowania? Czy robot powinien nie podążać za linkami na stronie? Te informacje można łatwo podać na stronie za pomocą tagów robots meta
.
Robots Exclusion Protocol dla dowolnego adresu URL
Aby zapewnić taki sam poziom kontroli treści niebędących w formacie HTML, utworzono nagłówek odpowiedzi HTTP „X-Robots-Tag
”. Te nagłówki HTTP również są uznawane za część REP.
Nagłówek obsługuje te same wartości co tag robots meta
i może być dodawany do dowolnego rodzaju treści wyświetlanych online.
Oprócz HTML-a Google obsługuje go też w innych formatach, np. PDF, plikach dokumentów czy obrazach.
Większość z tych formatów plików nie ma mechanizmu odpowiadającego tagom meta
, dlatego warto użyć nagłówka odpowiedzi HTTP.
Pierwsze kroki z tagami i nagłówkami robots meta
Składnia jest prosta i rozszerzalna. Zasady są zwykle wdrażane przez programistę stron internetowych lub za pomocą systemu zarządzania treścią (CMS), w którym właściciele witryn mogą mieć pola wyboru lub menu, aby wybrać preferencje. Te ustawienia mogą dotyczyć konkretnego robota, np. Googlebota, lub, jeśli nie podasz nazwy, wszystkich robotów obsługujących te wartości.
Na przykład poniższe reguły informują wszystkie roboty, aby nie indeksowały powiązanej strony:
- W postaci tagu HTML
meta
na stronie internetowej:<meta name="robots" content="noindex">
Sprawdzanie dotychczasowych tagów
meta
lub nagłówków odpowiedzi jest nieco bardziej skomplikowane i wymaga bezpośredniego sprawdzenia treści lub nagłówków strony. Tagi HTMLmeta
możesz wyświetlać na dowolnej stronie, przeglądając jej kod źródłowy w przeglądarce lub używając narzędzi dla programistów w Chrome, aby przeanalizować tę stronę.
- W postaci nagłówka odpowiedzi HTTP:
X-Robots-Tag: noindex
Nagłówki odpowiedzi HTTP poszczególnych adresów URL możesz sprawdzić w narzędziach dla programistów w Chrome, na panelu sieci.
Inne przykłady tego, co możesz zrobić:
Nie wyświetlaj krótkiego opisu tej strony lub dokumentu. |
W nagłówku HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Nie indeksuj tej strony w Te ustawienia określają jednoznacznie jednego robota. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Pamiętaj, że stosowane są najbardziej restrykcyjne, prawidłowe dyrektywy, więc w przypadku |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Wybieranie mechanizmu REP
Jak wybrać, którego użyć? Podstawowe ustawienia w pliku robots.txt i na poziomie strony są podobne, ale nie można ich całkowicie wzajemnie zastępować. Czasami określone działanie jest możliwe tylko za pomocą jednego z tych mechanizmów, np. jeśli chcesz zatrzymać indeksowanie (np. w przypadku niekończących się stron z wynikami wyszukiwania, co jest możliwe za pomocą pliku robots.txt), jeśli chcesz kontrolować serwer FTP (co jest możliwe za pomocą pliku robots.txt), lub jeśli chcesz, aby na stronie nie wyświetlał się fragment (co jest możliwe tylko za pomocą elementów na poziomie strony). Jeśli nie musisz rozróżniać blokowania skanowania i blokowania indeksowania, możesz użyć pliku robots.txt do stosowania ogólnych ustawień (blokowania dużych części witryny) i ustawień na poziomie strony do blokowania poszczególnych stron.
Robots Exclusion Protocol – skuteczny, elastyczny standard
Wszystkie te mechanizmy kontroli są rozszerzalne. W ciągu tych lat właściciele witryn, operatorzy robotów i programiści wyszukiwarki współpracowali ze sobą, aby je ulepszać.
Początkowo było to kilka wartości, w tym noindex
i nofollow
, a później dodano więcej wartości, takich jak nosnippet
, noarchive
i max-snippet:
.
Czasami też wartości są wycofywane, jak w przypadku parametru noodp
, który przed zamknięciem katalogu używał fragmentów z DMOZ / Open Directory Project.
Google udostępnia właścicielom witryn wiele wartości, a podobną liczbę udostępniają też inni więksi operatorzy robotów.
W ramach REP właściciele witryn mają kontrolę nad tym, co jest indeksowane, i jak indeksowane dane są wykorzystywane w wyszukiwarkach. Mogą to robić ogólnie w przypadku większych części witryn lub bardzo szczegółowo, np. w przypadku pojedynczych stron czy obrazów na stronach. Te mechanizmy są dobrze znane, dostępne we wszystkich popularnych systemach zarządzania treścią, szeroko obsługiwane przez operatorów komercyjnych i używane w miliardach hostów w internecie.