Tag robots – odświeżenie wiadomości: szczegółowość na poziomie strony

Piątek, 14 marca 2025 roku

Plik robots.txt umożliwia właścicielom witryn łatwe kontrolowanie, które części witryny są dostępne dla robotów. Aby pomóc właścicielom witryn w dokładniejszym określaniu sposobu, w jaki wyszukiwarki i roboty internetowe mogą korzystać z ich stron, społeczność zajmująca się opracowywaniem standardów internetowych w 1996 r. wprowadziła tagi robots meta zaledwie kilka miesięcy po zaproponowaniu tagów meta do HTML (i co ciekawe, jeszcze przed założeniem Google). Później dodano nagłówki odpowiedzi HTTP X-Robots-Tag. Te instrukcje są wysyłane razem z adresem URL, więc roboty mogą je wziąć pod uwagę tylko wtedy, gdy nie plik robots.txt nie zabrania im indeksowania danego adresu URL. Razem tworzą one protokół Robots Exclusion Protocol (REP).

Tagi robots `meta`

Metatagi (lub elementy) to sposób na uwzględnienie metadanych zrozumiałych dla komputerów. Tagi robots meta to jeden z rodzajów tagów meta, które obowiązują roboty, w tym roboty wyszukiwarek. Sygnalizują one: czy treści są zablokowane pod kątem indeksowania? Czy robot powinien nie podążać za linkami na stronie? Te informacje można łatwo podać na stronie za pomocą tagów robots meta.

Robots Exclusion Protocol dla dowolnego adresu URL

Aby zapewnić taki sam poziom kontroli treści niebędących w formacie HTML, utworzono nagłówek odpowiedzi HTTP „X-Robots-Tag”. Te nagłówki HTTP również są uznawane za część REP. Nagłówek obsługuje te same wartości co tag robots meta i może być dodawany do dowolnego rodzaju treści wyświetlanych online. Oprócz HTML-a Google obsługuje go też w innych formatach, np. PDF, plikach dokumentów czy obrazach. Większość z tych formatów plików nie ma mechanizmu odpowiadającego tagom meta, dlatego warto użyć nagłówka odpowiedzi HTTP.

Pierwsze kroki z tagami i nagłówkami robots `meta`

Składnia jest prosta i rozszerzalna. Zasady są zwykle wdrażane przez programistę stron internetowych lub za pomocą systemu zarządzania treścią (CMS), w którym właściciele witryn mogą mieć pola wyboru lub menu, aby wybrać preferencje. Te ustawienia mogą dotyczyć konkretnego robota, np. Googlebota, lub, jeśli nie podasz nazwy, wszystkich robotów obsługujących te wartości.

Na przykład poniższe reguły informują wszystkie roboty, aby nie indeksowały powiązanej strony:

W postaci tagu HTML meta na stronie internetowej:
```
<meta name="robots" content="noindex">
```
Sprawdzanie dotychczasowych tagów meta lub nagłówków odpowiedzi jest nieco bardziej skomplikowane i wymaga bezpośredniego sprawdzenia treści lub nagłówków strony. Tagi HTML meta możesz wyświetlać na dowolnej stronie, przeglądając jej kod źródłowy w przeglądarce lub używając narzędzi dla programistów w Chrome, aby przeanalizować tę stronę.
W postaci nagłówka odpowiedzi HTTP:
```
X-Robots-Tag: noindex
```
Nagłówki odpowiedzi HTTP poszczególnych adresów URL możesz sprawdzić w narzędziach dla programistów w Chrome, na panelu sieci.

Inne przykłady tego, co możesz zrobić:

Nie wyświetlaj krótkiego opisu tej strony lub dokumentu.

W nagłówku HTTP:

X-Robots-Tag: nosnippet

lub w HTML:

<meta name="robots" content="nosnippet">

Nie indeksuj tej strony w ExampleBot-News, nie wskazując preferencji dla innych stron.

Te ustawienia określają jednoznacznie jednego robota.

X-Robots-Tag: examplebot-news: noindex

lub

<meta name="examplebot-news" content="noindex">

ExampleBot nie powinien wyświetlać fragmentu. Ponadto roboty nie powinny śledzić linków na tej stronie.

Pamiętaj, że stosowane są najbardziej restrykcyjne, prawidłowe dyrektywy, więc w przypadku ExampleBot dyrektywa zostałaby połączona jako „nosnippet, nofollow”.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow

lub

<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Wybieranie mechanizmu REP

Jak wybrać, którego użyć? Podstawowe ustawienia w pliku robots.txt i na poziomie strony są podobne, ale nie można ich całkowicie wzajemnie zastępować. Czasami określone działanie jest możliwe tylko za pomocą jednego z tych mechanizmów, np. jeśli chcesz zatrzymać indeksowanie (np. w przypadku niekończących się stron z wynikami wyszukiwania, co jest możliwe za pomocą pliku robots.txt), jeśli chcesz kontrolować serwer FTP (co jest możliwe za pomocą pliku robots.txt), lub jeśli chcesz, aby na stronie nie wyświetlał się fragment (co jest możliwe tylko za pomocą elementów na poziomie strony). Jeśli nie musisz rozróżniać blokowania skanowania i blokowania indeksowania, możesz użyć pliku robots.txt do stosowania ogólnych ustawień (blokowania dużych części witryny) i ustawień na poziomie strony do blokowania poszczególnych stron.

Robots Exclusion Protocol – skuteczny, elastyczny standard

Wszystkie te mechanizmy kontroli są rozszerzalne. W ciągu tych lat właściciele witryn, operatorzy robotów i programiści wyszukiwarki współpracowali ze sobą, aby je ulepszać. Początkowo było to kilka wartości, w tym noindex i nofollow, a później dodano więcej wartości, takich jak nosnippet, noarchive i max-snippet:. Czasami też wartości są wycofywane, jak w przypadku parametru noodp, który przed zamknięciem katalogu używał fragmentów z DMOZ / Open Directory Project. Google udostępnia właścicielom witryn wiele wartości, a podobną liczbę udostępniają też inni więksi operatorzy robotów.

W ramach REP właściciele witryn mają kontrolę nad tym, co jest indeksowane, i jak indeksowane dane są wykorzystywane w wyszukiwarkach. Mogą to robić ogólnie w przypadku większych części witryn lub bardzo szczegółowo, np. w przypadku pojedynczych stron czy obrazów na stronach. Te mechanizmy są dobrze znane, dostępne we wszystkich popularnych systemach zarządzania treścią, szeroko obsługiwane przez operatorów komercyjnych i używane w miliardach hostów w internecie.

Autor: John Mueller z zespołu Search Relations

Tag robots – odświeżenie wiadomości: szczegółowość na poziomie strony Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Tagi robots meta