Plik robots.txt
informuje wyszukiwarki, które strony w Twojej witrynie mogą zindeksować. Nieprawidłowa konfiguracja robots.txt
może powodować 2 rodzaje problemów:
- Może uniemożliwiać indeksowanie stron publicznych przez wyszukiwarki, przez co Twoje treści rzadziej wyświetlają się w wynikach wyszukiwania.
- Może to spowodować, że wyszukiwarki będą indeksować strony, których nie chcesz widzieć w wynikach wyszukiwania.
Co się dzieje z audytem Lighthouse robots.txt
Nieprawidłowe pliki flagi Lighthouse (robots.txt
):
Rozwiń raport z kontroli robots.txt
jest nieprawidłowy, aby dowiedzieć się, co jest nie tak z robots.txt
.
Typowe błędy:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse nie sprawdza, czy plik robots.txt
znajduje się we właściwej lokalizacji. Aby działać prawidłowo, plik musi znajdować się w katalogu głównym domeny lub subdomeny.
Rozwiązywanie problemów z usługą robots.txt
Upewnij się, że robots.txt
nie zwraca kodu stanu HTTP 5XX
Jeśli serwer zwróci błąd serwera (kod stanu HTTP z przeszłości 500 sekund) dla adresu robots.txt
, wyszukiwarki nie dowiedzą się, które strony powinny zostać zindeksowane. Mogą one przestać indeksować całą witrynę, co uniemożliwi indeksowanie nowych treści.
Aby sprawdzić kod stanu HTTP, otwórz robots.txt
w Chrome i sprawdź żądanie w Narzędziach deweloperskich w Chrome.
Plik robots.txt
powinien być mniejszy niż 500 KiB
Jeśli rozmiar pliku przekracza 500 KiB, wyszukiwarki mogą w trakcie jego przetwarzania przestać przetwarzać plik robots.txt
. Może to dezorientować wyszukiwarkę, powodując nieprawidłowe indeksowanie witryny.
Jeśli chcesz, aby element robots.txt
był mały, nie skupiaj się w mniejszym stopniu na poszczególnych wykluczonych stronach, a nie na ogólnych wzorcach. Jeśli na przykład chcesz zablokować indeksowanie plików PDF, nie zezwalaj na poszczególne pliki. Zamiast tego zablokuj wszystkie adresy URL zawierające ciąg .pdf
za pomocą parametru disallow: /*.pdf
.
Napraw wszystkie błędy formatu
- W polu
robots.txt
dozwolone są tylko puste wiersze, komentarze i dyrektywy zgodne z formatem „nazwa: wartość”. - Upewnij się, że wartości
allow
idisallow
są puste lub zaczynają się od/
albo*
. - Nie używaj symbolu
$
w środku wartości (np.allow: /file$html
).
Upewnij się, że pole user-agent
ma wartość
Nazwy klientów użytkownika informują roboty wyszukiwarek, które dyrektywy mają postępować. Musisz podać wartość każdego wystąpienia parametru user-agent
, aby wyszukiwarki wiedziały, czy stosować powiązany z nim zestaw dyrektyw.
Aby wskazać konkretnego robota wyszukiwarki, użyj nazwy klienta użytkownika z jego opublikowanej listy. Oto przykładowa lista klientów użytkownika używanych do indeksowania przez Google.
Użyj operatora *
, aby dopasować wszystkie roboty, które nie są do niego dopasowane.
user-agent: disallow: /downloads/
Nie zdefiniowano klienta użytkownika.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Zdefiniowano ogólnego klienta użytkownika i klienta użytkownika magicsearchbot
.
Upewnij się, że przed user-agent
nie ma dyrektyw allow
ani disallow
Nazwy klientów użytkownika określają sekcje pliku robots.txt
. Roboty wyszukiwarek używają tych sekcji do określenia, które dyrektywy należy zastosować. Umieszczenie dyrektywy przed pierwszą nazwą klienta użytkownika oznacza, że żadne roboty nie będą jej śledzić.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Żaden robot wyszukiwarki nie odczyta dyrektywy disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Wszystkie wyszukiwarki nie mogą indeksować folderu /downloads
.
Roboty wyszukiwarek przestrzegają tylko dyrektyw z sekcji zawierającej najbardziej konkretną nazwę klienta użytkownika. Jeśli np. masz dyrektywy user-agent: *
i user-agent: Googlebot-Image
, Googlebot Grafika w przeglądarce będzie przestrzegać tylko tych z sekcji user-agent: Googlebot-Image
.
Podaj bezwzględny URL dla elementu sitemap
Pliki mapy witryny to świetny sposób na informowanie wyszukiwarek o stronach w witrynie. Plik mapy witryny zwykle zawiera listę adresów URL w witrynie wraz z informacjami o czasie ich ostatniej zmiany.
Jeśli zdecydujesz się przesłać plik mapy witryny w robots.txt
, pamiętaj, by użyć bezwzględnego adresu URL.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml