Plik robots.txt jest nieprawidłowy

Plik robots.txt informuje wyszukiwarki, które strony w Twojej witrynie mogą zindeksować. Nieprawidłowa konfiguracja robots.txt może powodować 2 rodzaje problemów:

  • Może uniemożliwiać indeksowanie stron publicznych przez wyszukiwarki, przez co Twoje treści rzadziej wyświetlają się w wynikach wyszukiwania.
  • Może to spowodować, że wyszukiwarki będą indeksować strony, których nie chcesz widzieć w wynikach wyszukiwania.

Co się dzieje z audytem Lighthouse robots.txt

Nieprawidłowe pliki flagi Lighthouse (robots.txt):

Kontrola Lighthouse pokazująca nieprawidłowy plik robots.txt

Rozwiń raport z kontroli robots.txt jest nieprawidłowy, aby dowiedzieć się, co jest nie tak z robots.txt.

Typowe błędy:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse nie sprawdza, czy plik robots.txt znajduje się we właściwej lokalizacji. Aby działać prawidłowo, plik musi znajdować się w katalogu głównym domeny lub subdomeny.

Rozwiązywanie problemów z usługą robots.txt

Upewnij się, że robots.txt nie zwraca kodu stanu HTTP 5XX

Jeśli serwer zwróci błąd serwera (kod stanu HTTP z przeszłości 500 sekund) dla adresu robots.txt, wyszukiwarki nie dowiedzą się, które strony powinny zostać zindeksowane. Mogą one przestać indeksować całą witrynę, co uniemożliwi indeksowanie nowych treści.

Aby sprawdzić kod stanu HTTP, otwórz robots.txt w Chrome i sprawdź żądanie w Narzędziach deweloperskich w Chrome.

Plik robots.txt powinien być mniejszy niż 500 KiB

Jeśli rozmiar pliku przekracza 500 KiB, wyszukiwarki mogą w trakcie jego przetwarzania przestać przetwarzać plik robots.txt. Może to dezorientować wyszukiwarkę, powodując nieprawidłowe indeksowanie witryny.

Jeśli chcesz, aby element robots.txt był mały, nie skupiaj się w mniejszym stopniu na poszczególnych wykluczonych stronach, a nie na ogólnych wzorcach. Jeśli na przykład chcesz zablokować indeksowanie plików PDF, nie zezwalaj na poszczególne pliki. Zamiast tego zablokuj wszystkie adresy URL zawierające ciąg .pdf za pomocą parametru disallow: /*.pdf.

Napraw wszystkie błędy formatu

  • W polu robots.txt dozwolone są tylko puste wiersze, komentarze i dyrektywy zgodne z formatem „nazwa: wartość”.
  • Upewnij się, że wartości allow i disallow są puste lub zaczynają się od / albo *.
  • Nie używaj symbolu $ w środku wartości (np. allow: /file$html).

Upewnij się, że pole user-agent ma wartość

Nazwy klientów użytkownika informują roboty wyszukiwarek, które dyrektywy mają postępować. Musisz podać wartość każdego wystąpienia parametru user-agent, aby wyszukiwarki wiedziały, czy stosować powiązany z nim zestaw dyrektyw.

Aby wskazać konkretnego robota wyszukiwarki, użyj nazwy klienta użytkownika z jego opublikowanej listy. Oto przykładowa lista klientów użytkownika używanych do indeksowania przez Google.

Użyj operatora *, aby dopasować wszystkie roboty, które nie są do niego dopasowane.

Nie
user-agent:
disallow: /downloads/

Nie zdefiniowano klienta użytkownika.

Tak
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Zdefiniowano ogólnego klienta użytkownika i klienta użytkownika magicsearchbot.

Upewnij się, że przed user-agent nie ma dyrektyw allow ani disallow

Nazwy klientów użytkownika określają sekcje pliku robots.txt. Roboty wyszukiwarek używają tych sekcji do określenia, które dyrektywy należy zastosować. Umieszczenie dyrektywy przed pierwszą nazwą klienta użytkownika oznacza, że żadne roboty nie będą jej śledzić.

Nie
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Żaden robot wyszukiwarki nie odczyta dyrektywy disallow: /downloads.

Tak
# start of file
user-agent: *
disallow: /downloads/

Wszystkie wyszukiwarki nie mogą indeksować folderu /downloads.

Roboty wyszukiwarek przestrzegają tylko dyrektyw z sekcji zawierającej najbardziej konkretną nazwę klienta użytkownika. Jeśli np. masz dyrektywy user-agent: * i user-agent: Googlebot-Image, Googlebot Grafika w przeglądarce będzie przestrzegać tylko tych z sekcji user-agent: Googlebot-Image.

Podaj bezwzględny URL dla elementu sitemap

Pliki mapy witryny to świetny sposób na informowanie wyszukiwarek o stronach w witrynie. Plik mapy witryny zwykle zawiera listę adresów URL w witrynie wraz z informacjami o czasie ich ostatniej zmiany.

Jeśli zdecydujesz się przesłać plik mapy witryny w robots.txt, pamiętaj, by użyć bezwzględnego adresu URL.

Nie
sitemap: /sitemap-file.xml
Tak
sitemap: https://example.com/sitemap-file.xml

Zasoby