Piątek, 17 lutego 2023 roku
W ciągu ostatnich kilku miesięcy zaobserwowaliśmy wzrost liczby właścicieli witryn i niektórych sieci dystrybucji treści (CDN) próbujących wykorzystać błędy 404
i inne błędy 4xx
klienta (ale nie 429
) do zmniejszenia szybkości indeksowania przez Googlebota.
Krótka wersja tego posta na blogu to: nie należy tak postępować. Oferujemy całą dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota. Przeczytaj ten artykuł i dowiedz się, jak skutecznie zarządzać szybkością indeksowania przez Googlebota.
Podstawowe informacje: błędy klienta 4xx
dotyczą błędów klienta
Błędy 4xx
zwracane przez serwery do klientów stanowią sygnał od serwera, że żądanie klienta z jakiegoś powodu było błędne. Większość błędów w tej kategorii jest całkiem nieszkodliwa: błędy „nie znaleziono”, „zabronione”, „jestem czajnikiem” (tak, jest coś takiego). Nie sugerują, że coś jest nie tak z samym serwerem.
Jedynym wyjątkiem jest błąd 429
, który oznacza „zbyt wiele żądań”. Ten błąd jest wyraźnym sygnałem dla każdego dobrego robota, w tym naszego ulubionego Googlebota, że musi zwolnić, ponieważ przeciąża serwer.
Dlaczego błędy 4xx
nie są dobre do ograniczania liczby żądań Googlebota (z wyjątkiem 429
)
Błędy klienta to po prostu błędy klienta. Nie sugerują one błędu serwera: jego przeciążenia, sytuacji napotkania błędu krytycznego lub niemożliwości odpowiedzenia na żądanie. Oznaczają po prostu, że żądanie klienta było w jakiś sposób nieprawidłowe. Nie ma sensu porównywać np. błędu 404
do sytuacji przeciążenia serwera.
Załóżmy taki przypadek: otrzymujesz znaczną liczbę błędów 404
, ponieważ znajomy przypadkowo podał linki do niewłaściwych stron w Twojej witrynie, co z kolei zmniejsza szybkość indeksowania przez Googlebota. Byłby z tym spory problem. To samo dotyczy błędów 403
, 410
i 418
.
Ważnym wyjątkiem jest kod stanu 429
, który oznacza „zbyt wiele żądań”.
Jak ograniczenie liczby żądań za pomocą błędu 4xx
wpływa na działanie Googlebota
Wszystkie kody stanu HTTP 4xx
(z wyjątkiem 429
) powodują, że Twoje treści są usuwane z wyszukiwarki Google. Co gorsza, jeśli do obsługi pliku robots.txt też używasz kodu stanu HTTP 4xx
, będzie on traktowany tak, jakby nie istniał. Jeśli była tam reguła, która uniemożliwiała indeksowanie Twoich brudów, Googlebot już o nich wie – nie jest to przyjemna sytuacja dla żadnej ze stron.
Jak prawidłowo ograniczyć szybkość indeksowania przez Googlebota
Oferujemy obszerną dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota oraz sposobu, w jaki Googlebot (oraz indeksowanie stron w wyszukiwarce) obsługuje różne kody stanu HTTP. Warto się z nią zapoznać. Krótko mówiąc, możesz wykonać jedną z tych czynności:
- skorzystać z Search Console do tymczasowego ograniczenia szybkości indeksowania;
-
zwrócić Googlebotowi kod stanu HTTP
500
,503
lub429
, gdy indeksowanie jest zbyt szybkie.
Jeśli potrzebujesz dodatkowych wskazówek lub wyjaśnień, skontaktuj się z nami na Twitterze lub zadaj pytanie na Forum pomocy.