Przewodnik po zarządzaniu budżetem indeksowania przeznaczony dla właścicieli dużych witryn
Z tego przewodnika dowiesz się, jak zoptymalizować indeksowanie przez Google bardzo dużych i często aktualizowanych witryn.
Jeśli w Twojej witrynie nie ma wielu stron, które zmieniają się szybko, albo uważasz, że Twoje strony są indeksowane w dniu publikacji, nie musisz czytać tego przewodnika. Wystarczy, że będziesz regularnie aktualizować mapę witryny i sprawdzać stan w indeksie.
Jeśli Twoje treści są dostępne od jakiegoś czasu, ale nigdy nie zostały zindeksowane, to zupełnie inny problem. W takim przypadku użyj narzędzia do sprawdzania adresów URL, aby dowiedzieć się, dlaczego określona strona nie jest indeksowana.
Komu przyda się ten przewodnik
To jest zaawansowany przewodnik napisany z myślą o:
- dużych witrynach (ponad milion unikalnych stron) z treścią, która zmienia się z umiarkowaną częstotliwością (raz w tygodniu);
- średnich lub większych witrynach (ponad 10 tys. unikalnych stron), których treść zmienia się bardzo szybko (codziennie).
- witrynach z dużą częścią ogólnej liczby adresów URL sklasyfikowaną przez Search Console jako Strona wykryta – obecnie nie zindeksowana;
Ogólnie o indeksowaniu
Internet to niemal nieograniczona przestrzeń, dlatego zbadanie i zindeksowanie wszystkich dostępnych adresów URL przekracza możliwości Google. W związku z tym ilość czasu, jaką Googlebot może poświęcić na skanowanie poszczególnych witryn, jest ograniczona. Czas i zasoby, które Google poświęca na zeskanowanie określonej witryny, są zwykle nazywane budżetem indeksowania witryny. Pamiętaj, że nie cała skanowana zawartość Twojej witryny potrzebuje indeksowania. Każda strona wymaga rozpatrzenia, konsolidacji i oceny, czy po skanowaniu zostanie zindeksowana.
Budżet indeksowania zależy od 2 głównych czynników: limitu wydajności indeksowania i zapotrzebowania na indeksowanie.
Limit wydajności indeksowania
Googlebot stara się indeksować witryny bez obciążania serwerów. W tym celu oblicza limit wydajności indeksowania, czyli maksymalną liczbę jednoczesnych połączeń równoległych, których może użyć do zeskanowania witryny. Oblicza też opóźnienie między pobraniami. Dzięki tym obliczeniom indeksowanie obejmie wszystkie ważne treści bez nadmiernego obciążenia serwerów.
Zwiększenie lub zmniejszenie limitu wydajności indeksowania zależy od kilku czynników:
- Stan indeksowania: jeśli przez jakiś czas witryna reaguje szybko, limit się zwiększa, czyli do skanowania można wykorzystać więcej połączeń. Jeśli czas reakcji witryny się wydłuży lub wystąpią błędy serwera, limit zostanie zmniejszony, a Googlebot będzie skanować mniej.
- Limity indeksowania Google: liczba komputerów, którymi dysponuje Google, jest ogromna, ale nie jest nieskończona. Biorąc pod uwagę dostępne zasoby, nadal musimy podejmować określone decyzje.
Zapotrzebowanie na indeksowanie
Google zazwyczaj poświęca dostateczną ilość czasu na indeksowanie witryny, biorąc pod uwagę jej rozmiar, częstotliwość aktualizacji, jakość stron i trafność w porównaniu z innymi witrynami.
Czynniki, które odgrywają istotną rolę w określaniu zapotrzebowania na indeksowanie, to:
- Domniemane zasoby: bez Twoich wskazówek Googlebot będzie próbował zeskanować wszystkie adresy URL, które znajdzie w Twojej witrynie, lub większość z nich. Jeśli wiele z tych adresów URL to duplikaty lub adresy, które nie powinny być indeksowane z innego powodu (zostały usunięte, są nieistotne itd.), niepotrzebnie pochłania to czas, jaki Google przeznacza na skanowanie treści w Twojej witrynie. Jest to czynnik, nad którym masz największą kontrolę.
- Popularność: adresy URL, które cieszą się większą popularnością w internecie, są indeksowane częściej, aby ich stan w naszym indeksie był aktualny.
- Brak aktualizacji: nasze systemy starają się ponownie indeksować dokumenty wystarczająco często, aby wykryć wszelkie zmiany.
Poza tym zdarzenia dotyczące całej witryny (np. jej przeniesienie) mogą spowodować wzrost zapotrzebowania na indeksowanie w celu ponownego zindeksowania treści pod nowymi adresami URL.
Podsumowanie
Biorąc pod uwagę wydajność indeksowania i zapotrzebowanie na indeksowanie, Google określa budżet indeksowania witryny jako zestaw adresów URL, które Googlebot może i zamierza zeskanować. Nawet jeśli limit wydajności indeksowania nie zostanie osiągnięty, przy niskim zapotrzebowaniu na indeksowanie Googlebot będzie rzadziej indeksować Twoją witrynę.
Sprawdzone metody
Aby zmaksymalizować efektywność skanowania, postępuj zgodnie z tymi sprawdzonymi metodami:
- Zarządzaj zasobami URL. Użyj odpowiednich narzędzi, aby poinformować Google, które strony ma skanować, a które pomijać. Jeśli Google poświęca zbyt dużo czasu na skanowanie adresów URL, które nie nadają się do indeksu, Googlebot może uznać, że szkoda czasu na skanowanie reszty witryny (i nie warto w tym celu zwiększać budżetu).
- Skonsoliduj powielone treści. Usuń powielone treści, aby ukierunkować skanowanie na niepowtarzalne treści, a nie na unikalne adresy URL.
- Blokuj indeksowanie adresów URL za pomocą pliku robots.txt. Niektóre strony mogą być ważne dla użytkowników, ale niekoniecznie powinny pojawiać się w wynikach wyszukiwania. Na przykład strony z nieskończonym przewijaniem, które powielają informacje na linkowanych stronach, lub różnie uporządkowane wersje tej samej strony. Jeśli nie możesz skonsolidować tych stron w sposób opisany w pierwszym punkcie, zablokuj te nieistotne (pod względem wyszukiwania) za pomocą pliku robots.txt. Blokowanie adresów URL za pomocą pliku robots.txt znacznie zmniejsza szansę na ich zindeksowanie.
-
Zwracaj kod stanu
404
lub410
w przypadku stron trwale usuniętych. Google nie zapomina poznanego adresu URL, ale kod stanu404
to wyraźny sygnał, aby nie skanować tego adresu URL ponownie. Zablokowane adresy URL pozostaną jednak w kolejce do skanowania znacznie dłużej i zostaną zeskanowane ponownie po usunięciu blokady. - Wyeliminuj błędy
soft 404
. Strony z kodem błędusoft 404
nadal będziemy indeksować, co spowoduje niepotrzebne wykorzystanie budżetu. Poszukaj błędówsoft 404
w raporcie Stan w indeksie. - Aktualizuj mapy witryn. Google regularnie odczytuje mapę witryny, więc pamiętaj, aby uwzględnić w niej wszystkie treści, które Google ma indeksować. Jeśli Twoja witryna zawiera zaktualizowane treści, zalecamy dodanie tagu
<lastmod>
. - Unikaj długich łańcuchów przekierowań, które mają negatywny wpływ na indeksowanie.
- Zadbaj o sprawne wczytywanie stron. Jeśli wczytywanie i renderowanie stron odbywa się szybciej, Google może odczytać z witryny więcej treści.
- Monitoruj skanowanie witryny. Sprawdzaj, czy podczas indeksowania nie występują problemy z dostępnością witryny, i poszukaj sposobów na zwiększenie skuteczności skanowania.
Monitorowanie skanowania i indeksowania witryny
Oto najważniejsze etapy monitorowania profilu skanowania witryny:
- Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny
- Poszukaj stron, które nie są indeksowane, choć powinny
- Sprawdź, czy niektóre elementy Twojej witryny wymagają szybszego indeksowania niż obecnie
- Zwiększ efektywność indeksowania witryny
- Przeciwdziałaj zbyt częstemu indeksowaniu witryny
Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny
Poprawa dostępności witryny nie musi oznaczać zwiększenia budżetu indeksowania. Google określa najlepszą szybkość skanowania na podstawie zapotrzebowania, zgodnie z wcześniejszym opisem. Jednak problemy z dostępnością sprawiają, że Google nie skanuje witryny wystarczająco często.
Diagnoza:
Przejrzyj historię skanowania witryny przez Googlebota w raporcie Statystyki indeksowania. Dowiesz się z niego, kiedy wykryliśmy problemy z dostępnością Twojej witryny. Jeśli widzisz błędy lub ostrzeżenia dotyczące dostępności witryny, na wykresach dostępności hosta poszukaj przypadków, w których żądania Googlebota przekroczyły czerwoną linię limitu. Kliknij wykres, aby sprawdzić adresy URL, których dotyczą błędy, i spróbuj je dopasować do problemów w witrynie.
Możesz też przetestować kilka adresów URL w swojej witrynie za pomocą narzędzia do sprawdzania adresów URL. Jeśli narzędzie zwraca ostrzeżenia Przekroczono limit obciążenia hosta, oznacza to, że Googlebot nie może zindeksować tylu adresów URL, ile udało się wykryć w Twojej witrynie.
Postępowanie:
- Zapoznaj się z dokumentacją raportu Statystyki indeksowania, aby dowiedzieć się, jak znaleźć i rozwiązać niektóre problemy z dostępnością.
- Zablokuj skanowanie stron, których nie chcesz indeksować. Zobacz Zarządzanie zasobami.
- Zwiększ szybkość wczytywania i renderowania stron. Zobacz Zwiększanie efektywności indeksowania witryny.
- Zwiększ możliwości serwera. Jeśli uważasz, że Google stale skanuje witrynę na granicy możliwości serwera, ale nadal niektóre ważne adresy URL nie są skanowane ani aktualizowane stosownie do potrzeb, możesz zwiększyć możliwości serwera, aby pomóc Google w obsłużeniu większej liczby stron w Twojej witrynie. Przejrzyj historię dostępności hosta w raporcie Statystyki indeksowania, aby sprawdzić, czy szybkość skanowania Google często przekracza limit. Jeśli tak jest, zwiększ zasoby serwera na miesiąc i sprawdź, czy w tym samym okresie liczba żądań indeksowania wzrosła.
Sprawdź, czy jakieś części Twojej witryny nie są indeksowane, choć powinny
Google poświęca Twojej witrynie niezbędną ilość czasu, aby zindeksować wszystkie możliwe do znalezienia treści wysokiej jakości, które są wartościowe z punktu widzenia użytkowników. Jeśli uważasz, że Googlebot pomija ważne treści, to być może o nich nie wie, są one przed nim zablokowane lub ma on do nich ograniczony dostęp (albo stara się nie przeciążać witryny).
Diagnoza:
Search Console nie udostępnia historii skanowania witryny, którą można filtrować według adresu URL lub ścieżki, ale możesz przejrzeć dzienniki witryny, aby sprawdzić, czy Googlebot zeskanował konkretne adresy URL. To, czy te zeskanowane adresy URL zostały zindeksowane, to zupełnie inna sprawa.
Pamiętaj, że rozpoznanie nowych stron w większości witryn trwa co najmniej kilka dni. Dlatego nie należy oczekiwać, że adresy URL zostaną w nich zindeksowane tego samego dnia. Wyjątkiem są witryny, których treści szybko tracą aktualność, np. witryny z wiadomościami.
Postępowanie:
Jeśli strony, które dodajesz do swojej witryny, nie zostaną zindeksowane w rozsądnym czasie, oznacza to, że Google o nich nie wie, treści są blokowane, osiągnięty został limit możliwości serwera albo Twój budżet indeksowania został wyczerpany.
- Poinformuj Google o nowych stronach: zaktualizuj mapy witryn, aby odzwierciedlały nowe adresy URL.
- Sprawdź reguły w pliku robots.txt, aby się upewnić, że nie blokujesz stron przypadkowo.
- Sprawdź priorytety skanowania (czyli rozsądnie wykorzystaj budżet indeksowania). Zarządzaj zasobami reklamowymi i popraw efektywność skanowania witryny.
- Sprawdź, czy nie kończą się możliwości serwera. Googlebot ograniczy skanowanie, jeśli wykryje, że Twoje serwery mają problem z obsługą żądań indeksowania.
Pamiętaj, że strony, których treści nie są dostatecznie wartościowe lub nie odpowiadają potrzebom użytkowników, mogą nie pojawiać się w wynikach wyszukiwania, nawet jeśli zostały zeskanowane.
Sprawdź, czy aktualizacje są indeksowane dostatecznie szybko
Jeśli pomijamy nowe lub zaktualizowane strony w Twojej witrynie, być może ich nie widzimy lub nie zauważyliśmy, że zostały zaktualizowane. Oto jak możesz nas poinformować o aktualizacjach stron.
Pamiętaj, że Google stara się sprawdzać i indeksować strony w miarę szybko. W przypadku większości witryn ten czas wynosi co najmniej 3 dni. Trudno oczekiwać, że Google zindeksuje strony tego samego dnia, w którym je opublikujesz, chyba że prowadzisz witrynę z wiadomościami lub publikujesz inne wartościowe treści, które szybko tracą aktualność.
Diagnoza:
Przejrzyj dzienniki witryny, aby sprawdzić, kiedy Googlebot zindeksował konkretne adresy URL.
Aby poznać datę indeksowania, użyj narzędzia do sprawdzania adresów URL lub wyszukaj zaktualizowane adresy URL w Google.
Postępowanie:
Zalecane czynności:
- Jeśli Twoja witryna zawiera wiadomości, użyj mapy witryny dla Wiadomości Google.
- Używaj w mapach witryn tagu
<lastmod>
, aby wskazać, kiedy zindeksowany adres URL został zaktualizowany. - Stosuj uproszczoną strukturę adresów URL, aby ułatwić Google znalezienie Twoich stron.
- Podawaj standardowe, możliwe do zindeksowania linki zdefiniowane tagiem
<a>
, aby ułatwić Google znalezienie Twoich stron.
Czego unikać:
- Nie przesyłaj tej samej niezmienionej mapy witryny wielokrotnie w ciągu jednego dnia.
- Nie oczekuj, że Googlebot zeskanuje całą zawartość mapy witryny lub zrobi to od razu. Mapy witryn stanowią przydatne sugestie dla Googlebota, ale nie są bezwzględnie konieczne.
- Nie uwzględniaj w mapach witryn tych adresów URL, mają nie być widoczne w wyszukiwarce. Może to spowodować niepotrzebne zużycie budżetu indeksowania na strony, których nie chcesz indeksować.
Zwiększ efektywność indeksowania witryny
Zwiększanie szybkości wczytywania stron
Skanowanie przez Google podlega ograniczeniom związanym z przepustowością, czasem i dostępnością wystąpień Googlebota. Jeśli Twój serwer szybciej odpowiada na żądania, być może uda nam się zindeksować więcej stron w Twojej witrynie. Google woli indeksować tylko treści wysokiej jakości, więc przyspieszenie działania stron o niskiej jakości nie zachęci Googlebota do skanowania większej części Twojej witryny. I odwrotnie, jeśli uznamy, że pomijamy w niej treści wysokiej jakości, prawdopodobnie zwiększymy Twój budżet, żeby je zindeksować.
Aby zoptymalizować strony i zasoby pod kątem indeksowania:
- Za pomocą pliku robots.txt zablokuj wczytywanie przez Googlebota dużych zasobów, które nie są ważne. Pamiętaj, aby blokować tylko mniej istotne zasoby, czyli takie, które nie mają wpływu na zrozumienie treści strony (np. obrazy, które pełnią funkcje dekoracyjne).
- Upewnij się, że strony wczytują się szybko.
- Uważaj na długie łańcuchy przekierowań, które mają negatywny wpływ na indeksowanie.
- Znaczenie ma zarówno czas odpowiedzi na żądania przesyłane do serwera, jak i czas potrzebny do wyrenderowania stron, m.in. czas wczytywania i uruchomienia umieszczonych zasobów, takich jak obrazy czy skrypty. Pamiętaj o dużych lub wczytujących się powoli zasobach, które wymagają indeksowania.
Określanie zmian treści za pomocą kodów stanu HTTP
Google zwykle obsługuje nagłówki żądań HTTP If-Modified-Since
i If-None-Match
na potrzeby indeksowania. Roboty Google nie wysyłają nagłówków podczas wszystkich prób indeksowania. Zależy to od przypadku użycia żądania (np. AdsBot z większym prawdopodobieństwem ustawi nagłówki żądań HTTP If-Modified-Since
i If-None-Match
). Jeśli nasze roboty indeksujące wysyłają nagłówek If-Modified-Since
, wartością tego nagłówka jest data i godzina wskazująca, kiedy zawartość została ostatnio zindeksowana. Na podstawie tej wartości serwer może zwrócić kod stanu HTTP 304 (Not Modified)
bez treści odpowiedzi – w takim przypadku Google ponownie użyje ostatnio zindeksowanej wersji treści. Jeśli treści są nowsze niż data określona przez robota w nagłówku If-Modified-Since
, serwer może zwrócić kod stanu HTTP 200 (OK)
z treścią odpowiedzi.
Niezależnie od nagłówków żądania możesz wysłać kod stanu HTTP 304 (Not Modified)
bez treści odpowiedzi na żadne żądanie Googlebota, jeśli treść nie zmieniła się od czasu ostatniego odwiedzania adresu URL przez Googlebota. Pozwoli to zaoszczędzić czas i zasoby związane z przetwarzaniem na serwerze, co może zwiększyć wydajność indeksowania.
Ukrywanie adresów URL, które mają nie być widoczne w wynikach wyszukiwania
Marnowanie zasobów serwera na niepotrzebne strony może ograniczyć skanowanie stron, które są dla Ciebie ważne. Może to spowodować znaczne opóźnienie w odkrywaniu atrakcyjnych nowych lub zaktualizowanych treści w witrynie.
Udostępnianie w witrynie wielu adresów URL, które według Ciebie nie powinny być indeksowane przez wyszukiwarki, może negatywnie wpłynąć na skanowanie i indeksowanie witryny. Zazwyczaj są to adresy URL z tych kategorii:
- Nawigacja fasetowa i identyfikatory sesji: nawigacja fasetowa obejmuje zazwyczaj powielone treści z witryny. Identyfikatory sesji i inne parametry URL po prostu służą do sortowania lub filtrowania treści na stronie, a nie udostępniania nowych treści. Aby zablokować strony z nawigacją fasetową, użyj pliku robots.txt.
- Powielone treści: pomóż Google zidentyfikować powielone treści, aby uniknąć niepotrzebnego skanowania.
- Strony
soft 404
: ustaw zwracanie kodu404
, gdy strona już nie istnieje. - Strony zaatakowane przez hakerów: przejrzyj raport Problemy dotyczące bezpieczeństwa i napraw lub usuń strony, które zostały zaatakowane przez hakerów.
- Nieskończone przestrzenie i serwery proxy: zablokuj ich indeksowanie za pomocą pliku robots.txt.
- Treści niskiej jakości i spam: oczywiście należy ich unikać.
- Strony z koszykami na zakupy, strony z przewijaniem nieskończonym i strony umożliwiające wykonanie czynności (np. strony typu „zarejestruj się” lub „kup teraz”).
Zalecane czynności:
- Użyj pliku robots.txt, jeśli uważasz, że w ogóle nie powinniśmy indeksować określonego zasobu lub danej strony.
- Jeśli 1 zasób jest wielokrotnie używany na wielu stronach (na przykład udostępniany obraz lub plik JavaScript), odwołuj się do niego za pomocą tego samego adresu URL na każdej stronie. Umożliwi to Google przechowanie w pamięci podręcznej i ponownie wykorzystywanie tego samego zasobu bez konieczności wielokrotnego wysyłania żądań.
Czego unikać:
- Nie dodawaj regularnie stron ani katalogów do pliku robots.txt ani ich z niego nie usuwaj w celu zmiany alokacji budżetu na indeksowanie witryny. Korzystaj z pliku robots.txt tylko w przypadku stron lub zasobów, które nie powinny pojawiać się w Google przez dłuższy czas.
- Nie stosuj rotacji map witryn ani nie używaj innych mechanizmów tymczasowego ukrywania treści w celu zmiany alokacji budżetu.
Przeciwdziałaj zbyt częstemu indeksowaniu witryny (nagłe wypadki)
Googlebot korzysta z algorytmów, które zapobiegają przeciążaniu witryny żądaniami indeksowania. Jeśli jednak okaże się, że Googlebot powoduje przeciążenie Twojej witryny, możesz wykonać kilka czynności.
Diagnoza:
Monitoruj serwer pod kątem nadmiernej liczby żądań Googlebota wysyłanych to Twojej witryny.
Postępowanie:
W sytuacji awaryjnej zalecamy wykonanie tych czynności, aby ograniczyć obciążanie serwera przez Googlebota:
- Gdy serwer jest przeciążony, ustaw tymczasowo zwracanie kodów stanu HTTP
503
lub429
w odpowiedzi na żądania Googlebota. Googlebot spróbuje ponownie zindeksować te adresy URL za około 2 dni. Pamiętaj, że zwracanie kodów „brak dostępności” przez ponad kilka dni spowoduje trwałe spowolnienie lub zatrzymanie indeksowania adresów URL w Twojej witrynie. Dlatego wykonaj czynności dodatkowe. -
Gdy szybkość indeksowania spadnie, zatrzymaj zwracanie kodów stanu HTTP
503
lub429
w odpowiedzi na żądania indeksowania. Zwracanie kodu503
lub429
przez ponad 2 dni spowoduje, że Google usunie z indeksu te adresy URL. - Monitoruj indeksowanie i wydajność hosta na przestrzeni czasu.
- Jeśli robot, który stwarza problem, jest jednym z robotów AdsBot, przyczyną problemu jest prawdopodobnie utworzenie przez Ciebie dla witryny celów dynamicznych reklam w wyszukiwarce, które Google próbuje zindeksować. Indeksowanie będzie powtarzane co 3 tygodnie. Jeśli Twój serwer nie poradzi sobie z obsługą tego indeksowania, ogranicz cele reklam lub znajdź serwer o większych możliwościach.
Fakty i mity dotyczące indeksowania
Sprawdź swoją wiedzę na temat sposobu skanowania i indeksowania stron przez Google
5xx
(błędy serwera) lub przypadków przekroczenia limitu czasu połączenia sygnalizuje odwrotną sytuację, więc szybkość indeksowania spada. Zalecamy uważne przeglądanie raportu Statystyki indeksowania w Search Console i pilnowanie, aby liczba błędów serwera była niska.
nofollow
wpływa na budżet indeksowania.nofollow
, strona ta może zostać zindeksowana, o ile inna strona w Twojej witrynie lub dowolna inna strona w sieci nie oznaczy linku dyrektywą nofollow
.noindex
, aby kontrolować budżet indeksowania.noindex
.
Pamiętaj jednak, że
noindex
ma za zadanie pomóc Ci w uniknięciu indeksowania. Jeśli chcesz mieć pewność, że te strony nie trafią do indeksu Google, używaj nadal noindex
i nie martw się o budżet indeksowania. Pamiętaj też, że jeśli usuniesz adresy URL z indeksu Google za pomocą tagu noindex
lub w inny sposób, Googlebot może skupić się na innych adresach URL w Twojej witrynie, co oznacza, że noindex
może na dłuższą metę pośrednio zwolnić część budżetu związanego z indeksowaniem Twojej witryny.
4xx
marnują budżet indeksowania.4xx
(z wyjątkiem 429
), nie marnują budżetu indeksowania. Googlebot próbował zindeksować stronę, ale otrzymał kod stanu bez innych treści.