Przewodnik po zarządzaniu budżetem indeksowania przeznaczony dla właścicieli dużych witryn

Z tego przewodnika dowiesz się, jak zoptymalizować indeksowanie przez Google bardzo dużych i często aktualizowanych witryn.

Jeśli w Twojej witrynie nie ma wielu stron, które zmieniają się szybko, albo uważasz, że Twoje strony są indeksowane w dniu publikacji, nie musisz czytać tego przewodnika. Wystarczy, że będziesz regularnie aktualizować mapę witryny i sprawdzać stan w indeksie.

Jeśli Twoje treści są dostępne od jakiegoś czasu, ale nigdy nie zostały zindeksowane, to zupełnie inny problem. W takim przypadku użyj narzędzia do sprawdzania adresów URL, aby dowiedzieć się, dlaczego określona strona nie jest indeksowana.

Komu przyda się ten przewodnik

To jest zaawansowany przewodnik napisany z myślą o:

dużych witrynach (ponad milion unikalnych stron) z treścią, która zmienia się z umiarkowaną częstotliwością (raz w tygodniu);
średnich lub większych witrynach (ponad 10 tys. unikalnych stron), których treść zmienia się bardzo szybko (codziennie).
witrynach z dużą częścią ogólnej liczby adresów URL sklasyfikowaną przez Search Console jako Strona wykryta – obecnie nie zindeksowana;

Ogólnie o indeksowaniu

Internet to niemal nieograniczona przestrzeń, dlatego zbadanie i zindeksowanie wszystkich dostępnych adresów URL przekracza możliwości Google. W związku z tym ilość czasu, jaką Googlebot może poświęcić na skanowanie poszczególnych witryn, jest ograniczona. Czas i zasoby, które Google poświęca na zeskanowanie określonej witryny, są zwykle nazywane budżetem indeksowania witryny. Pamiętaj, że nie cała skanowana zawartość Twojej witryny potrzebuje indeksowania. Każda strona wymaga rozpatrzenia, konsolidacji i oceny, czy po skanowaniu zostanie zindeksowana.

Budżet indeksowania zależy od 2 głównych czynników: limitu wydajności indeksowania i zapotrzebowania na indeksowanie.

Limit wydajności indeksowania

Googlebot stara się indeksować witryny bez obciążania serwerów. W tym celu oblicza limit wydajności indeksowania, czyli maksymalną liczbę jednoczesnych połączeń równoległych, których może użyć do zeskanowania witryny. Oblicza też opóźnienie między pobraniami. Dzięki tym obliczeniom indeksowanie obejmie wszystkie ważne treści bez nadmiernego obciążenia serwerów.

Zwiększenie lub zmniejszenie limitu wydajności indeksowania zależy od kilku czynników:

Stan indeksowania: jeśli przez jakiś czas witryna reaguje szybko, limit się zwiększa, czyli do skanowania można wykorzystać więcej połączeń. Jeśli czas reakcji witryny się wydłuży lub wystąpią błędy serwera, limit zostanie zmniejszony, a Googlebot będzie skanować mniej.
Limity indeksowania Google: liczba komputerów, którymi dysponuje Google, jest ogromna, ale nie jest nieskończona. Biorąc pod uwagę dostępne zasoby, nadal musimy podejmować określone decyzje.

Zapotrzebowanie na indeksowanie

Google zazwyczaj poświęca dostateczną ilość czasu na indeksowanie witryny, biorąc pod uwagę jej rozmiar, częstotliwość aktualizacji, jakość stron i trafność w porównaniu z innymi witrynami.

Czynniki, które odgrywają istotną rolę w określaniu zapotrzebowania na indeksowanie, to:

Domniemane zasoby: bez Twoich wskazówek Googlebot będzie próbował zeskanować wszystkie adresy URL, które znajdzie w Twojej witrynie, lub większość z nich. Jeśli wiele z tych adresów URL to duplikaty lub adresy, które nie powinny być indeksowane z innego powodu (zostały usunięte, są nieistotne itd.), niepotrzebnie pochłania to czas, jaki Google przeznacza na skanowanie treści w Twojej witrynie. Jest to czynnik, nad którym masz największą kontrolę.
Popularność: adresy URL, które cieszą się większą popularnością w internecie, są indeksowane częściej, aby ich stan w naszym indeksie był aktualny.
Brak aktualizacji: nasze systemy starają się ponownie indeksować dokumenty wystarczająco często, aby wykryć wszelkie zmiany.

Poza tym zdarzenia dotyczące całej witryny (np. jej przeniesienie) mogą spowodować wzrost zapotrzebowania na indeksowanie w celu ponownego zindeksowania treści pod nowymi adresami URL.

Podsumowanie

Biorąc pod uwagę wydajność indeksowania i zapotrzebowanie na indeksowanie, Google określa budżet indeksowania witryny jako zestaw adresów URL, które Googlebot może i zamierza zeskanować. Nawet jeśli limit wydajności indeksowania nie zostanie osiągnięty, przy niskim zapotrzebowaniu na indeksowanie Googlebot będzie rzadziej indeksować Twoją witrynę.

Sprawdzone metody

Aby zmaksymalizować efektywność skanowania, postępuj zgodnie z tymi sprawdzonymi metodami:

Zarządzaj zasobami URL. Użyj odpowiednich narzędzi, aby poinformować Google, które strony ma skanować, a które pomijać. Jeśli Google poświęca zbyt dużo czasu na skanowanie adresów URL, które nie nadają się do indeksu, Googlebot może uznać, że szkoda czasu na skanowanie reszty witryny (i nie warto w tym celu zwiększać budżetu).
- Skonsoliduj powielone treści. Usuń powielone treści, aby ukierunkować skanowanie na niepowtarzalne treści, a nie na unikalne adresy URL.
- Blokuj indeksowanie adresów URL za pomocą pliku robots.txt. Niektóre strony mogą być ważne dla użytkowników, ale niekoniecznie powinny pojawiać się w wynikach wyszukiwania. Na przykład strony z nieskończonym przewijaniem, które powielają informacje na linkowanych stronach, lub różnie uporządkowane wersje tej samej strony. Jeśli nie możesz skonsolidować tych stron w sposób opisany w pierwszym punkcie, zablokuj te nieistotne (pod względem wyszukiwania) za pomocą pliku robots.txt. Blokowanie adresów URL za pomocą pliku robots.txt znacznie zmniejsza szansę na ich zindeksowanie.
  Nie używaj tagu noindex, bo Google nadal będzie wysyłać żądanie dotyczące strony i, choć ją pominie, gdy zauważy tag lub nagłówek noindex meta w odpowiedzi HTTP, zmarnuje czas przeznaczony na indeksowanie. Nie używaj pliku robots.txt do tymczasowego przydzielania budżetu indeksowania na potrzeby innych stron. Wykorzystaj ten plik, aby zablokować strony lub zasoby, które według Ciebie w ogóle nie powinny być skanowane przez Google. Google nie przeznaczy tego zwolnionego budżetu indeksowania na inne strony, chyba że osiągnie już limit możliwości serwera witryny.
- Zwracaj kod stanu 404 lub 410 w przypadku stron trwale usuniętych. Google nie zapomina poznanego adresu URL, ale kod stanu 404 to wyraźny sygnał, aby nie skanować tego adresu URL ponownie. Zablokowane adresy URL pozostaną jednak w kolejce do skanowania znacznie dłużej i zostaną zeskanowane ponownie po usunięciu blokady.
- Wyeliminuj błędy soft 404. Strony z kodem błędu soft 404 nadal będziemy indeksować, co spowoduje niepotrzebne wykorzystanie budżetu. Poszukaj błędów soft 404 w raporcie Stan w indeksie.
- Aktualizuj mapy witryn. Google regularnie odczytuje mapę witryny, więc pamiętaj, aby uwzględnić w niej wszystkie treści, które Google ma indeksować. Jeśli Twoja witryna zawiera zaktualizowane treści, zalecamy dodanie tagu <lastmod>.
- Unikaj długich łańcuchów przekierowań, które mają negatywny wpływ na indeksowanie.
Zadbaj o sprawne wczytywanie stron. Jeśli wczytywanie i renderowanie stron odbywa się szybciej, Google może odczytać z witryny więcej treści.
Monitoruj skanowanie witryny. Sprawdzaj, czy podczas indeksowania nie występują problemy z dostępnością witryny, i poszukaj sposobów na zwiększenie skuteczności skanowania.

Monitorowanie skanowania i indeksowania witryny

Oto najważniejsze etapy monitorowania profilu skanowania witryny:

Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny
Poszukaj stron, które nie są indeksowane, choć powinny
Sprawdź, czy niektóre elementy Twojej witryny wymagają szybszego indeksowania niż obecnie
Zwiększ efektywność indeksowania witryny
Przeciwdziałaj zbyt częstemu indeksowaniu witryny

Sprawdź, czy Googlebot nie ma problemów z dostępnością Twojej witryny

Poprawa dostępności witryny nie musi oznaczać zwiększenia budżetu indeksowania. Google określa najlepszą szybkość skanowania na podstawie zapotrzebowania, zgodnie z wcześniejszym opisem. Jednak problemy z dostępnością sprawiają, że Google nie skanuje witryny wystarczająco często.

Diagnoza:

Przejrzyj historię skanowania witryny przez Googlebota w raporcie Statystyki indeksowania. Dowiesz się z niego, kiedy wykryliśmy problemy z dostępnością Twojej witryny. Jeśli widzisz błędy lub ostrzeżenia dotyczące dostępności witryny, na wykresach dostępności hosta poszukaj przypadków, w których żądania Googlebota przekroczyły czerwoną linię limitu. Kliknij wykres, aby sprawdzić adresy URL, których dotyczą błędy, i spróbuj je dopasować do problemów w witrynie.

Możesz też przetestować kilka adresów URL w swojej witrynie za pomocą narzędzia do sprawdzania adresów URL. Jeśli narzędzie zwraca ostrzeżenia Przekroczono limit obciążenia hosta, oznacza to, że Googlebot nie może zindeksować tylu adresów URL, ile udało się wykryć w Twojej witrynie.

Postępowanie:

Zapoznaj się z dokumentacją raportu Statystyki indeksowania, aby dowiedzieć się, jak znaleźć i rozwiązać niektóre problemy z dostępnością.
Zablokuj skanowanie stron, których nie chcesz indeksować. Zobacz Zarządzanie zasobami.
Zwiększ szybkość wczytywania i renderowania stron. Zobacz Zwiększanie efektywności indeksowania witryny.
Zwiększ możliwości serwera. Jeśli uważasz, że Google stale skanuje witrynę na granicy możliwości serwera, ale nadal niektóre ważne adresy URL nie są skanowane ani aktualizowane stosownie do potrzeb, możesz zwiększyć możliwości serwera, aby pomóc Google w obsłużeniu większej liczby stron w Twojej witrynie. Przejrzyj historię dostępności hosta w raporcie Statystyki indeksowania, aby sprawdzić, czy szybkość skanowania Google często przekracza limit. Jeśli tak jest, zwiększ zasoby serwera na miesiąc i sprawdź, czy w tym samym okresie liczba żądań indeksowania wzrosła.

Sprawdź, czy jakieś części Twojej witryny nie są indeksowane, choć powinny

Google poświęca Twojej witrynie niezbędną ilość czasu, aby zindeksować wszystkie możliwe do znalezienia treści wysokiej jakości, które są wartościowe z punktu widzenia użytkowników. Jeśli uważasz, że Googlebot pomija ważne treści, to być może o nich nie wie, są one przed nim zablokowane lub ma on do nich ograniczony dostęp (albo stara się nie przeciążać witryny).

Diagnoza:

Search Console nie udostępnia historii skanowania witryny, którą można filtrować według adresu URL lub ścieżki, ale możesz przejrzeć dzienniki witryny, aby sprawdzić, czy Googlebot zeskanował konkretne adresy URL. To, czy te zeskanowane adresy URL zostały zindeksowane, to zupełnie inna sprawa.

Pamiętaj, że rozpoznanie nowych stron w większości witryn trwa co najmniej kilka dni. Dlatego nie należy oczekiwać, że adresy URL zostaną w nich zindeksowane tego samego dnia. Wyjątkiem są witryny, których treści szybko tracą aktualność, np. witryny z wiadomościami.

Postępowanie:

Jeśli strony, które dodajesz do swojej witryny, nie zostaną zindeksowane w rozsądnym czasie, oznacza to, że Google o nich nie wie, treści są blokowane, osiągnięty został limit możliwości serwera albo Twój budżet indeksowania został wyczerpany.

Poinformuj Google o nowych stronach: zaktualizuj mapy witryn, aby odzwierciedlały nowe adresy URL.
Sprawdź reguły w pliku robots.txt, aby się upewnić, że nie blokujesz stron przypadkowo.
Sprawdź priorytety skanowania (czyli rozsądnie wykorzystaj budżet indeksowania). Zarządzaj zasobami reklamowymi i popraw efektywność skanowania witryny.
Sprawdź, czy nie kończą się możliwości serwera. Googlebot ograniczy skanowanie, jeśli wykryje, że Twoje serwery mają problem z obsługą żądań indeksowania.

Pamiętaj, że strony, których treści nie są dostatecznie wartościowe lub nie odpowiadają potrzebom użytkowników, mogą nie pojawiać się w wynikach wyszukiwania, nawet jeśli zostały zeskanowane.

Sprawdź, czy aktualizacje są indeksowane dostatecznie szybko

Jeśli pomijamy nowe lub zaktualizowane strony w Twojej witrynie, być może ich nie widzimy lub nie zauważyliśmy, że zostały zaktualizowane. Oto jak możesz nas poinformować o aktualizacjach stron.

Pamiętaj, że Google stara się sprawdzać i indeksować strony w miarę szybko. W przypadku większości witryn ten czas wynosi co najmniej 3 dni. Trudno oczekiwać, że Google zindeksuje strony tego samego dnia, w którym je opublikujesz, chyba że prowadzisz witrynę z wiadomościami lub publikujesz inne wartościowe treści, które szybko tracą aktualność.

Diagnoza:

Przejrzyj dzienniki witryny, aby sprawdzić, kiedy Googlebot zindeksował konkretne adresy URL.

Aby poznać datę indeksowania, użyj narzędzia do sprawdzania adresów URL lub wyszukaj zaktualizowane adresy URL w Google.

Postępowanie:

Zalecane czynności:

Jeśli Twoja witryna zawiera wiadomości, użyj mapy witryny dla Wiadomości Google.
Używaj w mapach witryn tagu <lastmod>, aby wskazać, kiedy zindeksowany adres URL został zaktualizowany.
Stosuj uproszczoną strukturę adresów URL, aby ułatwić Google znalezienie Twoich stron.
Podawaj standardowe, możliwe do zindeksowania linki zdefiniowane tagiem <a>, aby ułatwić Google znalezienie Twoich stron.
Jeśli Twoja witryna używa osobnych wersji HTML na urządzenia mobilne i komputery, podaj w wersji mobilnej ten sam zestaw linków co w wersji na komputery. Jeśli nie możesz podać tego samego zestawu linków w wersji mobilnej, upewnij się, że są one uwzględnione w pliku mapy witryny. Google indeksuje tylko wersję mobilną stron, a ograniczenie liczby linków na niej może spowolnić wykrywanie nowych stron.

Czego unikać:

Nie przesyłaj tej samej niezmienionej mapy witryny wielokrotnie w ciągu jednego dnia.
Nie oczekuj, że Googlebot zeskanuje całą zawartość mapy witryny lub zrobi to od razu. Mapy witryn stanowią przydatne sugestie dla Googlebota, ale nie są bezwzględnie konieczne.
Nie uwzględniaj w mapach witryn tych adresów URL, mają nie być widoczne w wyszukiwarce. Może to spowodować niepotrzebne zużycie budżetu indeksowania na strony, których nie chcesz indeksować.

Zwiększ efektywność indeksowania witryny

Zwiększanie szybkości wczytywania stron

Skanowanie przez Google podlega ograniczeniom związanym z przepustowością, czasem i dostępnością wystąpień Googlebota. Jeśli Twój serwer szybciej odpowiada na żądania, być może uda nam się zindeksować więcej stron w Twojej witrynie. Google woli indeksować tylko treści wysokiej jakości, więc przyspieszenie działania stron o niskiej jakości nie zachęci Googlebota do skanowania większej części Twojej witryny. I odwrotnie, jeśli uznamy, że pomijamy w niej treści wysokiej jakości, prawdopodobnie zwiększymy Twój budżet, żeby je zindeksować.

Aby zoptymalizować strony i zasoby pod kątem indeksowania:

Za pomocą pliku robots.txt zablokuj wczytywanie przez Googlebota dużych zasobów, które nie są ważne. Pamiętaj, aby blokować tylko mniej istotne zasoby, czyli takie, które nie mają wpływu na zrozumienie treści strony (np. obrazy, które pełnią funkcje dekoracyjne).
Upewnij się, że strony wczytują się szybko.
Uważaj na długie łańcuchy przekierowań, które mają negatywny wpływ na indeksowanie.
Znaczenie ma zarówno czas odpowiedzi na żądania przesyłane do serwera, jak i czas potrzebny do wyrenderowania stron, m.in. czas wczytywania i uruchomienia umieszczonych zasobów, takich jak obrazy czy skrypty. Pamiętaj o dużych lub wczytujących się powoli zasobach, które wymagają indeksowania.

Określanie zmian treści za pomocą kodów stanu HTTP

Google zwykle obsługuje nagłówki żądań HTTP If-Modified-Since i If-None-Match na potrzeby indeksowania. Roboty Google nie wysyłają nagłówków podczas wszystkich prób indeksowania. Zależy to od przypadku użycia żądania (np. AdsBot z większym prawdopodobieństwem ustawi nagłówki żądań HTTP If-Modified-Since i If-None-Match). Jeśli nasze roboty indeksujące wysyłają nagłówek If-Modified-Since, wartością tego nagłówka jest data i godzina wskazująca, kiedy zawartość została ostatnio zindeksowana. Na podstawie tej wartości serwer może zwrócić kod stanu HTTP 304 (Not Modified) bez treści odpowiedzi – w takim przypadku Google ponownie użyje ostatnio zindeksowanej wersji treści. Jeśli treści są nowsze niż data określona przez robota w nagłówku If-Modified-Since, serwer może zwrócić kod stanu HTTP 200 (OK) z treścią odpowiedzi.

Niezależnie od nagłówków żądania możesz wysłać kod stanu HTTP 304 (Not Modified) bez treści odpowiedzi na żadne żądanie Googlebota, jeśli treść nie zmieniła się od czasu ostatniego odwiedzania adresu URL przez Googlebota. Pozwoli to zaoszczędzić czas i zasoby związane z przetwarzaniem na serwerze, co może zwiększyć wydajność indeksowania.

Ukrywanie adresów URL, które mają nie być widoczne w wynikach wyszukiwania

Marnowanie zasobów serwera na niepotrzebne strony może ograniczyć skanowanie stron, które są dla Ciebie ważne. Może to spowodować znaczne opóźnienie w odkrywaniu atrakcyjnych nowych lub zaktualizowanych treści w witrynie.

Udostępnianie w witrynie wielu adresów URL, które według Ciebie nie powinny być indeksowane przez wyszukiwarki, może negatywnie wpłynąć na skanowanie i indeksowanie witryny. Zazwyczaj są to adresy URL z tych kategorii:

Nawigacja fasetowa i identyfikatory sesji: nawigacja fasetowa obejmuje zazwyczaj powielone treści z witryny. Identyfikatory sesji i inne parametry URL po prostu służą do sortowania lub filtrowania treści na stronie, a nie udostępniania nowych treści. Dowiedz się, jak zarządzać indeksowaniem stron nawigacji fasetowej.
Powielone treści: pomóż Google zidentyfikować powielone treści, aby uniknąć niepotrzebnego skanowania.
Strony soft 404: ustaw zwracanie kodu 404, gdy strona już nie istnieje.
Strony zaatakowane przez hakerów: przejrzyj raport Problemy dotyczące bezpieczeństwa i napraw lub usuń strony, które zostały zaatakowane przez hakerów.
Nieskończone przestrzenie i serwery proxy: zablokuj ich indeksowanie za pomocą pliku robots.txt.
Treści niskiej jakości i spam: oczywiście należy ich unikać.
Strony z koszykami na zakupy, strony z przewijaniem nieskończonym i strony umożliwiające wykonanie czynności (np. strony typu „zarejestruj się” lub „kup teraz”).

Zalecane czynności:

Użyj pliku robots.txt, jeśli uważasz, że w ogóle nie powinniśmy indeksować określonego zasobu lub danej strony.
Jeśli 1 zasób jest wielokrotnie używany na wielu stronach (na przykład udostępniany obraz lub plik JavaScript), odwołuj się do niego za pomocą tego samego adresu URL na każdej stronie. Umożliwi to Google przechowanie w pamięci podręcznej i ponownie wykorzystywanie tego samego zasobu bez konieczności wielokrotnego wysyłania żądań.

Czego unikać:

Nie dodawaj regularnie stron ani katalogów do pliku robots.txt ani ich z niego nie usuwaj w celu zmiany alokacji budżetu na indeksowanie witryny. Korzystaj z pliku robots.txt tylko w przypadku stron lub zasobów, które nie powinny pojawiać się w Google przez dłuższy czas.
Nie stosuj rotacji map witryn ani nie używaj innych mechanizmów tymczasowego ukrywania treści w celu zmiany alokacji budżetu.

Przeciwdziałaj zbyt częstemu indeksowaniu witryny (nagłe wypadki)

Googlebot korzysta z algorytmów, które zapobiegają przeciążaniu witryny żądaniami indeksowania. Jeśli jednak okaże się, że Googlebot powoduje przeciążenie Twojej witryny, możesz wykonać kilka czynności.

Diagnoza:

Monitoruj serwer pod kątem nadmiernej liczby żądań Googlebota wysyłanych to Twojej witryny.

Postępowanie:

W sytuacji awaryjnej zalecamy wykonanie tych czynności, aby ograniczyć obciążanie serwera przez Googlebota:

Gdy serwer jest przeciążony, ustaw tymczasowo zwracanie kodów stanu HTTP 503 lub 429 w odpowiedzi na żądania Googlebota. Googlebot spróbuje ponownie zindeksować te adresy URL za około 2 dni. Pamiętaj, że zwracanie kodów „brak dostępności” przez ponad kilka dni spowoduje trwałe spowolnienie lub zatrzymanie indeksowania adresów URL w Twojej witrynie. Dlatego wykonaj czynności dodatkowe.
Gdy szybkość indeksowania spadnie, zatrzymaj zwracanie kodów stanu HTTP 503 lub 429 w odpowiedzi na żądania indeksowania. Zwracanie kodu 503 lub 429 przez ponad 2 dni spowoduje, że Google usunie z indeksu te adresy URL.
Monitoruj indeksowanie i wydajność hosta na przestrzeni czasu.
Jeśli robot, który stwarza problem, jest jednym z robotów AdsBot, przyczyną problemu jest prawdopodobnie utworzenie przez Ciebie dla witryny celów dynamicznych reklam w wyszukiwarce, które Google próbuje zindeksować. Indeksowanie będzie powtarzane co 3 tygodnie. Jeśli Twój serwer nie poradzi sobie z obsługą tego indeksowania, ogranicz cele reklam lub znajdź serwer o większych możliwościach.

Fakty i mity dotyczące indeksowania

Sprawdź swoją wiedzę na temat sposobu skanowania i indeksowania stron przez Google

Kompresja moich map witryn może zwiększyć budżet indeksowania.

Prawda

Fałsz

Nie. Spakowane mapy witryn nadal wymagają pobrania z serwera. Dlatego wysyłanie skompresowanych map witryn nie wpływa znacząco na czas i wysiłek, jaki Google poświęca na indeksowanie.

Google woli bardziej aktualne treści, więc lepiej będzie stale modyfikować stronę.

Prawda

Fałsz

Treści są oceniane na podstawie jakości, niezależnie od daty ich utworzenia. Twórz i aktualizuj treści stosownie do potrzeb. Jednak wprowadzanie drobnych zmian i aktualizowanie daty strony, aby stworzyć pozory, że treści są nowsze, nie ma sensu.

Google woli stare treści (są bardziej wartościowe) zamiast nowych.

Prawda

Fałsz

Jeśli strona jest przydatna, to nie jest istotne, czy zawiera treści nowe czy stare.

Google woli czytelne adresy URL i nie lubi parametrów zapytania.

Prawda

Fałsz

Możemy indeksować parametry.

Im szybsze wczytywanie i renderowanie, tym więcej Google może zeskanować.

True

Prawda, ponieważ nasze zasoby są ograniczone przez czas i liczbę robotów indeksujących. Jeśli możesz nam udostępnić więcej stron w krótszym czasie, będziemy mogli zeskanować ich więcej. Możemy jednak poświęcić więcej czasu na indeksowanie witryny, która zawiera ważniejsze informacje, nawet jeśli działa ona wolniej. Przyspieszenie działania witryny z myślą o użytkownikach jest zazwyczaj ważniejsze niż przyspieszenie w celu zwiększenia skuteczności skanowania. Dużo prościej jest wskazać Google właściwe treści do indeksowania niż oczekiwać, że za każdym razem będziemy skanować całą zawartość witryny. Pamiętaj, że skanowanie witryny obejmuje zarówno pobieranie, jak i renderowanie treści. Renderowanie strony zabiera tyle samo czasu co jej pobieranie. Dlatego szybsze renderowanie stron przyspieszy też skanowanie.

Fałsz

Małe witryny nie są indeksowane tak często jak duże.

True

Fałsz

Jeśli witryna zawiera ważne treści, które często się zmieniają, będziemy ją często indeksować niezależnie od jej rozmiaru.

Treści znajdujące się bliżej strony głównej są ważniejsze dla Google.

Prawda

Częściowo prawda

Strona główna jest często najważniejszą stroną w witrynie, więc strony bezpośrednio z nią powiązane mogą być traktowane jako ważniejsze i dlatego są częściej indeksowane. Nie oznacza to jednak, że te strony będą zajmować wyższą pozycję w rankingu niż inne strony w witrynie.

Fałsz

Obsługa wersji adresów URL to dobry sposób na zachęcenie Google do ponownego zindeksowania moich stron.

Prawda

Częściowo prawda

Użycie wersji adresu URL strony, aby zachęcić Google do jej ponownego zindeksowania, prawdopodobnie odniesie skutek, ale często nie jest to konieczne. Niepotrzebnie też zostaną zużyte zasoby indeksowania, jeśli w rzeczywistości na stronie nic się nie zmieniło. Jeśli do wskazywania nowych treści używasz wersji adresów URL, zalecamy, aby zmieniać określony adres tylko wtedy, gdy treść strony uległa znacznym modyfikacjom.

Fałsz

Szybkość witryny i błędy wpływają na mój budżet indeksowania.

True

Przyspieszenie działania witryny poprawia wygodę użytkowników i jednocześnie zwiększa szybkość indeksowania. Szybka witryna oznacza stabilne serwery, dzięki czemu Googlebot może pobrać więcej treści w ramach tej samej liczby połączeń. Z drugiej strony znaczna liczba kodów stanu odpowiedzi HTTP 5xx (błędy serwera) lub przypadków przekroczenia limitu czasu połączenia sygnalizuje odwrotną sytuację, więc szybkość indeksowania spada. Zalecamy uważne przeglądanie raportu Statystyki indeksowania w Search Console i pilnowanie, aby liczba błędów serwera była niska.

Fałsz

Indeksowanie to czynnik rankingowy.

True

Fałsz

Zwiększenie szybkości indeksowania nie musi prowadzić do poprawy pozycji witryny w wynikach wyszukiwania. Google porządkuje wyniki na podstawie wielu sygnałów. Indeksowanie jest konieczne, aby strona pojawiła się w wynikach wyszukiwania, ale nie jest to sygnał rankingowy.

Budżet indeksowania uwzględnia alternatywne adresy URL i treści umieszczone.

True

Ogólnie każdy URL skanowany przez Googlebota jest wliczany do budżetu indeksowania witryny. Alternatywne adresy URL (np. strony AMP lub strony z parametrem hreflang), a także umieszczone treści (takie jak pliki CSS i JavaScript, m.in. pobrania XHR) mogą wymagać skanowania, które pochłania budżet indeksowania witryny.

Fałsz

Mogę kontrolować Googlebota za pomocą reguły „crawl-delay” (opóźnienia indeksowania).

True

Fałsz

Googlebot nie przetwarza niestandardowej reguły „crawl-delay” z pliku robots.txt.

Reguła nofollow wpływa na budżet indeksowania.

Prawda

Częściowo prawda

Każdy zeskanowany URL wpływa na budżet indeksowania, więc nawet jeśli adres URL jest na stronie objęty parametrem nofollow, strona ta może zostać zindeksowana, o ile inna strona w Twojej witrynie lub dowolna inna strona w sieci nie oznaczy linku dyrektywą nofollow.

Fałsz

Mogę używać noindex, aby kontrolować budżet indeksowania.

Prawda

Częściowo prawda

Każdy zindeksowany URL wpływa na budżet indeksowania, a Google musi zindeksować stronę, aby znaleźć regułę noindex.

Pamiętaj jednak, że noindex ma za zadanie pomóc Ci w uniknięciu indeksowania. Jeśli chcesz mieć pewność, że te strony nie trafią do indeksu Google, używaj nadal noindex i nie martw się o budżet indeksowania. Pamiętaj też, że jeśli usuniesz adresy URL z indeksu Google za pomocą tagu noindex lub w inny sposób, Googlebot może skupić się na innych adresach URL w Twojej witrynie, co oznacza, że noindex może na dłuższą metę pośrednio zwolnić część budżetu związanego z indeksowaniem Twojej witryny.

Fałsz

Strony z kodami stanu HTTP 4xx marnują budżet indeksowania.

Prawda

Fałsz

Strony, które wyświetlają kody stanu HTTP 4xx (z wyjątkiem 429), nie marnują budżetu indeksowania. Googlebot próbował zindeksować stronę, ale otrzymał kod stanu bez innych treści.