Skanowanie w grudniu: jak i dlaczego Googlebot skanuje strony

Wtorek, 3 grudnia 2024 r.

Być może wiesz, że wyszukiwarka Google musi wykonać kilka zadań, zanim strona internetowa zacznie się wyświetlać w wynikach wyszukiwania Google. Jednym z nich jest indeksowanie. W wyszukiwarce Google zajmuje się nim Googlebot, czyli program działający na serwerach Google. Pobiera on adresy URL i obsługuje takie kwestie jak błędy sieci, przekierowania i inne drobne komplikacje, na które może się natknąć podczas przeszukiwania internetu. Jest jednak jeszcze kilka rzeczy, o których rzadko się mówi. W tym miesiącu będziemy co tydzień omawiać różne szczegóły, ponieważ mogą one mieć znaczący wpływ na sposób indeksowania Twoich witryn.

Wróćmy na chwilę do początku – czym jest indeksowanie?

Indeksowanie to proces odkrywania nowych stron internetowych oraz ponownego odwiedzania zaktualizowanych stron i ich pobierania. Krótko mówiąc, Googlebot pobiera adres URL, wysyła żądanie HTTP do serwera, na którym jest on przechowywany, a potem odbiera odpowiedź od tego serwera, śledząc ewentualne przekierowania, obsługując błędy i przekazując zawartość strony do systemu indeksowania Google.

Nowoczesne strony internetowe nie składają się jednak tylko z czystego kodu HTML. Co z innymi zasobami, które często znajdują się na stronie? Jak ich indeksowanie wpływa na „budżet indeksowania”? Czy te zasoby można przechowywać w pamięci podręcznej po stronie Google? Czy jest jakaś różnica między adresami URL, które nie zostały wcześniej zeskanowane, a tymi, które są już zindeksowane? W tym poście odpowiemy na te i inne pytania.

Googlebot i indeksowanie zasobów strony

Oprócz kodu HTML nowoczesne witryny korzystają też wielu różnych technologii, takich jak JavaScript i CSS, aby zapewnić użytkownikom wygodę obsługi i przydatne funkcje. Gdy użytkownik otwiera takie strony w przeglądarce, najpierw pobiera ona nadrzędny adres URL, który zawiera dane potrzebne do rozpoczęcia tworzenia strony dla użytkownika – kod HTML strony. Te wstępne dane mogą zawierać odwołania do zasobów takich jak JavaScript i CSS, ale także obrazów i filmów, które przeglądarka ponownie pobierze, aby ostatecznie utworzyć stronę i pokazać ją użytkownikowi.

Google robi dokładnie to samo, ale w trochę inny sposób:

Googlebot pobiera dane początkowe z nadrzędnego adresu URL, czyli kodu HTML strony.
Googlebot przekazuje pobrane dane do usługi renderowania internetowego (WRS).
Korzystając z Googlebota, usługa WRS pobiera zasoby, do których odwołują się oryginalne dane.
WRS tworzy stronę, używając wszystkich pobranych zasobów, tak jak przeglądarka użytkownika.

W porównaniu z przeglądarką czas między poszczególnymi krokami może być znacznie dłuższy ze względu na ograniczenia związane z planowaniem, takie jak obciążenie serwera hostującego zasoby potrzebne do renderowania strony. Tu zaczyna się rola budżetu indeksowania.

Indeksowanie zasobów potrzebnych do renderowania strony zmniejsza budżet indeksowania dla nazwy hosta, pod którą te zasoby są przechowywane. Aby to poprawić, WRS próbuje zapisać w pamięci podręcznej każdy zasób (JavaScript i CSS) wymieniony na stronach, które renderuje. Czas życia danych w pamięci podręcznej WRS nie jest zależny od dyrektyw dotyczących buforowania HTTP. Zamiast tego WRS buforuje wszystkie dane przez maksymalnie 30 dni, co pomaga zachować budżet indeksowania witryny na potrzeby innych zadań indeksowania.

Z perspektywy właściciela witryny zarządzanie sposobem indeksowania zasobów i ich liczbą może wpływać na budżet indeksowania witryny. Nasze zalecenia:

Używaj jak najmniej zasobów, aby zapewnić użytkownikom wygodę. Im mniej zasobów potrzebnych do renderowania strony, tym mniej budżetu indeksowania będzie wykorzystywane podczas renderowania.
Ostrożnie używaj parametrów pomijania pamięci podręcznej: jeśli zmienią się adresy URL zasobów, Googlebot może być zmuszony ponownie zindeksować zasoby, nawet jeśli ich zawartość się nie zmieniła. To oczywiście spowoduje wykorzystanie budżetu indeksowania.
Hostuj zasoby, używając innej nazwy hosta niż w witrynie głównej – na przykład korzystając z sieci CDN lub hostując zasoby w innej subdomenie. Spowoduje to przeniesienie kwestii związanych z budżetem indeksowania na hosta, który udostępnia zasoby.
Aktualizacja z 6 grudnia 2024 roku: może to spowodować wolniejsze działanie stron z powodu obciążenia połączenia z inną nazwą hosta. Dlatego nie zalecamy stosowania tej strategii w przypadku zasobów krytycznych (takich jak JavaScript i CSS), które są potrzebne do renderowania strony. Warto jednak rozważyć to podejście w przypadku większych zasobów niekrytycznych, takich jak filmy czy pliki do pobrania.

Wszystko to dotyczy też zasobów multimedialnych. Jeśli Googlebot (a dokładniej odpowiednio Googlebot-Image i Googlebot-Video) pobiera te pliki, wykorzystuje przy tym budżet indeksowania witryny.

Możesz też chcieć dodać do listy plik robots.txt, ale z punktu widzenia renderowania zablokowanie indeksowania zasobów zwykle powoduje problemy. Jeśli WRS nie może pobrać zasobu krytycznego dla renderowania, wyszukiwarka Google może mieć problemy z wyodrębnieniem treści strony i zezwoleniem na jej pozycjonowanie w wyszukiwarce.

Co skanuje Googlebot?

Najlepszym źródłem informacji o tym, jakie zasoby indeksuje Google, są dzienniki dostępu do witryny, które zawierają wpisy dotyczące każdego adresu URL, który został zażądany przez przeglądarki i roboty. Aby umożliwić identyfikację robotów Google w dzienniku dostępu, publikujemy zakresy adresów IP w dokumentacji dla deweloperów.

Drugim najlepszym źródłem informacji jest oczywiście raport Statystyki indeksowania w Search Console, który wyszczególnia poszczególne rodzaje zasobów według robota:

Raport Statystyki indeksowania w Search Console pokazuje różne typy zasobów zindeksowanych przez Googlebota

Jeśli interesuje Cię indeksowanie i renderowanie oraz chcesz o tym porozmawiać z innymi, dołącz do społeczności Centrum wyszukiwarki. Znajdziesz nas też na LinkedIn.

Autorzy: Martin Splitt i Gary Illyes

Aktualizacje

Aktualizacja z 6 grudnia 2024 r.: odnotowano wpływ na wydajność spowodowany przez wyświetlanie zasobów z innego źródła.