Jesteśmy teraz na LinkedIn: aby uzyskać wiadomości i zasoby z wyszukiwarki Google dotyczące tego, jak ułatwić znajdowanie witryny, obserwuj nas na LinkedIn.

Skanowanie w grudniu: jak i dlaczego Googlebot skanuje strony

Wtorek, 3 grudnia 2024 r.

Być może wiesz, że wyszukiwarka Google musi wykonać kilka zadań, zanim strona internetowa zacznie się wyświetlać w wynikach wyszukiwania Google. Jednym z nich jest indeksowanie. W wyszukiwarce Google zajmuje się nim Googlebot, czyli program działający na serwerach Google. Pobiera on adresy URL i obsługuje takie kwestie jak błędy sieci, przekierowania i inne drobne komplikacje, na które może się natknąć podczas przeszukiwania internetu. Jest jednak jeszcze kilka rzeczy, o których rzadko się mówi. W tym miesiącu będziemy co tydzień omawiać różne szczegóły, ponieważ mogą one mieć znaczący wpływ na sposób indeksowania Twoich witryn.

Wróćmy na chwilę do początku – czym jest indeksowanie?

Indeksowanie to proces odkrywania nowych stron internetowych oraz ponownego odwiedzania zaktualizowanych stron i ich pobierania. Krótko mówiąc, Googlebot pobiera adres URL, wysyła żądanie HTTP do serwera, na którym jest on przechowywany, a potem odbiera odpowiedź od tego serwera, śledząc ewentualne przekierowania, obsługując błędy i przekazując zawartość strony do systemu indeksowania Google.

Nowoczesne strony internetowe nie składają się jednak tylko z czystego kodu HTML. Co z innymi zasobami, które często znajdują się na stronie? Jak ich indeksowanie wpływa na „budżet indeksowania”? Czy te zasoby można przechowywać w pamięci podręcznej po stronie Google? Czy jest jakaś różnica między adresami URL, które nie zostały wcześniej zeskanowane, a tymi, które są już zindeksowane? W tym poście odpowiemy na te i inne pytania.

Googlebot i indeksowanie zasobów strony

Oprócz kodu HTML nowoczesne witryny korzystają też wielu różnych technologii, takich jak JavaScript i CSS, aby zapewnić użytkownikom wygodę obsługi i przydatne funkcje. Gdy użytkownik otwiera takie strony w przeglądarce, najpierw pobiera ona nadrzędny adres URL, który zawiera dane potrzebne do rozpoczęcia tworzenia strony dla użytkownika – kod HTML strony. Te wstępne dane mogą zawierać odwołania do zasobów takich jak JavaScript i CSS, ale także obrazów i filmów, które przeglądarka ponownie pobierze, aby ostatecznie utworzyć stronę i pokazać ją użytkownikowi.

Google robi dokładnie to samo, ale w trochę inny sposób:

Googlebot pobiera dane początkowe z nadrzędnego adresu URL, czyli kodu HTML strony.
Googlebot przekazuje pobrane dane do usługi renderowania internetowego (WRS).
Korzystając z Googlebota, usługa WRS pobiera zasoby, do których odwołują się oryginalne dane.
WRS tworzy stronę, używając wszystkich pobranych zasobów, tak jak przeglądarka użytkownika.

W porównaniu z przeglądarką czas między poszczególnymi krokami może być znacznie dłuższy ze względu na ograniczenia związane z planowaniem, takie jak obciążenie serwera hostującego zasoby potrzebne do renderowania strony. Tu zaczyna się rola budżetu indeksowania.

Indeksowanie zasobów potrzebnych do renderowania strony zmniejsza budżet indeksowania dla nazwy hosta, pod którą te zasoby są przechowywane. Aby to poprawić, WRS próbuje zapisać w pamięci podręcznej każdy zasób (JavaScript i CSS) wymieniony na stronach, które renderuje. Czas życia danych w pamięci podręcznej WRS nie jest zależny od dyrektyw dotyczących buforowania HTTP. Zamiast tego WRS buforuje wszystkie dane przez maksymalnie 30 dni, co pomaga zachować budżet indeksowania witryny na potrzeby innych zadań indeksowania.

Z perspektywy właściciela witryny zarządzanie sposobem indeksowania zasobów i ich liczbą może wpływać na budżet indeksowania witryny. Nasze zalecenia:

Używaj jak najmniej zasobów, aby zapewnić użytkownikom wygodę. Im mniej zasobów potrzebnych do renderowania strony, tym mniej budżetu indeksowania będzie wykorzystywane podczas renderowania.
Ostrożnie używaj parametrów pomijania pamięci podręcznej: jeśli zmienią się adresy URL zasobów, Googlebot może być zmuszony ponownie zindeksować zasoby, nawet jeśli ich zawartość się nie zmieniła. To oczywiście spowoduje wykorzystanie budżetu indeksowania.
Hostuj zasoby, używając innej nazwy hosta niż w witrynie głównej – na przykład korzystając z sieci CDN lub hostując zasoby w innej subdomenie. Spowoduje to przeniesienie kwestii związanych z budżetem indeksowania na hosta, który udostępnia zasoby.
Aktualizacja z 6 grudnia 2024 roku: może to spowodować wolniejsze działanie stron z powodu obciążenia połączenia z inną nazwą hosta. Dlatego nie zalecamy stosowania tej strategii w przypadku zasobów krytycznych (takich jak JavaScript i CSS), które są potrzebne do renderowania strony. Warto jednak rozważyć to podejście w przypadku większych zasobów niekrytycznych, takich jak filmy czy pliki do pobrania.

Wszystko to dotyczy też zasobów multimedialnych. Jeśli Googlebot (a dokładniej odpowiednio Googlebot-Image i Googlebot-Video) pobiera te pliki, wykorzystuje przy tym budżet indeksowania witryny.

Możesz też chcieć dodać do listy plik robots.txt, ale z punktu widzenia renderowania zablokowanie indeksowania zasobów zwykle powoduje problemy. Jeśli WRS nie może pobrać zasobu krytycznego dla renderowania, wyszukiwarka Google może mieć problemy z wyodrębnieniem treści strony i zezwoleniem na jej pozycjonowanie w wyszukiwarce.

Co skanuje Googlebot?

Najlepszym źródłem informacji o tym, jakie zasoby indeksuje Google, są dzienniki dostępu do witryny, które zawierają wpisy dotyczące każdego adresu URL, który został zażądany przez przeglądarki i roboty. Aby umożliwić identyfikację robotów Google w dzienniku dostępu, publikujemy zakresy adresów IP w dokumentacji dla deweloperów.

Drugim najlepszym źródłem informacji jest oczywiście raport Statystyki indeksowania w Search Console, który wyszczególnia poszczególne rodzaje zasobów według robota:

Raport Statystyki indeksowania w Search Console pokazuje różne typy zasobów zindeksowanych przez Googlebota

Jeśli interesuje Cię indeksowanie i renderowanie oraz chcesz o tym porozmawiać z innymi, dołącz do społeczności Centrum wyszukiwarki. Znajdziesz nas też na LinkedIn.

Autorzy: Martin Splitt i Gary Illyes

Aktualizacje

Aktualizacja z 6 grudnia 2024 r.: odnotowano wpływ na wydajność spowodowany przez wyświetlanie zasobów z innego źródła.

Chcesz dowiedzieć się więcej o skanowaniu? Zobacz całą serię Skanowanie w grudniu:

Tworzenie agentów AI za pomocą Kreatora agentów Vertex AI

Podczas tego ćwiczenia w Codelabs dowiesz się, jak tworzyć i wdrażać agenty generatywnej AI przy użyciu zaawansowanych narzędzi i infrastruktury Google Cloud. Omówimy najważniejsze pojęcia i przeprowadzimy Cię przez początkowe kroki, które należy wykonać, aby uruchomić pierwszego agenta.

Ćwiczenie z programowania dotyczące poufnej przestrzeni

Z tego laboratorium dowiesz się, jak uruchamiać zadania AI/ML za pomocą akceleratora przy użyciu rozwiązania Trusted Space.

Wdrażanie w Cloud Run pełnego pakietu aplikacji JavaScript z Cloud SQL for PostgreSQL

Cloud Run to w pełni zarządzana platforma, która umożliwia uruchamianie kodu bezpośrednio w infrastrukturze Google o wysokiej skalowalności. W tym Codelab pokażemy, jak połączyć aplikację Next.js w Cloud Run z bazą danych Cloud SQL dla PostgreSQL.

Skanowanie w grudniu: jak i dlaczego Googlebot skanuje strony

Wróćmy na chwilę do początku – czym jest indeksowanie?

Googlebot i indeksowanie zasobów strony

Co skanuje Googlebot?

Aktualizacje

Chcesz dowiedzieć się więcej o skanowaniu? Zobacz całą serię Skanowanie w grudniu:

Tworzenie agentów AI za pomocą Kreatora agentów Vertex AI

Ćwiczenie z programowania dotyczące poufnej przestrzeni

Wdrażanie w Cloud Run pełnego pakietu aplikacji JavaScript z Cloud SQL for PostgreSQL

Ćwiczenie z programowania dotyczące regresji logistycznej

Ćwiczenie z programowania dotyczące regresji logistycznej

Ćwiczenie z programowania dotyczące regresji liniowej

Ćwiczenie z programowania dotyczące regresji liniowej

Pierwsze kroki z wyszukiwaniem wektorowym w Spanner

Aidemy: tworzenie systemów wieloagentowych za pomocą LangGraph, EDA i generatywnej AI w Google Cloud

Aplikacja do wyszukiwania zabawek z bazami danych w chmurze, środowiskiem uruchomieniowym bez serwera i integracjami z oprogramowaniem open source

Interfejs Private Service Connect Vertex AI Pipelines

Tworzenie aplikacji do obsługi czatu na podstawie LLM i RAG przy użyciu AlloyDB AI i LangChain

AlloyDB Omni i model AI lokalnego w Kubernetes.

Przyspieszanie wysyłania zapytań analitycznych za pomocą silnika kolumnowego w AlloyDB Omni.

Wprowadzenie do wektorów dystrybucyjnych z AlloyDB AI

Omówienie funkcji Gemini Code Assist Standard i Enterprise w edytorze Google Cloud Shell dla deweloperów

Pierwsze kroki z wektorami dystrybucyjnymi w Cloud SQL for PostgreSQL

Wyświetlanie obrazów AVIF

Jak utworzyć połączenie Private Service Connect dla AlloyDB

Tworzenie narzędzia do podsumowywania filmów w YouTube na podstawie Gemini

Jak utworzyć Private Service Connect dla Cloud SQL

Instalowanie i konfigurowanie Toolboxa do zastosowań generatywnej AI i agentów w AlloyDB

Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku Go

Tworzenie za pomocą Firebase Data Connect

Codelab – tworzenie kontekstowej aplikacji do rekomendowania asan jogi za pomocą Firestore, wyszukiwania wektorowego, Langchain i Gemini (wersja w Pythonie)

Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku JavaScript

Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w Pythonie

Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku Java

Building Applications in the AI Era

Utwórz kontekstualną aplikację do rekomendowania pozycji jogi za pomocą Firestore, wyszukiwania wektorowego i Gemini 2.0.