Wtorek, 3 grudnia 2024 r.
Być może wiesz, że wyszukiwarka Google musi wykonać kilka zadań, zanim strona internetowa zacznie się wyświetlać w wynikach wyszukiwania Google. Jednym z nich jest indeksowanie. W wyszukiwarce Google zajmuje się nim Googlebot, czyli program działający na serwerach Google. Pobiera on adresy URL i obsługuje takie kwestie jak błędy sieci, przekierowania i inne drobne komplikacje, na które może się natknąć podczas przeszukiwania internetu. Jest jednak jeszcze kilka rzeczy, o których rzadko się mówi. W tym miesiącu będziemy co tydzień omawiać różne szczegóły, ponieważ mogą one mieć znaczący wpływ na sposób indeksowania Twoich witryn.
Wróćmy na chwilę do początku – czym jest indeksowanie?
Indeksowanie to proces odkrywania nowych stron internetowych oraz ponownego odwiedzania zaktualizowanych stron i ich pobierania. Krótko mówiąc, Googlebot pobiera adres URL, wysyła żądanie HTTP do serwera, na którym jest on przechowywany, a potem odbiera odpowiedź od tego serwera, śledząc ewentualne przekierowania, obsługując błędy i przekazując zawartość strony do systemu indeksowania Google.
Nowoczesne strony internetowe nie składają się jednak tylko z czystego kodu HTML. Co z innymi zasobami, które często znajdują się na stronie? Jak ich indeksowanie wpływa na „budżet indeksowania”? Czy te zasoby można przechowywać w pamięci podręcznej po stronie Google? Czy jest jakaś różnica między adresami URL, które nie zostały wcześniej zeskanowane, a tymi, które są już zindeksowane? W tym poście odpowiemy na te i inne pytania.
Googlebot i indeksowanie zasobów strony
Oprócz kodu HTML nowoczesne witryny korzystają też wielu różnych technologii, takich jak JavaScript i CSS, aby zapewnić użytkownikom wygodę obsługi i przydatne funkcje. Gdy użytkownik otwiera takie strony w przeglądarce, najpierw pobiera ona nadrzędny adres URL, który zawiera dane potrzebne do rozpoczęcia tworzenia strony dla użytkownika – kod HTML strony. Te wstępne dane mogą zawierać odwołania do zasobów takich jak JavaScript i CSS, ale także obrazów i filmów, które przeglądarka ponownie pobierze, aby ostatecznie utworzyć stronę i pokazać ją użytkownikowi.
Google robi dokładnie to samo, ale w trochę inny sposób:
- Googlebot pobiera dane początkowe z nadrzędnego adresu URL, czyli kodu HTML strony.
- Googlebot przekazuje pobrane dane do usługi renderowania internetowego (WRS).
- Korzystając z Googlebota, usługa WRS pobiera zasoby, do których odwołują się oryginalne dane.
- WRS tworzy stronę, używając wszystkich pobranych zasobów, tak jak przeglądarka użytkownika.
W porównaniu z przeglądarką czas między poszczególnymi krokami może być znacznie dłuższy ze względu na ograniczenia związane z planowaniem, takie jak obciążenie serwera hostującego zasoby potrzebne do renderowania strony. Tu zaczyna się rola budżetu indeksowania.
Indeksowanie zasobów potrzebnych do renderowania strony zmniejsza budżet indeksowania dla nazwy hosta, pod którą te zasoby są przechowywane. Aby to poprawić, WRS próbuje zapisać w pamięci podręcznej każdy zasób (JavaScript i CSS) wymieniony na stronach, które renderuje. Czas życia danych w pamięci podręcznej WRS nie jest zależny od dyrektyw dotyczących buforowania HTTP. Zamiast tego WRS buforuje wszystkie dane przez maksymalnie 30 dni, co pomaga zachować budżet indeksowania witryny na potrzeby innych zadań indeksowania.
Z perspektywy właściciela witryny zarządzanie sposobem indeksowania zasobów i ich liczbą może wpływać na budżet indeksowania witryny. Nasze zalecenia:
- Używaj jak najmniej zasobów, aby zapewnić użytkownikom wygodę. Im mniej zasobów potrzebnych do renderowania strony, tym mniej budżetu indeksowania będzie wykorzystywane podczas renderowania.
- Ostrożnie używaj parametrów pomijania pamięci podręcznej: jeśli zmienią się adresy URL zasobów, Googlebot może być zmuszony ponownie zindeksować zasoby, nawet jeśli ich zawartość się nie zmieniła. To oczywiście spowoduje wykorzystanie budżetu indeksowania.
- Hostuj zasoby, używając innej nazwy hosta niż w witrynie głównej – na przykład korzystając z sieci CDN lub hostując zasoby w innej subdomenie. Spowoduje to przeniesienie kwestii związanych z budżetem indeksowania na hosta, który udostępnia zasoby.
Wszystko to dotyczy też zasobów multimedialnych. Jeśli Googlebot (a dokładniej odpowiednio Googlebot-Image
i Googlebot-Video
) pobiera te pliki, wykorzystuje przy tym budżet indeksowania witryny.
Możesz też chcieć dodać do listy plik robots.txt, ale z punktu widzenia renderowania zablokowanie indeksowania zasobów zwykle powoduje problemy. Jeśli WRS nie może pobrać zasobu krytycznego dla renderowania, wyszukiwarka Google może mieć problemy z wyodrębnieniem treści strony i zezwoleniem na jej pozycjonowanie w wyszukiwarce.
Co skanuje Googlebot?
Najlepszym źródłem informacji o tym, jakie zasoby indeksuje Google, są dzienniki dostępu do witryny, które zawierają wpisy dotyczące każdego adresu URL, który został zażądany przez przeglądarki i roboty. Aby umożliwić identyfikację robotów Google w dzienniku dostępu, publikujemy zakresy adresów IP w dokumentacji dla deweloperów.
Drugim najlepszym źródłem informacji jest oczywiście raport Statystyki indeksowania w Search Console, który wyszczególnia poszczególne rodzaje zasobów według robota:

Jeśli interesuje Cię indeksowanie i renderowanie oraz chcesz o tym porozmawiać z innymi, dołącz do społeczności Centrum wyszukiwarki. Znajdziesz nas też na LinkedIn.
Aktualizacje
- Aktualizacja z 6 grudnia 2024 r.: odnotowano wpływ na wydajność spowodowany przez wyświetlanie zasobów z innego źródła.
Chcesz dowiedzieć się więcej o skanowaniu? Zobacz całą serię Skanowanie w grudniu:
Tworzenie agentów AI za pomocą Kreatora agentów Vertex AI
Podczas tego ćwiczenia w Codelabs dowiesz się, jak tworzyć i wdrażać agenty generatywnej AI przy użyciu zaawansowanych narzędzi i infrastruktury Google Cloud. Omówimy najważniejsze pojęcia i przeprowadzimy Cię przez początkowe kroki, które należy wykonać, aby uruchomić pierwszego agenta.
Ćwiczenie z programowania dotyczące poufnej przestrzeni
Z tego laboratorium dowiesz się, jak uruchamiać zadania AI/ML za pomocą akceleratora przy użyciu rozwiązania Trusted Space.
Wdrażanie w Cloud Run pełnego pakietu aplikacji JavaScript z Cloud SQL for PostgreSQL
Cloud Run to w pełni zarządzana platforma, która umożliwia uruchamianie kodu bezpośrednio w infrastrukturze Google o wysokiej skalowalności. W tym Codelab pokażemy, jak połączyć aplikację Next.js w Cloud Run z bazą danych Cloud SQL dla PostgreSQL.
Ćwiczenie z programowania dotyczące regresji logistycznej
Dzięki temu ćwiczeniu z programowania dowiesz się, jak używać regresji logistycznej do poznawania, w jakim stopniu właściwości takie jak płeć, grupa wiekowa, czas wyświetlenia i typ przeglądarki przekładają się na prawdopodobieństwo kliknięcia
Ćwiczenie z programowania dotyczące regresji logistycznej
Dzięki temu ćwiczeniu z programowania dowiesz się, jak używać regresji logistycznej do poznawania, w jakim stopniu właściwości takie jak płeć, grupa wiekowa, czas wyświetlenia i typ przeglądarki przekładają się na prawdopodobieństwo kliknięcia
Ćwiczenie z programowania dotyczące regresji liniowej
Dzięki temu ćwiczeniu w Codelabs dowiesz się, jak z zastosowaniem regresji liniowej utworzyć model, który prognozuje koszt kliknięcia. Aby ukończyć to ćwiczenie, potrzebujesz: Aby ukończyć to ćwiczenie, potrzebujesz wystarczająco dużo wysokiej
Ćwiczenie z programowania dotyczące regresji liniowej
Dzięki temu ćwiczeniu w Codelabs dowiesz się, jak z zastosowaniem regresji liniowej utworzyć model, który prognozuje koszt kliknięcia. Aby ukończyć to ćwiczenie, potrzebujesz wystarczająco dużo wysokiej jakości danych kampanii, aby można było
Pierwsze kroki z wyszukiwaniem wektorowym w Spanner
W tym ćwiczeniu utworzysz instancję Spannera i wykonasz wyszukiwanie podobieństw wektorów dystrybucyjnych za pomocą wbudowanego wyszukiwania wektorowego w Spannerze oraz integracji z modelami Vertex AI.
Aidemy: tworzenie systemów wieloagentowych za pomocą LangGraph, EDA i generatywnej AI w Google Cloud
Aby opracować na platformie Google Cloud Platform funkcjonalny system asystenta nauczyciela oparty na AI, nazwany „Aidemy”, który demonstruje możliwości systemów wieloagentowych. Zdobądź praktyczne doświadczenie w zakresie projektowania, tworzenia i wdrażania złożonego systemu wieloagentowego w Google Cloud, opanowania kluczowych pojęć związanych z rozwojem aplikacji LLM oraz zrozumienia zalet architektur opartych na zdarzeniach.
Aplikacja do wyszukiwania zabawek z bazami danych w chmurze, środowiskiem uruchomieniowym bez serwera i integracjami z oprogramowaniem open source
W tym laboratorium programistycznym utworzysz aplikację wyszukiwania wektorowego opartą na RAG, która wyszukuje zabawki pasujące do wyszukiwania przez klienta (za pomocą tekstów i obrazów), tworzy zabawki niestandardowe na podstawie prośby użytkownika oraz przewiduje cenę niestandardowej zabawki, korzystając z AlloyDB, Gemini, Imagen, LangChain4j i GenAI Toolbox for Databases.
Interfejs Private Service Connect Vertex AI Pipelines
Z tego samouczka dowiesz się, jak skonfigurować i zweryfikować Vertex AI Pipelines w Private Service Connect
Tworzenie aplikacji do obsługi czatu na podstawie LLM i RAG przy użyciu AlloyDB AI i LangChain
Z tego ćwiczenia w Codelab dowiesz się, jak utworzyć klaster AlloyDB, wdrożyć usługę GenAI Databases Retrieval Service do baz danych i utworzyć przykładową aplikację korzystającą z tej usługi.
AlloyDB Omni i model AI lokalnego w Kubernetes.
W tym laboratorium kodu dowiesz się, jak wdrożyć AlloyDB Omni w klastrze GKE, wdrożyć model I w tym samym klastrze, zarejestrować model w AlloyDB Omni i sprawić, aby działały razem
Przyspieszanie wysyłania zapytań analitycznych za pomocą silnika kolumnowego w AlloyDB Omni.
Z tego ćwiczenia w Codelabs dowiesz się, jak wdrożyć AlloyDB Omni w maszynie wirtualnej Compute, wczytywać dane i używać AlloyDB Columnar Engine do zwiększenia wydajności
Wprowadzenie do wektorów dystrybucyjnych z AlloyDB AI
Z tego ćwiczenia w Codelabs dowiesz się, jak używać AlloyDB AI w połączeniu z wyszukiwaniem wektorowym i tworzyć indeksy danych wektorowych
Omówienie funkcji Gemini Code Assist Standard i Enterprise w edytorze Google Cloud Shell dla deweloperów
W tym ćwiczeniu skorzystasz z Gemini Code Assist, czyli opartej na AI usługi wspomagającej w Google Cloud. Poznasz sposoby korzystania z Gemini Chat i funkcji wstawiania kodu, aby generować kod, interpretować kod i wykonywać inne zadania związane z kodowaniem przy użyciu AI.
Pierwsze kroki z wektorami dystrybucyjnymi w Cloud SQL for PostgreSQL
W tym laboratorium programistycznym dowiesz się, jak używać integracji Cloud SQL AI w połączeniu z wyszukiwaniem wektorowym i tworzyć indeksy danych wektorowych.
Wyświetlanie obrazów AVIF
Obrazy stanowią ponad 60% bajtów potrzebnych do wczytania strony internetowej. Dzięki AVIF możesz zmniejszyć rozmiar obrazów i przyspieszyć wczytywanie witryny. AVIF to format obrazu pochodzący z bitream wideo AV1. Format AVIF został opracowany z
Jak utworzyć połączenie Private Service Connect dla AlloyDB
Z tego Codelab dowiesz się, jak utworzyć usługę Private Service Connect dla AlloyDB
Tworzenie narzędzia do podsumowywania filmów w YouTube na podstawie Gemini
Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć narzędzie do streszczania filmów na podstawie Gemini, które może streszczać filmy w YouTube.
Jak utworzyć Private Service Connect dla Cloud SQL
Z tego ćwiczenia dowiesz się, jak utworzyć usługę Private Service Connect dla Cloud SQL
Instalowanie i konfigurowanie Toolboxa do zastosowań generatywnej AI i agentów w AlloyDB
W tym laboratorium programistycznym utworzysz i wdrożysz narzędzia dla aplikacji do prognozowania cen, która korzysta z AlloyDB i funkcji generatywnej AI za pomocą usługi GenAI Toolbox for Databases.
Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku Go
Aplikacje korzystające z generatywnej AI wymagają możliwości obserwacji jak każda inna aplikacja. Czy w przypadku generatywnej AI wymagane są specjalne techniki obserwowalności? W tym laboratorium utworzysz prostą aplikację wykorzystującą generatywną
Tworzenie za pomocą Firebase Data Connect
Dowiedz się, jak tworzyć aplikacje internetowe za pomocą Firebase Data Connect i GraphQL
Codelab – tworzenie kontekstowej aplikacji do rekomendowania asan jogi za pomocą Firestore, wyszukiwania wektorowego, Langchain i Gemini (wersja w Pythonie)
To ćwiczenie w Codelab poprowadzi Cię przez proces tworzenia aplikacji do rekomendowania pozycji jogi opartej na wiedzy. Aplikacja odpowiada na pytania użytkowników, sugerując odpowiednie pozycje jogi. Dowiesz się, jak utworzyć kolekcję Firestore zawierającą pozycje jogi na podstawie zbioru danych Hugging Face, skonfigurować wyszukiwanie wektorów w Firestore i zintegrować wszystko z aplikacją Flask.
Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku JavaScript
Aplikacje korzystające z generatywnej AI wymagają możliwości obserwacji jak każda inna aplikacja. Czy w przypadku generatywnej AI są wymagane specjalne techniki obserwowalności? W tym module utworzysz prostą aplikację wykorzystującą generatywną AI.
Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w Pythonie
Aplikacje korzystające z generatywnej AI wymagają możliwości obserwacji jak każda inna aplikacja. Czy w przypadku generatywnej AI są wymagane specjalne techniki obserwowalności? W tym module utworzysz prostą aplikację wykorzystującą generatywną AI.
Praktyczne techniki obserwowalności w przypadku aplikacji generatywnej AI w języku Java
Aplikacje korzystające z generatywnej AI wymagają możliwości obserwacji jak każda inna aplikacja. Czy w przypadku generatywnej AI są wymagane specjalne techniki obserwowalności? W tym module utworzysz prostą aplikację wykorzystującą generatywną AI.
Building Applications in the AI Era
W tym module użyjesz produktów generatywnej AI od Google do tworzenia infrastruktury w Google Cloud przy pomocy Gemini Cloud Assist, wysyłasz zapytania do danych BigQuery za pomocą funkcji SQL w Data Canvas, piszesz kod w notatnikach Jupyter w Colab
Utwórz kontekstualną aplikację do rekomendowania pozycji jogi za pomocą Firestore, wyszukiwania wektorowego i Gemini 2.0.
W tym ćwiczeniu w Codelab utworzysz kontekstową aplikację do wyszukiwania pozycji jogi, która odpowiada na pytania użytkowników o jogę. Pozwala też na wykonywanie zadań administracyjnych, takich jak tworzenie i edytowanie pozycji jogi.