Przegląd robotów i modułów pobierania Google (klientów użytkownika)
Google korzysta z robotów i modułów pobierania, aby wykonywać działania w swoich usługach, automatycznie lub na żądanie użytkownika. „Robot” to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i skanowania witryn. Moduły pobierania działają jak program wget, który zwykle wysyła jedno żądanie w imieniu użytkownika. Klienty Google dzielą się na 3 kategorie:
Popularne roboty | Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania. |
Roboty specjalne |
Roboty specjalne są podobne do robotów typowych, ale są używane w konkretnych usługach, w przypadku których istnieje umowa między indeksowaną witryną a usługą Google dotycząca procesu indeksowania. Na przykład AdsBot ignoruje globalnego klienta użytkownika w pliku robots.txt (* ) za zgodą wydawcy reklamy.
|
Moduły pobierania uruchamiane przez użytkownika | Moduły pobierania uruchamiane przez użytkownika są częścią narzędzi i funkcji usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. |
Właściwości techniczne robotów i modułów pobierania Google
Roboty i moduły pobierania Google zostały zaprojektowane do działania jednocześnie na tysiącach komputerów, co poprawia ich wydajność i zapewnia skalowalność w miarę rozwoju sieci. Aby zoptymalizować wykorzystanie przepustowości, rozmieszczamy te klienty w wielu centrach danych na całym świecie, aby były one zlokalizowane w pobliżu witryn, z którymi mogą się łączyć. Z tego względu w dziennikach mogą się pojawić wizyty z kilku adresów IP. Google wysyła dane głównie z adresów IP w Stanach Zjednoczonych. Jeśli Googlebot wykryje, że witryna blokuje żądania pochodzące ze Stanów Zjednoczonych, może spróbować zindeksować ją z adresów IP znajdujących się w innych krajach.
Obsługiwane protokoły przenoszenia
Roboty i moduły pobierania Google obsługują HTTP/1.1 i HTTP/2. Roboty będą używać wersji protokołu, która zapewnia najlepszą skuteczność indeksowania, i mogą zmieniać protokoły między sesjami indeksowania w zależności od poprzednich statystyk indeksowania. Domyślna wersja protokołu używana przez roboty Google to HTTP/1.1. Indeksowanie przez HTTP/2 może zaoszczędzić zasoby obliczeniowe (np. procesor, pamięć RAM) Twojej witryny i Googlebota, ale nie przynosi korzyści związanych z konkretną usługą Google (np. nie zwiększa rankingu w wyszukiwarce Google).
Jeśli chcesz zrezygnować z indeksowania z wykorzystaniem protokołu HTTP/2, poinstruuj serwer hostujący Twoją witrynę, aby przy próbie indeksowania witryny przez HTTP/2 zwracał kod stanu HTTP 421
. Jeśli nie jest to możliwe, wyślij wiadomość do zespołu ds. indeksowania (jest to rozwiązanie tymczasowe).
Infrastruktura robota Google obsługuje też indeksowanie za pomocą protokołu FTP (zdefiniowanego w specyfikacji RFC959 i jej aktualizacjach) oraz FTPS (zdefiniowanego w specyfikacji RFC4217 i jej aktualizacjach). Indeksowanie za pomocą tych protokołów jest jednak rzadkie.
Obsługiwane kodowania treści
Roboty i moduły pobierania Google obsługują te formaty kodowania (kompresji) treści:
gzip,
deflate i
Brotli (br). Kodowania treści obsługiwane przez poszczególne klienty użytkownika Google są deklarowane w nagłówku Accept-Encoding
każdego żądania. Na przykład: Accept-Encoding: gzip, deflate, br
.
Szybkość indeksowania i obciążenie serwera
Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdej wizyty bez nadmiernego obciążania serwera. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, możesz zmniejszyć szybkość indeksowania. Pamiętaj, że wysyłanie nieodpowiednich kodów odpowiedzi HTTP do robotów Google może wpłynąć na sposób wyświetlania Twojej witryny w usługach Google.
Buforowanie HTTP
Infrastruktura Google do indeksowania obsługuje heurystyczne przechowywanie w pamięci podręcznej HTTP zgodnie ze standardem buforowania HTTP, w szczególności za pomocą nagłówka odpowiedzi ETag
i żądania If-None-Match
oraz nagłówka odpowiedzi Last-Modified
i żądania If-Modified-Since
.
Jeśli w odpowiedzi HTTP występują pola nagłówka ETag
i Last-Modified
, roboty Google używają wartości ETag
, ponieważ wymaga tego standard HTTP.
W przypadku robotów Google zalecamy użycie nagłówka ETag
zamiast nagłówka Last-Modified
, aby wskazać preferencje dotyczące pamięci podręcznej. Warto to zrobić, ponieważ w przypadku nagłówka ETag
nie ma problemów z formatowaniem daty.
Inne dyrektywy dotyczące buforowania HTTP nie są obsługiwane.
Poszczególne roboty i moduły pobierania Google mogą korzystać z pamięci podręcznej lub nie, w zależności od potrzeb usługi, z którą są powiązane. Na przykład Googlebot
obsługuje buforowanie podczas ponownego indeksowania adresów URL w wyszukiwarce Google, a Storebot-Google
obsługuje buforowanie tylko pod pewnymi warunkami.
Aby wdrożyć buforowanie HTTP w swojej witrynie, skontaktuj się z dostawcą usług hostingowych lub systemu zarządzania treścią.
ETag
i If-None-Match
Infrastruktura indeksowania Google obsługuje ETag
i If-None-Match
zgodnie ze standardem buforowania HTTP.
Dowiedz się więcej o nagłówku odpowiedzi ETag
i jego odpowiedniku w nagłówku żądania, If-None-Match
.
Last-Modified i If-Modified-Since
Infrastruktura indeksowania Google obsługuje Last-Modified
i If-Modified-Since
zgodnie ze standardem buforowania HTTP z tymi zastrzeżeniami:
-
Data w nagłówku
Last-Modified
musi być sformatowana zgodnie ze standardem HTTP. Aby uniknąć problemów z analizą, zalecamy użycie tego formatu daty: "Dzień tygodnia, DD Mon YYYY HH:MM:SS Strefa czasowa", np. „Fri, 4 Sep 1998 19:15:56 GMT”. -
Chociaż nie jest to wymagane, rozważ też ustawienie pola
max-age
w nagłówku odpowiedziCache-Control
, aby ułatwić robotom ustalenie, kiedy ponownie zindeksować dany adres URL. Ustaw wartość polamax-age
na oczekiwaną liczbę sekund, przez które treści mają pozostać niezmienione, np. „Cache-Control: max-age=94043
”.
Dowiedz się więcej o nagłówku odpowiedzi Last-Modified
i jego odpowiedniku w nagłówku żądania, If-Modified-Since
.
Weryfikowanie robotów i modułów pobierania Google
Roboty Google identyfikują się na 3 sposoby:
-
Nagłówek żądania HTTP
user-agent
. - Źródłowy adres IP żądania.
- Odwrotna nazwa hosta DNS źródłowego adresu IP.
Dowiedz się, jak używać tych informacji do weryfikacji robotów i modułów pobierania Google.