Omówienie robotów i modułów pobierania Google (klientów użytkownika)
Google korzysta z robotów i modułów pobierania, aby wykonywać działania w swoich usługach, automatycznie lub na żądanie użytkownika. „Robot” to ogólne określenie dowolnego programu służącego do automatycznego odnajdywania i skanowania witryn przez podążanie za linkami od strony do strony. Moduły pobierania działają jak program wget, który zwykle wysyła jedno żądanie w imieniu użytkownika. Klienty Google dzielą się na 3 kategorie:
Popularne roboty | Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania. |
Roboty specjalne |
Roboty specjalne są podobne do robotów typowych, ale są używane w konkretnych usługach, w przypadku których istnieje umowa między indeksowaną witryną a usługą Google dotycząca procesu indeksowania. Na przykład AdsBot ignoruje globalnego klienta użytkownika w pliku robots.txt (* ) za zgodą wydawcy reklamy.
|
Moduły pobierania uruchamiane przez użytkownika | Moduły pobierania uruchamiane przez użytkownika są częścią narzędzi i funkcji usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. |
Właściwości techniczne robotów i modułów pobierania Google
Roboty i moduły pobierania Google zostały zaprojektowane do działania jednocześnie na tysiącach komputerów, co poprawia ich wydajność i zapewnia skalowalność w miarę rozwoju sieci. Aby zoptymalizować wykorzystanie przepustowości, rozmieszczamy te klienty w wielu centrach danych na całym świecie, aby były one zlokalizowane w pobliżu witryn, z którymi mogą się łączyć. Z tego względu w dziennikach mogą się pojawić wizyty z kilku adresów IP. Google wysyła dane głównie z adresów IP w Stanach Zjednoczonych. Jeśli Googlebot wykryje, że witryna blokuje żądania pochodzące ze Stanów Zjednoczonych, może spróbować zindeksować ją z adresów IP znajdujących się w innych krajach.
Roboty i moduły pobierania Google używają protokołu HTTP/1.1 oraz – jeśli witryna obsługuje tę opcję – HTTP/2. Indeksowanie przez HTTP/2 może zaoszczędzić zasoby obliczeniowe (np. procesor, pamięć RAM) Twojej witryny i Googlebota, ale nie przynosi korzyści związanych z konkretną usługą (np. nie zwiększa rankingu w wyszukiwarce Google).
Jeśli chcesz zrezygnować z indeksowania z wykorzystaniem protokołu HTTP/2, poinstruuj serwer hostujący Twoją witrynę, aby przy próbie indeksowania witryny przez HTTP/2 zwracał kod stanu HTTP 421
. Jeśli nie jest to możliwe, wyślij wiadomość do zespołu ds. indeksowania (jest to rozwiązanie tymczasowe).
Roboty i moduły pobierania Google obsługują te formaty kodowania (kompresji) treści:
gzip,
deflate i
Brotli (br). Kodowania treści obsługiwane przez poszczególne klienty użytkownika Google są deklarowane w nagłówku Accept-Encoding
każdego żądania. Na przykład: Accept-Encoding: gzip, deflate, br
.
Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdej wizyty bez nadmiernego obciążania serwera. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, możesz zmniejszyć szybkość indeksowania. Pamiętaj, że wysyłanie nieodpowiednich kodów odpowiedzi HTTP do robotów Google może wpłynąć na sposób wyświetlania Twojej witryny w usługach Google.
Weryfikowanie robotów i modułów pobierania Google
Roboty Google identyfikują się na 3 sposoby:
-
Nagłówek żądania HTTP
user-agent
. - Źródłowy adres IP żądania.
- Odwrotna nazwa hosta DNS źródłowego adresu IP.
Dowiedz się, jak używać tych informacji do weryfikacji robotów i modułów pobierania Google.