Weryfikowanie Googlebota i innych robotów Google

Możesz sprawdzić, czy robot uzyskujący dostęp do Twojego serwera to naprawdę robot Google (taki jak Googlebot). Procedura ta jest przydatna wtedy, gdy obawiasz się, że z Twojej witryny mogą korzystać spamerzy lub inni oszuści podający się za Googlebota.

Roboty Google dzielą się na 3 kategorie:

Typ Opis Odwrotne maskowanie DNS Zakresy adresów IP
Popularne roboty Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania. crawl-***-***-***-***.googlebot.com lub geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Roboty specjalne Roboty wykonujące określone funkcje w przypadku usług Google (np. AdsBot), w których przypadku istnieje zgodność indeksowanej witryny i usługi co do procesu indeksowania. Te roboty mogą przestrzegać reguł zawartych w pliku robots.txt (ale nie muszą). rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Moduły pobierania uruchamiane przez użytkownika Narzędzia i funkcje usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują reguły zawarte w pliku robots.txt.
Moduły pobierania kontrolowane przez Google pochodzą z adresów IP w obiekcie user-triggered-fetchers-google.json i kierują do nazwy hosta google.com. Adresy IP w obiekcie user-triggered-fetchers.json odnoszą się do nazw hostów gae.googleusercontent.com. Te adresy IP są używane na przykład wtedy, gdy witryna uruchomiona w Google Cloud (GCP) ma funkcję, która wymaga pobierania zewnętrznych kanałów RSS na żądanie użytkownika tej witryny.
***-***-***-***.gae.googleusercontent.com lub google-proxy-***-***-***-***.google.com user-triggered-fetchers.json i user-triggered-fetchers-google.json

Istnieją 2 sposoby weryfikowania robotów Google:

  • Ręcznie – w przypadku jednorazowych wyszukiwań użyj narzędzi wiersza poleceń. Ta metoda sprawdza się w większości sytuacji.
  • Automatycznie – w przypadku wyszukiwań na dużą skalę użyj automatycznego rozwiązania wyszukującego adres IP robota z listy adresów IP opublikowanych przez Google.

Używanie narzędzi wiersza poleceń

  1. Uruchom odwrotne wyszukiwanie DNS adresu IP, który jest w Twoich dziennikach oznaczony jako nawiązujący połączenie, przy użyciu polecenia host.
  2. Sprawdź, czy nazwa domeny to googlebot.com, google.com lub googleusercontent.com.
  3. Przeprowadź zwykłe wyszukiwanie DNS nazwy domeny odczytanej w kroku 1 przy użyciu polecenia host.
  4. Sprawdź, czy nazwa jest taka sama jak adres, który zgodnie z informacjami w dziennikach nawiązywał połączenie.

Przykład 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Przykład 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Przykład 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Korzystanie z rozwiązań automatycznych

Możesz zidentyfikować Googlebota po adresie IP, szukając go na liście zakresów adresów IP robotów i modułów pobierania Google:

W przypadku pozostałych adresów IP Google, z których można uzyskać dostęp do Twojej witryny (na przykład przez skrypty Apps Script), znajdź uzyskujący dostęp adres IP na ogólnej liście adresów IP Google. Uwaga: adresy IP w plikach JSON są przedstawione w formacie CIDR.