Weryfikowanie Googlebota i innych robotów Google
Możesz sprawdzić, czy robot uzyskujący dostęp do Twojego serwera to naprawdę robot Google (taki jak Googlebot). Procedura ta jest przydatna wtedy, gdy obawiasz się, że z Twojej witryny mogą korzystać spamerzy lub inni oszuści podający się za Googlebota.
Roboty Google dzielą się na 3 kategorie:
Typ | Opis | Odwrotne maskowanie DNS | Zakresy adresów IP |
---|---|---|---|
Popularne roboty | Roboty typowe używane w usługach Google (np. Googlebot). Zawsze przestrzegają reguł w pliku robots.txt podczas automatycznego indeksowania. |
crawl-***-***-***-***.googlebot.com lub geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Roboty specjalne | Roboty wykonujące określone funkcje w przypadku usług Google (np. AdsBot), w których przypadku istnieje zgodność indeksowanej witryny i usługi co do procesu indeksowania. Te roboty mogą przestrzegać reguł zawartych w pliku robots.txt (ale nie muszą). | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Moduły pobierania uruchamiane przez użytkownika |
Narzędzia i funkcje usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują reguły zawarte w pliku robots.txt. Moduły pobierania kontrolowane przez Google pochodzą z adresów IP w obiekcie user-triggered-fetchers-google.json i kierują do nazwy hosta google.com . Adresy IP w obiekcie user-triggered-fetchers.json odnoszą się do nazw hostów gae.googleusercontent.com . Te adresy IP są używane na przykład wtedy, gdy witryna uruchomiona w Google Cloud (GCP) ma funkcję, która wymaga pobierania zewnętrznych kanałów RSS na żądanie użytkownika tej witryny.
|
***-***-***-***.gae.googleusercontent.com lub
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json i user-triggered-fetchers-google.json |
Istnieją 2 sposoby weryfikowania robotów Google:
- Ręcznie – w przypadku jednorazowych wyszukiwań użyj narzędzi wiersza poleceń. Ta metoda sprawdza się w większości sytuacji.
- Automatycznie – w przypadku wyszukiwań na dużą skalę użyj automatycznego rozwiązania wyszukującego adres IP robota z listy adresów IP opublikowanych przez Google.
Używanie narzędzi wiersza poleceń
-
Uruchom odwrotne wyszukiwanie DNS adresu IP, który jest w Twoich dziennikach oznaczony jako nawiązujący połączenie, przy użyciu polecenia
host
. -
Sprawdź, czy nazwa domeny to
googlebot.com
,google.com
lubgoogleusercontent.com
. -
Przeprowadź zwykłe wyszukiwanie DNS nazwy domeny odczytanej w kroku 1 przy użyciu polecenia
host
. - Sprawdź, czy nazwa jest taka sama jak adres, który zgodnie z informacjami w dziennikach nawiązywał połączenie.
Przykład 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Przykład 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Przykład 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Korzystanie z rozwiązań automatycznych
Możesz zidentyfikować Googlebota po adresie IP, szukając go na liście zakresów adresów IP robotów i modułów pobierania Google:
- Popularne roboty, np. Googlebot
- Roboty specjalne, np. AdsBot
- Moduły pobierania uruchamiane przez użytkownika (użytkownicy)
- Moduły pobierania uruchamiane przez użytkownika (Google)
W przypadku pozostałych adresów IP Google, z których można uzyskać dostęp do Twojej witryny (na przykład przez skrypty Apps Script), znajdź uzyskujący dostęp adres IP na ogólnej liście adresów IP Google. Uwaga: adresy IP w plikach JSON są przedstawione w formacie CIDR.