Google-Crawler (User-Agents)

„Crawler“ ist ein Überbegriff für Programme wie Robots oder Spider, die Websites automatisch finden und scannen. Dazu folgen sie Links von einer Webseite zur nächsten. Der meistverwendete Crawler von Google ist der Googlebot. Die Tabelle unten enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen aufgeführt werden können, und dazu, wie diese Crawler in der Datei robots.txt, den robots-meta-Tags und den X-Robots-Tag-HTTP-Regeln angegeben werden.

In der folgenden Tabelle sind Crawler aufgeführt, die von verschiedenen Produkten und Diensten bei Google verwendet werden:

  • Das User-Agent-Token wird in robots.txt in der Zeile User-agent: verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln deiner Website gelten. Wie du in der Tabelle siehst, haben manche Crawler mehrere Tokens. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler-Token übereinstimmen. Diese Liste ist nicht vollständig, umfasst jedoch die meisten Crawler, denen du auf deiner Website begegnen dürftest.
  • Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der HTTP-Anfrage und in deinen Webprotokollen angezeigt.

Crawler

APIs-Google

Token des User-Agents APIs-Google
Vollständiger User-Agent-String APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Prüft die Anzeigenqualität auf Webseiten, die für Android-Geräte optimiert sind.

Token des User-Agents AdsBot-Google-Mobile
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Prüft die Anzeigenqualität auf Webseiten, die für iPhones optimiert sind.

Token des User-Agents AdsBot-Google-Mobile
Vollständiger User-Agent-String Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Prüft die Anzeigenqualität auf Webseiten, die für Computer optimiert sind.

Token des User-Agents AdsBot-Google
Vollständiger User-Agent-String AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Token des User-Agents Mediapartners-Google
Vollständiger User-Agent-String Mediapartners-Google

Googlebot-Image

Tokens des User-Agents
  • Googlebot-Image
  • Googlebot
Vollständiger User-Agent-String Googlebot-Image/1.0

Googlebot-News

Tokens des User-Agents
  • Googlebot-News
  • Googlebot
Vollständiger User-Agent-String Der User-Agent Googlebot-News verwendet die verschiedenen User-Agent-Strings vom Googlebot.

Google Publisher Center

Ruft Feeds ab, die Publisher explizit über das Google Publisher Center bereitgestellt haben, und verarbeitet sie für die Verwendung auf Google News-Landingpages.

Token des User-Agents GoogleProducer
Vollständiger User-Agent-String GoogleProducer; (+http://goo.gl/7y4SX)

Googlebot-Video

Tokens des User-Agents
  • Googlebot-Video
  • Googlebot
Vollständiger User-Agent-String Googlebot-Video/1.0

Googlebot (Computer)

Token des User-Agents Googlebot
Vollständige User-Agent-Strings
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Token des User-Agents Googlebot
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Token des User-Agents Mediapartners-Google
Vollständiger User-Agent-String (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

Prüft die Anzeigenqualität auf Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google

Token des User-Agents AdsBot-Google-Mobile-Apps
Vollständiger User-Agent-String AdsBot-Google-Mobile-Apps

Feedfetcher

Token des User-Agents FeedFetcher-Google
Vollständiger User-Agent-String FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Token des User-Agents Google-Read-Aloud
Vollständige User-Agent-Strings

Aktuelle Agents:

  • Computer-Agent:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
  • Mobilgeräte-Agent:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)

Ehemaliger Agent (eingestellt):

google-speakr

Google Favicon

Token des User-Agents
  • Googlebot-Image
  • Googlebot
Vollständiger User-Agent-String Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Google StoreBot

Token des User-Agents Storebot-Google
Vollständige User-Agent-Strings
  • Computer-Agent:

    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

  • Mobilgeräte-Agent:

    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google Site Verifier

Token des User-Agents Google-Site-Verification
Vollständiger User-Agent-String Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Hinweis zu Chrome/W.X.Y.Z in User-Agents:

Überall, wo in den User-Agent-Strings in der Tabelle der String Chrome/W.X.Y.Z erscheint, ist W.X.Y.Z ein Platzhalter für die vom jeweiligen User-Agent verwendete Version des Chrome-Browsers, z. B. 41.0.2272.96. Diese Versionsnummer wird im Laufe der Zeit hochgezählt, weil sie jeweils der neuesten vom Googlebot verwendeten Chromium-Release-Version entspricht.

Wenn du in deinen Protokollen oder auf deinem Server nach einem User-Agent mit diesem Muster suchst, solltest du für die Versionsnummer am besten einen Platzhalter verwenden.

User-Agents in robots.txt

Wenn mehrere User-Agents in der robots.txt-Datei erkannt werden, folgt Google dem spezifischsten. Sollen deine Seiten von allen Crawlern von Google gecrawlt werden, benötigst du keine robots.txt-Datei. Wenn du einen Teil deiner Inhalte für alle Google-Crawler sperren oder zulassen möchtest, gib den Googlebot als User-Agent an. Beispiel: Wenn alle deine Seiten in der Google Suche erscheinen und AdSense-Anzeigen auf deinen Seiten präsentiert werden sollen, brauchst du keine robots.txt-Datei. Falls du einige Seiten komplett für Google sperren möchtest, kannst du einfach den User-Agent Googlebot blockieren. Dadurch werden nämlich auch alle anderen User-Agents von Google blockiert.

Natürlich kannst du auch spezifischere Einstellungen vornehmen. Angenommen, du möchtest, dass alle deine Seiten in der Google Suche erscheinen, Bilder in deinem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall kannst du über die robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image die Dateien in deinem persönlichen Verzeichnis crawlt. Der Googlebot hat aber weiter Zugriff auf alle Dateien. Das sieht dann so aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Ein weiteres Beispiel: Angenommen, du möchtest, dass auf allen deinen Seiten Werbung erscheint, die entsprechenden Seiten sollen aber nicht in der Google Suche erscheinen. In diesem Fall blockierst du den Googlebot, lässt aber den User-Agent Mediapartners-Google zu. Das sieht dann so aus:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-Agents in robots-meta-Tags

Auf manchen Seiten werden mehrere robots-meta-Tags verwendet, um Regeln für verschiedene Crawler festzulegen, wie im folgenden Beispiel:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

In diesem Fall summiert Google die negativen Regeln und der Googlebot befolgt sowohl die noindex- als auch die nofollow-Regel. Hier findest du genauere Hinweise dazu, wie du das Crawling und die Indexierung deiner Website durch Google beeinflussen kannst.

Crawling-Geschwindigkeit steuern

Jeder Google-Crawler greift zu einem bestimmten Zweck und mit unterschiedlicher Häufigkeit auf Websites zu. Google verwendet Algorithmen, um die optimale Crawling-Frequenz für einzelne Websites zu ermitteln. Wenn ein Google-Crawler deine Website zu oft crawlt, kannst du die Crawling-Frequenz verringern.

Eingestellte Google-Crawler

Die folgenden Google-Crawler werden nicht mehr verwendet und sind hier nur zu Referenzzwecken aufgeführt.

Eingestellte Google-Crawler

Google Duplex im Web

Hat den Dienst „Duplex im Web“ unterstützt.

Token des User-Agents DuplexWeb-Google
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Es wurde immer dann geprüft, ob der Header no-transform vorhanden ist, wenn ein Nutzer unter entsprechenden Bedingungen in der Suche auf deine Seite geklickt hat. Der Web Light-User-Agent wurde nur für Suchanfragen eines menschlichen Besuchers verwendet und hat daher robots.txt-Regeln ignoriert, mit denen sonst automatisierte Crawling-Anfragen blockiert werden.

Token des User-Agents googleweblight
Vollständiger User-Agent-String Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19