Umfassender Leitfaden zur Funktionsweise der Google Suche

Die Google Suche ist eine vollautomatische Suchmaschine, in der sogenannte Web-Crawler-Software verwendet wird. Diese durchsucht das Web regelmäßig, um Seiten zu ermitteln, die unserem Index hinzugefügt werden sollen. Die überwiegende Mehrzahl der in unseren Ergebnissen aufgeführten Seiten wird nicht manuell zur Aufnahme eingereicht, sondern automatisch erkannt und hinzugefügt, wenn wir das Web durchsuchen. In diesem Dokument wird beschrieben, wie die Google Suche im Kontext deiner Website funktioniert. Mit diesem Wissen kannst du Crawling-Probleme beheben, deine Seiten indexieren lassen und die Darstellung deiner Website in der Google Suche optimieren.

Ein paar Anmerkungen, bevor wir loslegen

Bevor wir genauer auf die Funktionsweise der Google Suche eingehen, möchten wir darauf hinweisen, dass Google keine Zahlungen akzeptiert, um eine Website häufiger zu crawlen oder im Ranking höher einzustufen. Falls du etwas anderes gehört hast, bist du falsch informiert worden.

Google garantiert nicht, dass deine Seite gecrawlt, indexiert oder bereitgestellt wird, auch wenn sie den Grundlagen der Google Suche entspricht.

Die Google Suche hat drei Phasen, die jedoch nicht alle Seiten durchlaufen:

  1. Crawling: Google lädt Text, Bilder und Videos von im Internet gefundenen Seiten mit automatischen Programmen herunter – diese werden Crawler genannt.
  2. Indexierung: Google analysiert die Text-, Bild- und Videodateien auf der Seite und speichert die Informationen in einer großen Datenbank, dem Google-Index.
  3. Bereitstellung von Suchergebnissen: Wenn ein Nutzer eine Suchanfrage eingibt, gibt Google Informationen zurück, die für die Suchanfrage des Nutzers relevant sind.

Crawling

Im ersten Schritt wird festgestellt, welche Seiten im Web existieren. Es gibt kein zentrales Verzeichnis aller Webseiten. Deshalb muss Google laufend nach neuen und aktualisierten Seiten suchen und sie seiner Liste bekannter Seiten hinzufügen. Dieser Vorgang wird als „URL-Erkennung“ bezeichnet. Einige Seiten sind bekannt, da sie schon zuvor von Google aufgerufen wurden. Andere werden entdeckt, wenn Google einem Link von einer bekannten Seite folgt, der auf eine neue verweist. Das können beispielsweise eine Hub-Seite wie eine Kategorieseite oder Links zu einem neuen Blogpost sein. Wieder andere Seiten werden gefunden, wenn du eine Liste von Seiten – eine sogenannte Sitemap – einreichst, damit sie von Google gecrawlt wird.

Sobald Google die URL einer Seite erkennt, kann der Crawler die Seite aufrufen (oder „crawlen“), um den Inhalt der Seite zu ermitteln. Wir setzen unzählige Computer ein, die täglich Milliarden von Webseiten crawlen. Das Programm, das diese Seiten durchsucht, heißt Googlebot. Andere Bezeichnungen für solche Programme sind „Crawler“, „Robot“, „Bot“ und „Spider“. Der Googlebot bestimmt anhand eines algorithmischen Prozesses, welche Websites wann und wie oft durchsucht und wie viele Seiten von jeder Website abgerufen werden. Die Google-Crawler sind so programmiert, dass sie die Website nicht zu schnell crawlen, um eine Überlastung zu vermeiden. Dieser Mechanismus basiert auf den Antworten der Website (z. B. signalisieren HTTP-500-Fehler dem Crawler, langsamer zu arbeiten) und den Einstellungen in der Search Console.

Der Googlebot crawlt jedoch nicht alle gefundenen Seiten. Es kann vorkommen, dass Websiteinhaber Seiten vom Crawling ausgeschlossen haben oder dass bestimmte Seiten ohne Anmeldung nicht zugänglich sind.

Während des Crawlings rendert Google die Seite und führt den ganzen gefundenen JavaScript-Code aus. Das Rendering findet ähnlich wie in deinem Browser mit einer aktuellen Version von Chrome statt. Das Rendering ist ein wichtiger Schritt, da Websites oft JavaScript verwenden, um Inhalte auf der Seite darzustellen. Ohne das Rendering kann Google diese Inhalte möglicherweise nicht sehen.

Das Crawling hängt davon ab, ob die Google-Crawler auf die Website zugreifen können. Häufige Probleme beim Zugriff auf Websites durch den Googlebot:

Indexierung

Nachdem eine Seite gecrawlt wurde, versucht Google zu verstehen, worum es auf der Seite geht. Diese Phase wird Indexierung genannt. Dazu gehört die Verarbeitung von Textinhalten, wichtigen Inhalts-Tags und Attributen wie <title>-Elementen und ALT-Attributen, Bildern und Videos.

Während der Indexierung ermittelt Google, ob eine Seite ein Duplikat einer anderen Seite im Internet oder kanonisch ist. Die kanonische Seite ist die Seite, die in den Suchergebnissen angezeigt werden kann. Zur Auswahl der kanonischen Seite gruppieren wir zuerst die Seiten (auch Clustering genannt), die wir im Internet gefunden haben und die ähnliche Inhalte haben, in einem Cluster. Dann wählen wir die Seite aus, die den Cluster in den Suchergebnissen am besten repräsentiert. Die anderen Seiten der Gruppe sind alternative Versionen, die in unterschiedlichen Kontexten bereitgestellt werden können, z. B. wenn der Nutzer von einem Mobilgerät aus sucht oder nach einer bestimmten Seite dieses Clusters sucht.

Google erfasst auch Signale über die kanonische Seite und ihre Inhalte, die möglicherweise in der nächsten Phase verwendet werden, in der wir die Seite in den Suchergebnissen bereitstellen. Zu den Signalen gehören unter anderem die Sprache der Seite, das Land, aus dem die Inhalte stammen, und die Nutzerfreundlichkeit der Seite.

Die für die kanonische Seite und ihren Cluster erfassten Daten können im Google-Index gespeichert werden, einer großen Datenbank, die auf Tausenden von Computern gehostet wird. Die Indexierung wird nicht garantiert – es wird also nicht jede Seite, die von Google verarbeitet wird, indexiert.

Die Indexierung hängt auch vom Inhalt der Seite und ihren Metadaten ab. Beispiele für häufige Indexierungsprobleme:

Bereitstellung von Suchergebnissen

Gibt ein Nutzer eine Suchanfrage ein, suchen unsere Maschinen im Index nach übereinstimmenden Seiten und geben die Ergebnisse zurück, die unserer Meinung nach am hochwertigsten und für die Suchanfrage des Nutzers am relevantesten sind. Die Relevanz wird von Hunderten von Faktoren bestimmt, wie etwa dem Standort, der Sprache und dem Gerät des Nutzers (Computer oder Smartphone). Beispielsweise erhält ein Nutzer in Paris, der nach „Fahrradwerkstatt“ sucht, andere Ergebnisse als ein Nutzer in Hongkong.

Es kann vorkommen, dass du eine Seite, die laut der Search Console indexiert wurde, nicht in den Suchergebnissen siehst. Mögliche Gründe:

In diesem Leitfaden wird die Funktionsweise der Google Suche erläutert. Wir arbeiten jedoch laufend an der Verbesserung unserer Algorithmen. Im Google Search Central-Blog kannst du diese Änderungen im Auge behalten.