Search Quality – Fortsetzung

Montag, 4. August 2008

Vor einigen Wochen stellte Udi Manber die Search Quality Gruppe vor , und die vorigen Posts in dieser Reihe handelten von Ranking. Das Ranking von Webdokumenten ist der Kern dessen, warum die Google-Suche so gut funktioniert, aber das Sucherlebnis besteht aus noch viel mehr. In diesem Post werde ich die Grundsätze beschreiben, die unsere Arbeit am Sucherlebnis als Ganzes leiten, und darüber sprechen, wie wir diese Grundsätze auf Schlüsselaspekte der Suche anwenden. Ich werde auch darauf eingehen, wie wir durch gründliches Testen sicherstellen, dass wir die richtigen Schritte unternehmen. Der nächste Post dieser Reihe wird einige der Tests beleuchten, die wir momentan durchführen.

Eine kurze Vorstellung zu meiner Person: Ich bin Ben Gomes und ich arbeite seit 1999 bei Google, überwiegend im Bereich Search Quality. Ich hatte das Glück, zu den meisten Teilen der Suchmaschine beitragen zu können, vom Crawlen des Webs hin zu Ranking. Momentan bin ich der verantwortliche Ingenieur für die Benutzeroberfläche und die Features der Suche.


Wenn ich zu Freunden sage, dass ich an Googles Benutzeroberfläche für die Suche arbeite, ist eine typische Reaktion: "Was machst du denn da? Die sieht doch immer gleich aus." Dann schauen sie mich misstrauisch an und meinen, ich solle nicht an etwas herumpfuschen, was gut funktioniert. Google sei genau richtig, so wie es ist -- eine schlichte, schnelle Webseite. "Das ist toll, aber das kann doch nicht so schwer sein?"


Um diese Frage zu beantworten, möchte ich bei unserem wichtigsten Ziel für die Websuche beginnen: wir wollen, dass ihr so schnell wie möglich zu den gesuchten Webseiten gelangt. Die Suche ist dabei nicht das Ziel, sondern vielmehr der Weg dorthin. Dies scheint offensichtlich, doch es unterscheidet eine Suchmaschine radikal von den meisten anderen Sites im Web, die ihren Erfolg daran messen, wie lange die User bleiben. Wir messen den Erfolg unserer Websuche teilweise daran, wie schnell ihr wieder geht (zufrieden, wie wir hoffen!). Wir wenden die folgenden Grundsätze an, damit ihr so schnell wie möglich zu den gesuchten Informationen gelangt:


  • Eine schlanke Seite. Eine schlanke Seite kann schneller heruntergeladen und üblicherweise schneller von eurem Browser dargestellt werden. Dies führt zu einer minimalistischen Design-Ästhetik; zusätzlicher Schnickschnack auf der Benutzeroberfläche verlangsamt die Seite, ohne einen großen Nutzen für euch darzustellen.
  • Komplexe Algorithmen, einfache Darstellung. Viele Features der Suche erfordern einiges an algorithmischer Komplexität und eine riesige Menge an Datenanalysen, damit sie gut funktionieren. Der Trick ist es, diese Komplexität hinter einer einfachen und intuitiven Benutzeroberfläche zu verbergen. Rechtschreibkorrektur, Snippets, Sitelinks und die Einblendung von verwandten Suchbegiffen sind Beispiele von Features, die komplizierte Algorithmen erfordern, welche wir konstant verbessern. Aus Sicht des Users wird die Suche, auf fast unsichtbare Art und Weise, einfach besser.
  • Features, die global funktionieren . Features müssen so konzipiert sein, dass die Algorithmen und die Darstellung für alle Sprachen und alle Länder adaptiert werden können. Nehmt beispielsweise das Problem der Rechtschreibkorrektur in Chinesisch, wo Suchanfragen oft nicht in einzelne Wörter aufgeteilt sind, oder Hebräisch und Arabisch, wo der Text von rechts nach links geschrieben wird (interessanterweise wird dies als ein Beispiel für den First-Mover-Nachteil angesehen – wenn man etwas in Stein meißelt, ist es einfacher, den Hammer in der rechten Hand zu halten!).
  • Daten als Grundlage für Entscheidungen – testen, testen, testen. Wir versuchen zu verifizieren, dass wir das Richtige tun, indem wir Tests durchführen. Ein Design, das vielversprechend aussieht, kann im Test letztendlich schlecht abschneiden.
Diese Grundsätze können zwiespältig sein. Wenn wir euch beispielsweise für jedes Suchergebnis mehr Text (oder Bilder) anzeigen, dann kann euch das vielleicht dabei helfen, das beste Ergebnis auszuwählen. Eine Ergebnisseite, die zu viele Informationen enthält, braucht jedoch länger beim Herunterladen und bei der visuellen Verarbeitung. Alle Informationen, die wir zur Ergebnisseite hinzufügen, müssen also gründlich bedacht werden, um sicherzustellen, dass der Nutzen für den User die Kosten überwiegt, diese zusätzlichen Informationen zu verarbeiten. Dies trifft auf alle Bereiche des Sucherlebnisses zu, vom Eintippen einer Suchanfrage bis zum Überfliegen und Durchforsten der Ergebnisse.

Die Suche beginnt mit der Eingabe einer Suchanfrage. Ein typischer Grund zur Frustration ist es, wenn man sich über die richtige Schreibweise eines Wortes nicht sicher ist! Die Rechtschreibkorrektur -- scheinbar ein einfaches und offensichtliches Feature -- verbirgt viele technische Herausforderungen. Zum Beispiel würde kein gewöhnliches englisches Wörterbuch je die richtige Schreibweise von Britney Spears enthalten (Britney Spears ist, wahrscheinlich ganz ohne ihr Wissen, zum Paradebeispiel für
dieses Feature geworden). Wir analysieren die Milliarden Seiten im Web sowie unsere Logdaten von Suchanfragen in großem Maße, um festzustellen, was die "echten Worte" im Web und was wahrscheinlich Schreibfehler sind. Das System, das euch die Rechtschreibkorrektur liefert, muss im Bruchteil einer Sekunde eine riesige Anzahl an möglichen Worten, die ihr vielleicht meint (erheblich mehr, als jemals in einem manuell zusammengestellten Wörterbuch verzeichnet wurde), in Betracht ziehen und bestimmen, ob es eine wahrscheinlichere Suchanfrage gibt, die ihr eigentlich eingeben wolltet. Wenn wir uns sicher sind, dass ihr eigentlich vorhattet, etwas anderes einzutippen, dann erlauben wir uns eine seltene Freiheit bei der Ausgabe der Ergebnisse: wir versuchen euch davon abzulenken, auf das erste Ergebnis zu schauen. Die Rechtschreibkorrektur ist in eurem Blickfeld, in einem nicht zu übersehenden leuchtenden Rot. Wir achten außerdem darauf, dass nichts anderes auf der Seite rot ist , es sei denn, es wäre so wichtig wie die Rechtschreibung! (Bis jetzt ist dem nicht so.) Die Algorithmen für die Rechtschreibkorrektur werden ständig besser. Sie funktionieren jetzt für eine große Anzahl an Sprachen und können noch besser entdecken, wann ihr einen Rechtschreibfehler macht. Es ist uns so wichtig, die korrekte Schreibweise der Suchanfrage zu finden, dass wir es in Betracht ziehen, euch die Ergebnisse für die korrigierte Suchanfrage in der Mitte der Seite anzuzeigen (nur für den Fall, dass ihr unseren leuchtend roten Text oben und unten auf der Seite übersehen habt!).

Nach der richtigen Formulierung der Suchanfrage ist der nächste Schritt die Auswahl einer Seite von der Ergebnisliste. Für jedes Ergebnis zeigen wir den Titel und die URL an, sowie ein kurzes zweizeiliges Snippet. Seiten, die keinen richtigen Titel haben, werden von Usern oft ignoriert. Als eine der größeren Veränderungen der letzten Zeit extrahieren wir jetzt Titel für Seiten, die keinen HTML-Titel spezifizieren, bei denen jedoch ein Titel auf der Seite klar vorhanden ist. Um diesen vom Autor der Seite beabsichtigten Titel zu "sehen", analysieren wir das HTML der Seite. Dies macht es viel wahrscheinlicher, dass ihr eine Seite nicht wegen eines fehlenden guten Titels ignoriert. Unter dem Titel erscheint das Snippet, und eine entscheidende frühe Innovation lag darin, was Google als Snippet anzeigte. Zu dieser Zeit lieferten Suchmaschinen die ersten zwei Zeilen einer Webseite als Snippet; Google jedoch zeigte euch Ausschnitte, in denen eure Suchbegriffe tatsächlich vorkamen (Experten für Information Retrieval nennen das "Keywords-in-Context"). Keywords-in-Context anzuzeigen ist visuell einfach und von den simpleren Snippets so gut wie nicht zu unterscheiden, es ist jedoch eine sehr viel wertvollere Hilfe bei der Entscheidung, welche Seite ihr besuchen wollt. Diese Einfachheit trügt, denn dahinter steckt Komplexität: für solch ein Snippet müssen wir den tatsächlichen Text aller Ergebnisse durchgehen, um die relevantesten Ausschnitte zu finden (in denen die Suchbegriffe enthalten sind), anstatt euch einfach nur die ersten paar Zeilen zu liefern.


Mit der Zeit haben wir unsere Snippets mit Hilfe von Algorithmen, die die Relevanz von Teilen einer Seite bestimmen, verbessert. Die Änderungen sind subtil -- wir heben Synonyme für eure Suchbegriffe in den Ergebnissen hervor -- oder offensichtlicher. Hier ist ein Beispiel-Screenshot, in dem nach "arod" gesucht wurde. Wie ihr sehen könnt, sind die Wörter Alex und Rodriguez im Snippet des Suchergebnisses fett gedruckt. Dies beruht auf unserer Analyse, dass aus plausiblen Gründen wahrscheinlich der Baseballspieler Alex Rodriguez gemeint wurde:



Ein offensichtlicheres Beispiel unserer jüngsten Änderungen ist die Anzeige des Datums für Seiten, auf denen Verfasserangaben vorhanden sind. Diese Angaben gibt es in ganz unterschiedlichen Formaten. Wir extrahieren die Datumsangaben und stellen sie einheitlich dar, so dass ihr sie leicht überfliegen könnt:


Für die Navigationssuche, eine der üblichsten Arten von Suchanfragen, bei der ihr den Namen einer euch bekannten Website eingebt, haben wir Shortcuts eingeführt (wir nennen sie "Sitelinks"). Über diese Sitelinks könnt ihr zu den wichtigsten Teilen der Site gelangen. Sie sind ein Beispiel für die oben erwähnten Grundsätze; sie sind eine einfache Ergänzung zum Topresultat, durch die ein wenig zusätzlicher Text zur Ergebnisseite hinzugefügt wird.


Die Homepage von Hewlett-Packard hat beispielsweise fast 60 Links in einer Navigationsstruktur auf zwei Ebenen. Durch die Kombination von verschiedenen Signalen wählen unsere Algorithmen aus diesen Links diejenigen aus, bei denen es unserer Meinung nach am wahrscheinlichsten ist, dass ihr sie besuchen wollt.

Was, wenn ihr unter den Topresultaten nicht gefunden habt, wonach ihr sucht? In diesem Fall solltet ihr wahrscheinlich eine andere Suchanfrage ausprobieren. Wir helfen euch dabei, indem wir unten auf der Ergebnisseite eine Auswahl an verwandten Suchbegriffen anzeigen -- auch wenn diese Auswahl euch vielleicht nicht die Suchanfrage liefert, die ihr braucht, so bietet sie dennoch Tipps für verschiedene (und vielleicht erfolgreichere) Alternativen zur Verfeinerung eurer Suchanfrage. Da diese Vorschläge unten auf der Seite platziert sind, stören sie nicht, sind jedoch hilfreich zur Stelle, wenn der Rest der Suchergebnisse den Usern keine zufriedenstellenden Informationen liefern konnte.


Ich habe einige der wichtigsten Aspekte zum Thema Sucherlebnis beschrieben und bin auch darauf eingegangen, was wir mit der Zeit verändert haben -- einiges subtil und anderes, was mehr ins Auge springt. Woher wissen wir dabei, ob wir erfolgreich sind und keinen Mist gebaut haben? Wir führen fortwährende Bewertungen dieser Änderungen durch, indem wir sie mit euch teilen! Wir launchen anstehende Änderungen für einen kleinen Bruchteil unserer User und analysieren dann, ob sie das Sucherlebnis eher zu verbessern oder zu trüben scheinen. Wir verwenden viele Kriterien, um festzulegen, ob wir erfolgreich waren oder versagt haben. Der Bewertungsvorgang für diese Verbesserungen ist eine Wissenschaft für sich, mit vielen möglichen Fallstricken. Durch unsere experimentelle Methodik können wir eine Reihe von Möglichkeiten erforschen und dann das launchen, was am besten funktioniert. Für jedes neue Feature, das wir einführen, haben wir häufig eine Menge an Features getestet, die nie verwirklicht wurden.


Also, um zur anfänglichen Frage zurückzukommen: Wir verändern Googles Ergebnisseite tatsächlich ständig, und das seit Langem. Und nein, wir pfuschen nicht an Dingen herum, die gut funktionieren. Das würdet ihr nicht zulassen.


Im nächsten Post dieser Reihe werde ich ein paar Tests vorstellen, an denen wir gerade arbeiten, und darüber sprechen, was wir daraus lernen wollen.


Search quality, continued (English version)

Post von Ben Gomes, Distinguished Engineer (Übersetzung von Johanna, Search Quality)