Unser neuer Suchindex: Caffeine

Donnerstag, 10. Juni 2010

Wir möchten euch über die Fertigstellung von Caffeine, unserem neuen System zur Indexierung des Webs, informieren. Caffeine bietet um 50 Prozent aktuellere Suchergebnisse als unser vorheriger Index und ist die größte Sammlung von Webinhalten, die wir jemals anbieten konnten. Egal, ob es sich um Nachrichten, ein Blog oder ein Posting in einem Forum handelt, ihr werdet jetzt Links zu relevantem Content viel schneller nach der Veröffentlichung finden, als das früher möglich war.

Wir wollen auch all jenen, die nicht so wie wir, den Großteil ihres Lebens damit verbringen, an Suchmaschinen zu feilen, ein wenig Hintergrundinformation liefern: Wenn ihr in Google sucht, durchsucht ihr nicht das Web selbst. Stattdessen, durchsucht ihr einen Index des Webs - eben wie euch der Index am Ende eines Buches dabei hilft, genau jene Stelle mit der richtigen Information zu finden. (Hier findet ihr englischsprachige Informationen darüber, wie es funktioniert.)

Also, warum haben wir ein neues System zur Indexierung geschaffen? Der Content im Web blüht auf. Er wird nicht nur immer mehr und umfangreicher: Mit der Verbreitung von Video, Bildern, News und Echtzeitupdates, wird die durchschnittliche Website reichhaltiger und komplexer. Zusätzlich steigt die Erwartungshaltung der Benutzer in Bezug auf die Suche. Jemand, der sucht, möchte den neuesten relevanten Content finden und Websitebetreiber erwarten, dass ihre Inhalte sofort nach der Veröffentlichung gefunden werden.

Um mit der Evolution des Webs Schritt zu halten und die steigenden Benutzererwartungen zu erfüllen, haben wir Caffeine verwirklicht. Das folgende Bild stellt dar, wie unsere altes Indexierungssystem im Vergleich zu Caffeine funktionierte:

Old Index and Caffeine
Unser alter Index hatte mehrere “Schichten”. Manche wurden schneller aktualisiert als andere. Die Hauptschicht wurde alle paar Wochen erneuert. Um eine Schicht des alten Index zu erneuern, wurde das ganze Web analysiert. Das bedeutete, dass es eine deutliche Verzögerung zwischen dem Zeitpunkt, zu dem wir eine Seite entdeckten, und ihrer Auffindbarkeit für euch gab.

Mit Caffeine analysieren wir das Web in kleinen Dosen und aktualisieren unseren Index kontinuierlich und weltweit. Wenn wir neue Seiten finden - oder neue Informationen auf bereits existierenden Seiten - können wir sie direkt dem Index hinzufügen. Das bedeutet, ihr könnt aktuellere Informationen als jemals zuvor finden - egal wann oder wo sie veröffentlicht wurden.

Caffeine ermöglicht die Indexierung von Seiten in enormem Maßstab. In jeder Sekunde verarbeitet Caffeine parallel Hunderttausende von Seiten. Wenn es sich um einen Papierstoß handelte, würde er jede Sekunde um beinahe 5 km wachsen. Caffeine beansprucht fast 100 Millionen Gigabyte Speicher in einer unserer Datenbanken und fügt jeden Tag neue Informationen in der Größenordnung von Hunderttausenden Gigabytes hinzu. Ihr würdet 625,000 der speicherstärksten iPods benötigen, um so viele Informationen zu speichern und kämt ihr auf eine Höhe von fast 65km, würdet ihr die aufeinanderstapeln.

Wir haben Caffeine mit Blick auf die Zukunft geplant. Es ist nicht nur aktueller, es ist auch ein robustes Fundament, dass es uns ermöglicht eine neue, noch schnellere und umfassendere Suchmaschine zu bauen, die mit dem Anstieg an Informationen im Netz mitwächst und euch noch relevantere Suchergebnisse liefert. Ihr könnt also noch mehr Verbesserungen in den kommenden Monaten erwarten.

Our new search index: Caffeine (English version)

Post von Carrie Grimes, Software Engineer (Übersetzung von Jörg Pacher, Search Quality)