So sind wir 2020 gegen Spam in der Google Suche vorgegangen

Donnerstag, 29. April 2021

Bild: Der Googlebot und sein Spinnenfreund lesen den Webspam-Bericht 2020.

Die Google Suche ist ein leistungsstarkes Tool, mit dem man nützliche Informationen im öffentlichen Web findet. Leider werden nicht alle Webseiten mit guten Absichten erstellt. Viele von ihnen wurden eigens dazu geschaffen, Nutzer zu täuschen – und dagegen kämpfen wir täglich. Für eure Sicherheit und um euch bei der Suche vor störenden Inhalten und böswilligen Verhaltensweisen zu schützen, haben wir im Jahr 2020 viele Innovationen in der Google Suche eingeführt.

Spam mit KI bekämpfen

Wir bekämpfen Spam schon seit es die Google Suche gibt, doch die jüngsten Fortschritte in der Künstlichen Intelligenz (KI) bieten ein beispielloses Potenzial, unseren Ansatz völlig neu aufzubauen.

Aus der Verbindung von KI mit unserem gesammelten umfangreichen Wissen über Spam entstand im letzten Jahr unsere eigene, speziell zur Spam-Bekämpfung eingesetzte KI. Diese Technologie erkennt sowohl bekannte als auch neue Spam-Trends sehr effektiv. Zum Beispiel haben wir die Anzahl der Websites mit automatisch generierten und kopierten Inhalten im Vergleich zu der Menge, die es noch vor einigen Jahren gab, um über 80 % reduziert.

Da die Zahl der Websites mit Sicherheitslücken auch im Jahr 2020 noch recht groß war, sind gehackte Spaminhalte nach wie vor eine Herausforderung – und das, obwohl wir die Erkennungsleistung um über 50 % verbessert und den Großteil der gehackten Spaminhalte aus den Suchergebnissen entfernt haben.

Dieses Problem können wir nicht allein lösen. Selbst wenn wir alle Spamangriffe erkennen und daraufhin alle Nutzer vor ihnen schützen könnten, würden Hacker weiterhin Schlupflöcher finden und so lange ausnutzen, bis sie geschlossen wären. Websiteinhaber können ihre Websites jedoch auch schützen, indem sie sinnvolle Sicherheitsmaßnahmen treffen. Schließlich ist es einfacher, zu verhindern, dass eine Website gehackt wird, als sie nach einem Hackingangriff wiederherzustellen. Mithilfe der von Google angebotenen Ressourcen könnt ihr erkennen, auf welchen Wegen Websites am häufigsten gehackt werden, und mithilfe der Search Console könnt ihr auch konkret prüfen, ob eure eigene Website gehackt wurde. Seht euch diese Ressourcen an – mit ihnen machen wir gemeinsam das Web sicherer.

Angesichts einschneidender Ereignisse im vergangenen Jahr wie der Pandemie haben wir erhebliche Anstrengungen unternommen, um den Schutz für die Milliarden von Suchanfragen zu solch wichtigen Themen zu verbessern. Wenn ihr nach COVID-19-Testzentren in eurer Nähe sucht, solltet ihr nicht auf unsinnigen Spam-Sites landen und möglicherweise auf Phishing-Websites weitergeleitet werden. Wir gehen also nicht nur gegen Spam-Inhalte vor, sondern versuchen zusammen mit anderen Teams der Google Suche auch, die Voraussetzungen dafür zu schaffen, dass ihr immer die aktuellsten und qualitativ besten Informationen zur richtigen Zeit und am richtigen Ort findet.

Verhindern, dass Spam euch erreicht

Bevor ein Suchergebnis auf Google angezeigt wird, haben im Hintergrund schon zahlreiche andere Aktivitäten stattgefunden. Jeden Tag erfassen, crawlen und indexieren wir viele Milliarden von Webseiten. Darunter befinden sich viele Seiten mit Spam-Inhalten: täglich 40 Milliarden Stück. Wir müssen also verhindern, dass dieser Spam euch bei der Suche nach hilfreichen und nützlichen Informationen behindert – und das geht so:

Bild: So schützen wir euch bei jedem Schritt vor Spam — Dieses Diagramm veranschaulicht, wie wir euch vor Spam schützen

Als Erstes kommen unsere Systeme zum Einsatz, die beim Crawling von Seiten und anderen Inhalten Spam erkennen. Der Crawling-Vorgang selbst bietet dazu die erste Gelegenheit: Crawling bedeutet, dass Inhalte von unseren automatischen Systemen aufgerufen werden und dass entschieden wird, ob sie in den Index kommen, mit dem wir die Suchergebnisse zusammenstellen. Deshalb werden einige als Spam erkannte Inhalte gar nicht erst in den Index aufgenommen.

Diese Systeme funktionieren auch bei Inhalten, die wir über Sitemaps und die Search Console erfassen. Beispielsweise gibt es in der Search Console die Funktion Indexierung beantragen, mit der Ersteller uns über neue Seiten informieren können, die möglichst schnell hinzugefügt werden sollten. Wir haben festgestellt, dass Spammer dies ausnutzen: Sie hacken sich in Websites mit Sicherheitslücken und bestätigen sich selbst in der Search Console als Inhaber dieser Websites. Anschließend bitten sie Google über diese Funktion, zahlreiche von ihnen erstellte Spam-Seiten zu crawlen und zu indexieren. Mithilfe von KI jedoch konnten wir solche verdächtigen Bestätigungen aufspüren und verhindern, dass Spam-URLs auf diese Art in unseren Index gelangen.

Als Nächstes gibt es Systeme, die in unserem Index enthaltene Inhalte analysieren. Wenn ihr eine Suche durchführt, wird geprüft, ob der übereinstimmende Inhalt möglicherweise Spam ist. Ist dies der Fall, erscheinen solche Inhalte nicht in den Top-Suchergebnissen. Darüber hinaus verbessern wir anhand dieser Informationen unsere Systeme dahingehend, dass solche Spam-Inhalte auch nicht in den Index aufgenommen werden.

Dank unserer automatisierten und durch KI unterstützten Systeme gelangt nur sehr wenig Spam tatsächlich in die Top-Ergebnisse einer Suche. Wir gehen davon aus, dass aufgrund dieser automatisierten Systeme mehr als 99 % der Besuche über die Google Suche völlig frei von Spam sind. Was den winzigen Prozentsatz angeht, der übrig bleibt, ergreifen unsere Teams manuelle Maßnahmen und nutzen die daraus gewonnenen Erkenntnisse, um unsere automatisierten Systeme weiter zu verbessern.

Schutz – mehr als nur Spambekämpfung

Bild: Der Googlebot und sein Freund schützen euch vor Spam

Wir haben im Jahr 2020 aber auch unsere Bemühungen verstärkt, euch über Spam hinaus vor anderen Arten von Missbrauch zu schützen. Viele missbräuchliche Praktiken können erhebliche finanzielle und persönliche Schäden verursachen.

Im Jahr 2020 haben wir große Fortschritte dabei gemacht, die Reichweite unserer Schutzmaßnahmen zu vergrößern, und haben es so geschafft, noch mehr Nutzer vor Betrug im Internet zu schützen. Onlinebetrug kann viele Formen haben und sich viel stärker negativ auswirken als herkömmlicher Webspam. Beispielsweise geben viele Betrüger Telefonnummern an, unter denen angeblich Kundensupport für Dienstleistungen und Produkte angeboten wird. Nutzer, die dann dort anrufen, werden dazu gebracht, per Banküberweisung oder Geschenkkarte zu bezahlen. Diese Art von Betrug ist allgemein als „Technical Support Scam“ oder „Tech-Support-Betrug“ bekannt und wurde bereits von Hunderttausenden von Nutzern gemeldet, wobei ein Nutzer in solch einem Fall Hunderte von Dollar an Betrüger verlieren kann.

Bild: Beispiel für Technical Support Scam in den Suchergebnissen

Seit 2018 konnten unsere Systeme hunderte Millionen Suchanfragen pro Jahr durch die Erkennung von potenziell betrügerischen Websites schützen. Eine Strategie von Betrügern im Internet besteht auch darin, eine große Zahl minderwertiger Websites zu erstellen, die überflüssige Keywords enthalten, Logos von Marken nachahmen und eine Telefonnummer enthalten, die Nutzer anrufen sollen. Durch unsere Algorithmen wird mit hoher Wahrscheinlichkeit verhindert, dass solche betrügerischen Websites in den Suchergebnissen auftauchen. Dies ist nur eine von mehreren Schutzmaßnahmen, die wir im letzten Jahr eingeführt haben, um für die Qualität der Suchergebnisse und eure Sicherheit zu sorgen. Wir möchten Betrügern immer einen Schritt voraus sein und euch vertrauenswürdige Ergebnisse liefern. Gleichzeitig könnt ihr euch selbst noch besser schützen, indem ihr euch auf dem Laufenden haltet und speziell über Betrug im Internet informiert.

Ein weiterer Aspekt, bei dem Fortschritte in der KI enorm geholfen haben, war das Verstehen der Inhalte von Websites. Ein Beispiel hierfür sind die Verbesserungen, die wir am Ranking von Rezensions-, Informations- und Shopping-Websites vorgenommen haben. Die Google Suche ist eine großartige Möglichkeit, vor einem Kauf Produkte zu recherchieren. Wir möchten, dass ihr die besten Informationen für euren nächsten Kauf erhaltet, und belohnen Inhalte, die sich durch ausführliche Recherchen und nützliche Informationen auszeichnen.

Trotz der erheblichen Fortschritte, die wir bei der Bekämpfung von Spam gemacht haben, sind Spammer unablässig damit beschäftigt, neue Techniken zu entwickeln, die noch nicht von uns erkannt werden können. Wir arbeiten deshalb kontinuierlich an Verbesserungen und daran, unsere Nutzer vor neuen Arten von Missbrauch zu schützen. Dabei helfen uns auch externe Berichte. Gab es in letzter Zeit Fälle, wo ihr in der Google Suche den Eindruck hattet, dass euch jemand täuschen oder betrügen will, und wo wir einen solchen Versuch vielleicht noch besser verhindern könnten? Falls ja, sendet uns euer Feedback über den Spam-Bericht, zusammen mit Informationen dazu, wonach ihr gesucht habt, und weiteren Angaben, die für uns nützlich sein könnten.

Bild: Der Googlebot: euer Verbündeter im Kampf gegen Spam

Beitrag von Cody Kwok, Principal Engineer

So sind wir 2020 gegen Spam in der Google Suche vorgegangen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Spam mit KI bekämpfen

Verhindern, dass Spam euch erreicht

Schutz – mehr als nur Spambekämpfung

So sind wir 2020 gegen Spam in der Google Suche vorgegangen