Duplicate Content aufgrund von Scraper-Sites

Montag, 9. Juni 2008

Das Thema Duplicate Content wird bei vielen Webmastern immer noch rege diskutiert, daher möchte ich hier auf einige häufige Fragen eingehen, die ihr auf Konferenzen und in unserem Forum für Webmaster gestellt habt.

Zunächst möchte ich kurz auf eine häufig geäußerte Sorge eingehen: Die Tatsache, dass ihr in den meisten Fällen keinen Einfluss darauf habt, wenn Dritte Inhalte eurer Site kopieren. Uns ist bewusst, dass dies nicht die Schuld der betroffenen Webmaster ist. Daher betrachten wir identischen Content, der auf verschiedenen Sites auftaucht, nicht von vornherein als Verstoß gegen unsere Richtlinien für Webmaster . Wir versuchen in solchen Fällen lediglich herauszufinden, welches der jeweilige Original-Content ist - was in den meisten Fällen auch gut gelingt und somit keinerlei negative Effekte für die Site mit dem Original-Content mit sich bringt.

Prinzipiell können wir bei Duplicate Content zwei typische Fälle unterscheiden:
  • Duplicate Content innerhalb eurer Site, d. h. doppelt vorhandene Inhalte, die (häufig unbeabsichtigt) an mehreren Stellen eurer Site auftauchen.

  • Duplicate Content über verschiedene Sites verteilt, d. h. Inhalte eurer Site erscheinen (auch hier meistens unbeabsichtigt) identisch auf externen Sites.
Im ersten Fall könnt ihr gut selbst die Initiative ergreifen, um zu vermeiden, dass wir doppelte Inhalte eurer Site indexieren. Schaut euch einfach mal Adam Lasniks Post Duplicate Content - Best Practice bei dupliziertem Inhalt und den Post Duplicate Content-Session auf der SMX Advanced von Vanessa Fox an. Diese Posts geben euch praktische Tipps, was ihr bei Problemen mit Duplicate Content auf eurer Site tun könnt. Ein weiterer Vorschlag: Stellt in eurer Sitemap die bevorzugte Version eurer URLs bereit. Wenn wir beim Crawlen verschiedene Seiten mit den gleichen Inhalten finden, erhöht die Angabe der bevorzugten Version der URL in der Sitemap die Wahrscheinlichkeit, dass wir in den Suchergebnissen die von euch bevorzugte Version anzeigen. Weitere Informationen dazu findet ihr in unserem umfangreichen Artikel in der Hilfe für Webmaster .

Im zweiten Fall kann es sein, dass jemand Inhalte eurer Seite kopiert und auf externen Seiten platziert - häufig um Geld mit diesen "gestohlenen" Inhalten zu verdienen. Ebenso gibt es viele Web-Proxies, die Inhalte der Seiten indexieren, die über den Proxy aufgerufen wurden. Wenn wir solche doppelt vorhandenen Inhalte erkennen, dann prüfen wir verschiedene Signale, um die Site mit dem Original-Content zu ermitteln, was in der Regel gut funktioniert. Ihr müsst euch daher keine Sorgen machen, falls ihr feststellt, dass eurer Content gescrapt wurde.
Wenn ihr bewusst Inhalte weitergebt, z. B. an mehrere Syndication-Partner, dann solltet ihr darauf achten, dass eure Partner einen Link zurück auf euren Original-Content setzen.

Einige Webmaster fragen uns oft, was die Gründe dafür sein könnten, wenn eine Site mit gescraptem Content höher rankt als die Site mit dem Original-Content. Dies sollte nur recht selten vorkommen, aber falls ihr euch einmal in dieser Situation befindet, können euch diese Tipps weiterhelfen:
  • Prüft, ob eure Inhalte noch für unsere Crawler erreichbar sind:
    Eventuell habt ihr mit einer Änderung in eurer robots.txt-Datei bestimmte Inhalte vom Crawlen ausgeschlossen.

  • Überprüft eure Sitemap-Datei: Gibt es dort Änderungen, die den Content betreffen, der gescrapt wurde?

  • Stellt sicher, dass eure Site mit unseren Richtlinien für Webmaster übereinstimmt.
Abschließend möchte ich nochmal erwähnen, dass Duplicate Content in der Mehrzahl der Fälle keine negativen Effekte auf das Ranking eurer Site in unseren Suchergebnissen hat. Die doppelten Inhalte werden ganz einfach herausgefiltert, und wenn ihr euch einige der Tipps in den oben erwähnten Links anschaut, dann habt ihr durch deren Anwendung einfach eine größere Kontrolle darüber, was genau von uns gecrawlt wird und welche Versionen eurer Inhalte mit größerer Wahrscheinlichkeit in den Suchergebnissen erscheinen. Ein Verstoß gegen unsere Richtlinien für Webmaster liegt nur in den Fällen vor, wenn deutlich ist, dass Duplicate Content vorsätzlich und mit böswilliger Absicht erstellt wurde.

Wenn ihr über dieses Thema weiter diskutieren wollt, besucht unser Forum für Webmaster .

Post von Sven Naumann, Search Quality Team