Wie man unerwünschte Inhalte loswird, Teil I: URLs und Verzeichnisse

Dienstag, 30. März 2010

Heutzutage gibt es wirklich viel Content im Internet. Irgendwann kann es passieren, dass etwas online auftaucht, das ihr da lieber nicht sehen würdet – das kann z. B. ein reißerischer Blogpost sein, den ihr jetzt bereut, oder es kann sich um vertrauliche Daten handeln, die aus Versehen veröffentlicht wurden. In den meisten Fällen bewirkt das Löschen oder die Sperrung dieser Inhalte bereits, dass diese Sachen nach und nach aus den Suchergebnissen verschwinden. Falls ihr jedoch Inhalte, die von uns indexiert wurden, dringend entfernen möchtet und nicht darauf warten könnt, bis sie auf natürliche Weise verschwinden, dann könnt ihr unser Tool zum Entfernen von URLs verwenden, um die Entfernung zu beschleunigen. Dazu müssen bestimmte Voraussetzungen erfüllt sein, die wir nachfolgend besprechen.

Wir haben eine Serie von Blogposts vorbereitet, die euch erklären, wir ihr eine Reihe unterschiedlicher Arten von Content erfolgreich entfernen könnt und welche gängigen Fehler ihr dabei vermeiden solltet. Im ersten Post geht es um einige einfache Fälle: Die Entfernung einer einzelnen URL, die Entfernung eines ganzen Verzeichnisses oder einer Website und wie man bereits entfernten Content wieder hinzufügen kann. Ich empfehle außerdem unseren vorigen Post zum Festlegen der Informationen, die über euch online verfügbar sind.

Einzelne URLs entfernen

Damit ein Antrag auf Entfernung erfolgreich ist, muss im Allgemeinen der Inhaber der URL(s), um die es geht – egal, ob das ihr seid oder jemand anderes – signalisieren, dass es OK ist, diese Inhalte zu entfernen. Bei einer einzelnen URL kann dies auf drei Arten geschehen:

  • indem die Seite per robots.txt-Datei vom Crawling ausgeschlossen wird
  • indem die Seite mit dem meta-Tag noindex von der Indexierung ausgeschlossen wird
  • indem ein 404- oder 410-Statuscode zurückgegeben und dadurch signalisiert wird, dass die betreffende Seite nicht mehr existiert

Bevor ihr einen Antrag auf Entfernung einreicht, könnt ihr prüfen, ob die betreffende URL korrekt gesperrt ist:

  • robots.txt: Ihr könnt prüfen, ob die URL korrekt blockiert wird, indem ihr z. B. die Funktion Abruf wie durch Googlebotoder robots.txt testen in den Webmaster-Tools verwendet.
  • meta-Tag noindex: Ihr könnt „Abruf wie durch Googlebot“ verwenden, um zu überprüfen, ob das meta-Tag irgendwo zwischen den Tags <head> und </head> steht. Falls ihr eine Seite prüfen wollt, die ihr nicht in den Webmaster-Tools bestätigen könnt, dann könnt ihr die URL in einem Browser öffnen und über „Ansicht“ > „Seitenquelltext“ den Seitenquelltext anzeigen. Dort könnt ihr dann sehen, ob das meta-Tag zwischen den Tags <head> und </head> steht.
  • 404- und 410-Statuscode: Ihr könnt die Funktion „Abruf wie durch Googlebot“ oder Tools wie z. B. Live HTTP Headers oder web-sniffer.net verwenden, um herauszufinden, ob die URL den richtigen Code zurückgibt. Manchmal steht auf „gelöschten“ Seiten „404“ oder „Nicht gefunden“, im Header der Seite wird aber ein 200-Statuscode zurückgegeben. Es ist also ratsam, ein richtiges Tool zum Prüfen der Statuscodes zu verwenden.

Wenn unerwünschter Content von einer Seite entfernt wurde, diese Seite jedoch nicht durch eine der oben beschriebenen Arten blockiert wurde, dann ist es nicht möglich, diese URL komplett aus unseren Suchergebnissen zu löschen. Das passiert besonders dann häufig, wenn es sich nicht um eure eigene Website handelt. Wir behandeln in einem der folgenden Posts in Teil II unserer Serie „Wie man unerwünschte Inhalte los wird“, was ihr in diesen Fällen tun könnt.

Wenn eine URL eine der obigen Bedingungen erfüllt, dann könnt ihr sie entfernen, indem ihr im Tool zum Entfernen die zu entfernende URL eingebt und die Option „Der Webmaster hat diese Seite bereits blockiert“ auswählt. Dabei ist es wichtig, genau die URL zu verwenden, unter der der betreffende Content gehostet wurde, und nicht die URL des Google-Suchergebnisses. Ihr solltet also z. B. https://www.example.com/embarrassing-stuff.html eingeben und nicht https://www.google.com/search?q=embarrassing+stuff.

In unserem Hilfeartikel findet ihr genauere Informationen dazu, wie ihr dafür sorgen könnt, auch tatsächlich die korrekte URL einzugeben. Bedenkt dabei allerdings: Falls ihr nicht die exakte URL angebt, die euch stört, sind wir nicht in der Lage, den entsprechenden Content zu entfernen.

Gesamtes Verzeichnis oder gesamte Website entfernen

Damit das Entfernen eines Verzeichnisses oder einer gesamten Website funktioniert, muss das Verzeichnis oder die Site in der robots.txt-Datei vom Crawling ausgeschlossen sein. Um beispielsweise das Verzeichnis https://www.example.com/secret/ zu entfernen, müsste die robots.txt-Datei Folgendes enthalten:

User-agent: *
Disallow: /secret/

Es reicht dabei nicht, wenn die oberste Ebene des Verzeichnisses einen 404-Statuscode zurückgibt, da es möglich ist, dass ein Verzeichnis einen 404-Code zurückgibt, aber dennoch Dateien unterhalb des Verzeichnisses bereitstellt. Indem ihr die robots.txt-Datei verwendet, um ein Verzeichnis (oder eine gesamte Website) zu blockieren, sorgt ihr dafür, dass alle URLs unterhalb des Verzeichnisses (oder der Website) ebenfalls blockiert sind. Ihr könnt testen, ob ein Verzeichnis korrekt blockiert wurde, indem ihr die Funktion Abruf wie durch Googlebot oder robots.txt testen in den Webmaster-Tools verwendet.

Nur bestätigte Inhaber einer Website können in den Webmaster-Tools die Entfernung einer gesamten Website oder eines Verzeichnisses beantragen. Um ein Verzeichnis oder eine Website zu entfernen, könnt ihr die betreffende Website anklicken und dann Websitekonfiguration > Crawler-Zugriff > URL entfernen aufrufen. Wenn ihr dort die Homepage (Root) eurer Website als zu entfernende URL angebt, werdet ihr dazu aufgefordert, die Entfernung der gesamten Website zu bestätigen. Wenn ihr ein Unterverzeichnis angebt, solltet ihr im Drop-down-Menü die Option „Verzeichnis entfernen“ auswählen.

Wiederaufnahme von Content

Ihr könnt Anträge auf Entfernung für alle Websites jederzeit zurückziehen, auch wenn sie von anderen eingereicht wurden. Dazu müsst ihr in den Webmaster-Tools bestätigter Inhaber dieser Website sein. Wenn die Inhaberschaft bestätigt wurde, könnt ihr Websitekonfiguration > Crawler-Zugriff > URL entfernen > Entfernte URLs (oder > Anfragen von anderen) aufrufen und neben den Anträgen, die ihr zurückziehen wollt, auf „Abbrechen“ klicken.

Ihr habt weitere Fragen? Nicht verpassen: Weitere Posts unserer Serie zum Entfernen von Inhalten aus den Google-Suchergebnissen folgen demnächst. Falls ihr nicht warten wollt: In unserem Hilfeforum wurde schon viel zur URL-Entfernung und einzelnen Fällen der Fehlerbehebung geschrieben. Falls ihr nach dem Lesen der Beiträge anderer Nutzer noch Fragen habt, könnt ihr sie dort stellen. Bedenkt dabei, dass es in den meisten Fällen schwierig ist, konkrete Hinweise zu einem bestimmten Antrag auf Entfernung zu geben, wenn die Website oder URL nicht angegeben wird. Wir empfehlen euch daher, eure URL zu teilen, indem ihr einen Dienst zum Kürzen von URLs nutzt, sodass ihr euch keine Sorgen darüber zu machen braucht, dass diese URL als Teil des Forumposts indexiert wird. Viele dieser Dienste ermöglichen es euch sogar, den gekürzten Link später zu deaktivieren, nachdem eure Frage beantwortet wurde.

Außerdem könnt ihr euch darüber informieren, wie ihr festlegt, welche Informationen über euch online verfügbar sind.