Donnerstag, 1. September 2011
Unser Ziel besteht darin, Informationen weltweit zu organisieren und universell zugänglich und nutzbar zu machen. Bei diesem ehrgeizigen Unterfangen stoßen wir häufig auf andere Formate als HTML, etwa PDFs, Tabellen oder Präsentationen. Unsere Algorithmen werden durch diese unterschiedlichen Dateitypen jedoch nicht abgebremst. Wir arbeiten intensiv an der Extraktion der relevanten Inhalte, um entsprechende Indexe für unsere Suchergebnisse zu erstellen. Wie funktioniert aber die Indexerstellung für diese Dateitypen? Welche Richtlinien gelten für diese Dateien, die weit vom HTML-Standard abweichen? Was passiert, wenn ein Webmaster nicht möchte, dass wir sie indexieren?
Google erstellte 2001 erstmals Indexe für PDF-Dateien und hat bis jetzt Hunderte Millionen PDF-Dateien indexiert. Wir haben die am häufigsten gestellten Fragen zur Indexerstellung aus PDFs gesammelt. Die Antworten findet ihr hier:
F: Kann Google alle Arten von PDF-Dateien indexieren?
A: Im Prinzip können wir Textinhalte in jeder beliebigen Sprache aus PDF-Dateien indexieren. Die Datei kann verschiedene Zeichencodierungen enthalten, darf jedoch nicht passwortgeschützt oder verschlüsselt sein. Sollte der Text als Bild eingebettet sein, können wir diese Bilder zur Extraktion des Texts mit OCR-Algorithmen bearbeiten. Die Faustregel lautet: Wenn der Text aus einem PDF-Dokument kopiert und in ein Standard-Textdokument eingefügt werden kann, ist die Indexierung des Texts möglich.
F: Werden Bilder in PDF-Dateien indexiert?
A: Derzeit werden Bilder nicht indexiert. Zur Indexierung eurer Bilder solltet ihr entsprechende HTML-Seiten erstellen. Weitere Informationen darüber, wie ihr die Wahrscheinlichkeit einer Anzeige eurer Bilder in unseren Suchergebnissen erhöhen könnt, findet ihr in den Best Practices für Google Bilder.
F: Wie werden Links in PDF-Dokumenten behandelt?
A: In der Regel werden Links in PDF-Dateien ähnlich wie Links in HTML behandelt. Die Links können PageRank und andere Indexierungssignale weitergeben und wir folgen ihnen möglicherweise, nachdem die PDF-Datei gecrawlt wurde. Es ist derzeit nicht möglich, nofollow
für Links innerhalb von PDF-Dokumenten zu verwenden.
F: Wie kann ich es verhindern, dass meine PDF-Datei in den Suchergebnissen angezeigt wird bzw. wie kann ich sie nachträglich daraus entfernen?
A: Die einfachste Methode, um zu vermeiden, dass eure PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen von X-Robots-Tag: noindex
im HTTP-Header, mit dem die Datei zur Verfügung gestellt wird. Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn ihr X-Robot-Tag
mit der Regel noindex
verwendet. Für eine schnellere Entfernung könnt ihr das Tool zum Entfernen von URLs in der Google Search Console verwenden.
F: Können PDF-Dateien in den Suchergebnissen hoch eingestuft werden?
A: Klar! Das Ranking für PDF-Dateien gleicht in der Regel dem Ranking anderer Websites. Zum Beispiel werden in den Suchergebnissen für mortgage market review, irs form 2011 oder paracetamol expert report zum Zeitpunkt der Veröffentlichung dieses Posts PDF-Dokumente ganz oben angezeigt. Dies ist aufgrund ihres Inhalts, ihrer Einbettung und Verlinkung von anderen Webseiten möglich.
F: Wird es als duplizierter Inhalt angesehen, wenn ich sowohl eine HTML- als auch PDF-Version meiner Seiten habe?
A: Wir empfehlen, Inhalte wenn möglich immer nur in einer Version bereitzustellen. Sollte das nicht möglich sein, legt am besten eure bevorzugte Version fest, indem ihr die URL dieser Version in eurer XML-Sitemap oder die autorisierte URL im HTML-Code oder HTTP-Header der PDF-Datei angebt. Weitere Tipps findet ihr im Hilfeartikel zur Kanonisierung.
F: Wie kann ich die in den Suchergebnissen angezeigten Titel meines PDF-Dokuments beeinflussen?
A: Wir verwenden hauptsächlich zwei Elemente zur Bestimmung der angezeigten Titel: die Metadaten des Titels in der Datei und den Ankertext von Links, die auf die PDF-Datei verweisen. Aktualisiert am besten beide Elemente. Damit macht ihr es unseren Algorithmen einfacher, den richtigen Titel zu ermitteln.
Weitere Informationen findet ihr im Video von Matt Cutt über die Suchoptimierung für PDF-Dateien. In der Search Console-Hilfe findet ihr weitere Tipps zu den Inhaltstypen, die indexiert werden können. Solltet ihr Feedback oder Fragen haben, teilt uns dies bitte über das Google Search Central-Hilfeforum mit.