GET- vs. POST-Methode und die Erfassung von mehr Inhalten im Web

Donnerstag, 10. November 2011

Google muss seine Crawling- und Indexierungsmethoden an die ständige Weiterentwicklung des Webs anpassen. Wir haben die Indexierung von Flash verbessert , eine robustere Infrastruktur namens Caffeine aufgebaut und in bestimmten Fällen sogar damit angefangen, Formulare zu crawlen . Da sich JavaScript und AJAX im Web immer größerer Beliebtheit erfreuen, stoßen wir zunehmend auf Webseiten, für die POST-Anforderungen eingesetzt werden müssen. Das gilt entweder für den gesamten Seiteninhalt oder ist erforderlich, weil auf den Seiten Informationen fehlen bzw. diese Seiten ohne die über eine POST-Anforderung ausgegebenen Ressourcen unbrauchbar dargestellt werden. Bei der Google-Suche entstehen dadurch natürlich Nachteile. Wenn wir Schwierigkeiten haben, Inhalte zu finden und zu indexieren, können wir Nutzern nicht die umfassendsten und relevantesten Ergebnisse präsentieren.

Grundsätzlich empfehlen wir die GET-Methode , um die für eine Seite erforderlichen Ressourcen abzurufen. Sie ist unsere bevorzugte Crawling-Methode. Wir haben Versuche unternommen, POST-Anforderungen in GET-Anforderungen umzuschreiben. Das funktioniert in manchen Fällen, häufig sind die vom Webserver ausgegebenen Inhalte für GET und POST allerdings vollkommen unterschiedlich. Es gibt natürlich gute Gründe, die POST-Methode zu verwenden. Beispielsweise könnt ihr zu einer POST-Anforderung mehr Daten hinzufügen als zu einer GET-Anforderung. GET-Anforderungen werden zwar häufiger verwendet. Um mehr Inhalte im Web zu erfassen, kann der Googlebot jedoch nun POST-Anforderungen verarbeiten, wenn wir davon überzeugt sind, dass dieser Vorgang sicher abläuft und angebracht ist.

Wir vermeiden bei einer Website sämtliche Schritte, die zu einer ungewollten Aktion seitens der Nutzer führen könnten. Unsere POST-Anforderungen setzen wir vor allem dazu ein, Ressourcen zu crawlen, die eine Seite automatisch anfordert. Im Prinzip wird dabei die Anzeige nachgeahmt, die auch Nutzer in ihrem Browser sehen. Mit einer besseren Heuristik wird sich dieser Prozess im Laufe der Zeit weiterentwickeln, aber das ist unsere aktuelle Vorgehensweise.

Wir möchten euch an einigen Szenarien für POST-Anforderungen zeigen, wie wir unsere Crawling- und Indexierungsmethoden an die Weiterentwicklung des Web anpassen.

Beispiele für POST-Anforderungen vom Googlebot

Crawlen einer Seite über eine POST-Weiterleitung

Crawlen einer Ressource über eine POST-XMLHttpRequest-Anforderung

<html>
<head>
<title>Leckerer Eisbecher</title>
<script src="jquery.js"></script>
</head>
<body>
Auf dieser Seite geht es um einen leckeren Eisbecher.
<div id="content"></div>
<script type="text/javascript">
$(document).ready(function() {
$. post ('karamellsosse-info.html', function(data)
{$('#content').html(data);});
});
</script>
</body>
</html>

So kann eure Website besser gecrawlt und indexiert werden

unserer Hilfe

Verwendet die GET-Methode für den Abruf von Ressourcen, es sei denn, ihr müsst aus einem bestimmten Grund zur POST-Methode greifen.

Bestätigt, dass wir die Ressourcen crawlen dürfen, die zur Darstellung eurer Seite erforderlich sind. Wenn im oben stehenden Beispiel karamellsosse-info.html durch eine robots.txt-Datei blockiert wird, wird sie vom Googlebot nicht abgerufen. Genauer gesagt: Wenn der JavaScript-Code, der die XMLHttpRequest-Anforderung sendet, in einer externen JS-Datei hinterlegt ist und diese Datei von einer robots.txt-Datei blockiert wird, können wir nicht erkennen, dass zwischen leckerer-eisbecher.html und karamellsosse-info.html ein Zusammenhang besteht. In diesem Fall haben wir also Schwierigkeiten, selbst wenn karamellsosse-info.html nicht direkt blockiert ist. Im Web sind uns sogar schon viel kompliziertere Verkettungen von Abhängigkeiten untergekommen. Google kann eure Website besser erfassen, wenn ihr dem Googlebot erlaubt, alle Ressourcen zu crawlen.

Webmaster-Tools Labs

Vorschau

Stellt sicher, dass an den Googlebot der gleiche Inhalt ausgegeben wird, den Nutzer auch in ihrem Webbrowser sehen. Beim Cloaking werden unterschiedliche Inhalte an den Googlebot und an die Nutzer gesendet. Diese Methode verstößt gegen unsere Richtlinien für Webmaster , da sie unter anderem dazu führen kann, dass wir nicht relevante Ergebnisse an Nutzer der Google-Suche ausgeben. In diesem Fall werden Nutzern in ihrem Browser vollkommen andere Inhalte angezeigt als die, die wir gecrawlt und indexiert haben. Wir haben bei zahlreichen POST-Anforderungen festgestellt, dass Webmaster unabsichtlich Cloaking eingesetzt haben. Doch auch dann handelt es sich um einen Verstoß. Das Cloaking führte selbst bei minimalen Abweichungen zu JavaScript-Fehlern, die eine präzise Indexierung unmöglich machten, und das Cloaking somit seinen Zweck vollkommen verfehlte. Zusammengefasst heißt das also, dass ihr einen großen Bogen um Cloaking machen solltet, wenn ihr eure Website für die Google-Suche optimieren möchtet.

Mit der Vorschau

Mozilla/5.0 (compatible; Googlebot/2.1;
+https://www.google.com/bot.html)

Denkt daran, wichtige Inhalte, also Inhalte, die indexiert werden sollen, als Text einzufügen, der direkt auf der Seite zu sehen ist und angezeigt wird, ohne dass Schritte seitens der Nutzer erforderlich sind. Die meisten Suchmaschinen basieren auf Texten und funktionieren deshalb am besten mit textbasierten Inhalten. Wir arbeiten ständig daran, unsere Crawling- und Indexierungsmethoden auf verschiedenste Art und Weise zu verbessern. Trotzdem bleibt es eine verlässliche Strategie, wichtige Informationen als Text einzufügen.

So kontrolliert ihr eure Inhalte

robots.txt-Datei

Vorschau-FAQ

Es geht voran

Hilfe-Forum zur Verfügung.

Autor: Pawel Aleksander Fedorynski , Software Engineer, Indexing Team, und Maile Ohye , Developer Programs Tech Lead (Veröffentlicht von Dominik Zins , Search Quality)

GET- vs. POST-Methode und die Erfassung von mehr Inhalten im Web Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

GET- vs. POST-Methode und die Erfassung von mehr Inhalten im Web