Feedfetcher

Google crawlt mithilfe des Feedfetchers RSS- oder Atom-Feeds für Google News und PubSubHubbub. Der Feedfetcher speichert und aktualisiert regelmäßig Feeds, die von Nutzern einer App oder eines Dienstes angefordert werden. In der Google Suche werden nur Podcast-Feeds indexiert. Wenn ein Feed jedoch nicht den Spezifikationen Atom oder RSS entspricht, wird er möglicherweise trotzdem indexiert. Im Folgenden findest du Antworten auf einige der am häufigsten gestellten Fragen zur Funktionsweise dieses nutzergesteuerten Feed-Abruf-Tools.

Wie beantrage ich, dass die Feeds auf meiner Website weder vollständig noch teilweise von Google abgerufen werden?

Wenn Nutzer einen Dienst oder eine App hinzufügen, die Feedfetcher-Informationen nutzt, versucht der Feedfetcher von Google, die Inhalte des Feeds abzurufen, damit diese angezeigt werden können. Da die Feedfetcher-Anfragen nicht von automatisierten Crawlern, sondern aus bewussten Handlungen menschlicher Nutzer stammen, ignoriert der Feedfetcher robots.txt-Regeln.

Wenn dein Feed öffentlich verfügbar ist, kann Google den Zugriff von Nutzern nicht verhindern. Eine Lösungsmöglichkeit ist, deine Website so zu konfigurieren, dass sie dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404, 410 oder einem anderen Code zurückgibt.

Wird dein Feed von einem Blog oder Hostanbieter für Websites bereitgestellt, wende dich bitte direkt an den jeweiligen Anbieter, um den Zugriff auf deinen Feed zu verhindern.

Wie oft ruft der Feedfetcher meine Feeds ab?

Der Feedfetcher sollte von den meisten Websites durchschnittlich höchstens einmal pro Stunde Feeds abrufen. Manche häufig aktualisierten Websites werden unter Umständen öfter aktualisiert. Übrigens können Netzwerkverzögerungen vorübergehend den Eindruck erwecken, dass der Feedfetcher deine Feeds häufiger abruft.

Warum versucht der Feedfetcher, von meinem Server oder von einer nicht vorhandenen Domain falsche Links herunterzuladen?

Der Feedfetcher ruft Feeds ab, wenn er durch die vom Nutzer installierten Dienste und Apps entsprechende Anfragen erhält. Womöglich hat ein Nutzer eine nicht vorhandene Feed-URL angefordert.

Warum lädt der Feedfetcher Informationen von unserem „geheimen“ Webserver herunter?

Der Feedfetcher ruft Feeds ab, wenn er durch die vom Nutzer installierten Dienste und Apps entsprechende Anfragen erhält. Womöglich wurde die Anfrage von einem Nutzer gestellt, der von deinem „geheimen“ Server weiß oder ihn versehentlich eingegeben hat.

Warum ignoriert der Feedfetcher meine robots.txt-Datei?

Der Feedfetcher ruft nur Feeds ab, nachdem Nutzer explizit Dienste oder Apps gestartet haben, die Daten aus dem Feed abrufen. Der Feedfetcher verhält sich nicht wie ein Roboter, sondern wie ein direkter Vertreter des menschlichen Nutzers und ignoriert daher robots.txt-Einträge. Da der Feedfetcher für mehrere Nutzer agiert, spart er Bandbreite, denn Anfragen nach verbreiteten Feeds werden nur jeweils einmal für alle Nutzer gestellt, die den Feed über eine App oder einen Dienst angefordert haben. Verbreitete Feeds sind RSS und Atom.

Du kannst den Feedfetcher daran hindern, deine Website zu crawlen, wenn du deinen Server so konfigurierst, dass er dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404 oder 410 oder einem anderen Code zurückgibt.

Warum gibt es Besuche verschiedener Rechner aus der Google.com-Domain, alle mit dem User-Agent „Feedfetcher“?

Der Feedfetcher wurde für den verteilten Betrieb auf mehreren Rechnern konzipiert, um so analog zum Wachstum des Webs seine Leistung und Abdeckung erhöhen zu können. Um nicht unnötig Bandbreite zu beanspruchen, sind die eingesetzten Rechner oft in der Nähe derjenigen Websites zu finden, die von ihnen im Netzwerk abgefragt werden.

Kann ich die IP-Adressen erhalten, von denen aus der Feedfetcher Anfragen stellt, sodass ich meine Protokolle entsprechend filtern kann?

Die vom Feedfetcher verwendeten IP-Adressen sind im Objekt user-triggered-fetchers-google.json enthalten.

Warum lädt der Feedfetcher dieselbe Seite auf meiner Website mehrmals herunter?

Normalerweise lädt der Feedfetcher während eines bestimmten Feed-Abrufs nur eine Kopie jeder Datei von deiner Website herunter. In seltenen Fällen werden die Rechner angehalten und neu gestartet. Dadurch werden kürzlich besuchte Seiten unter Umständen noch einmal abgefragt.

Welche Arten von Links crawlt der Feedfetcher?

Anders als normale Web-Crawler entdeckt der Feedfetcher keine Links, die gecrawlt werden sollen. Stattdessen crawlt er eine einzelne URL, die ihm von Nutzern eines Dienstes oder einer App zur Verfügung gestellt wird, die den Feedfetcher verwenden.

Meine Frage zum Feedfetcher wird hier nicht beantwortet. Wo kann ich weitere Hilfe erhalten?

Falls dein Problem hier nicht gelöst werden konnte, stell deine Frage bitte im Forum von Google Search Central.