Feedfetcher

Feedfetcher est un outil qui permet à Google d'explorer les flux RSS ou Atom pour Google Actualités et PubSubHubbub. Feedfetcher stocke et actualise régulièrement les flux demandés par les utilisateurs d'une application ou d'un service. Seuls les flux de podcasts sont indexés dans la recherche Google. Toutefois, si un flux ne suit pas les spécifications Atom ou RSS, il peut être indexé malgré tout. Voici quelques réponses aux questions fréquentes concernant le fonctionnement de ce système de collecte de flux contrôlé par l'utilisateur.

Comment demander à Google d'ignorer la totalité ou une partie des flux de mon site ?

Lorsque les utilisateurs ajoutent un service ou une application utilisant les données de Feedfetcher, ce dernier tente d'obtenir le contenu du flux pour l'afficher. Les demandes de Feedfetcher sont déclenchées par l'utilisateur, et non par des robots d'exploration automatisés. Feedfetcher ignore donc les règles du fichier robots.txt.

Si votre flux est public, nous ne pouvons pas empêcher les utilisateurs d'y accéder. Une solution consiste à configurer votre site de manière à renvoyer un message d'erreur 404, 410 ou autre au user-agent Feedfetcher-Google.

Si votre flux provient d'un service d'hébergement de blogs ou de sites, adressez-vous directement au service concerné pour restreindre l'accès à votre flux.

À quelle fréquence Feedfetcher collecte-t-il mes flux ?

En principe, Feedfetcher collecte les flux de la plupart des sites une fois par heure au maximum. Cependant, certains sites fréquemment mis à jour peuvent être actualisés plus souvent. Il peut également arriver que cette fréquence de collecte soit temporairement plus importante, en raison des délais du réseau.

Pourquoi Feedfetcher tente-t-il de télécharger des liens incorrects depuis mon serveur ou depuis un domaine qui n'existe pas ?

Feedfetcher collecte les flux à la demande des services ou des applications installés par les utilisateurs. Il est possible qu'un utilisateur ait demandé une URL de flux qui n'existe pas.

Pourquoi Feedfetcher télécharge-t-il des informations depuis notre serveur Web "secret" ?

Feedfetcher collecte les flux à la demande des services ou des applications installés par les utilisateurs. Il est possible que la demande provienne d'un internaute qui a connaissance de votre serveur "secret" ou qui a saisi l'adresse par erreur.

Pourquoi Feedfetcher ne respecte-t-il pas les consignes de mon fichier robots.txt ?

Feedfetcher ne collecte les flux qu'une fois que les utilisateurs ont explicitement lancé un service ou une application demandant à accéder aux données du flux. Feedfetcher se comporte comme un agent direct de l'utilisateur, et non comme un robot. C'est pourquoi il ignore les consignes du fichier robots.txt. Il agit en tant qu'agent de plusieurs utilisateurs et préserve la bande passante en effectuant des requêtes groupées uniques pour les flux communs à tous les utilisateurs qui demandent ces flux via une application ou un service. Les flux courants sont RSS et Atom.

Vous pouvez empêcher Feedfetcher d'explorer votre site en configurant votre serveur de manière à renvoyer un message d'erreur 404, 410 ou autre au user-agent Feedfetcher-Google.

Pourquoi y-a-t'il des visites de plusieurs machines Google.com, toutes avec le user-agent Feedfetcher ?

Feedfetcher est conçu pour être réparti sur plusieurs machines afin d'améliorer les performances et de suivre la croissance du Web. Pour réduire la consommation de bande passante, les machines se trouvent souvent près des sites auxquels elles accèdent sur le réseau.

Puis-je savoir à partir de quelles adresses IP Feedfetcher envoie ses requêtes afin que je puisse filtrer mes journaux ?

Les adresses IP utilisées par Feedfetcher sont incluses dans l'objet user-triggered-fetchers-google.json.

Pourquoi Feedfetcher télécharge-t-il plusieurs fois la même page sur mon site ?

En principe, Feedfetcher ne télécharge qu'une seule copie de chaque fichier depuis votre site au cours d'une collecte de flux donnée. Cependant, il arrive parfois que les machines soient arrêtées et redémarrées, ce qui peut entraîner une nouvelle collecte des flux déjà extraits récemment.

Quels types de liens Feedfetcher explore-t-il ?

Contrairement aux robots d'exploration classiques, Feedfetcher ne découvre pas de liens à explorer. Il explore une seule URL qui lui est fournie par les utilisateurs d'un service ou d'une application utilisant Feedfetcher.

Je n'ai pas trouvé de réponse à ma question concernant Feedfetcher. Où puis-je obtenir de l'aide ?

Si vous rencontrez toujours des difficultés, publiez votre question sur le forum Search Central.