Feedfetcher
Feedfetcher est un outil qui permet à Google d'explorer les flux RSS ou Atom pour Google Podcasts, Google Actualités et PubSubHubbub. Feedfetcher stocke et actualise régulièrement les flux demandés par les utilisateurs d'une application ou d'un service. Seuls les flux de podcasts sont indexés dans la recherche Google. Toutefois, si un flux ne suit pas les spécifications Atom ou RSS, il peut être indexé malgré tout. Voici quelques réponses aux questions fréquentes concernant le fonctionnement de ce système de collecte de flux contrôlé par l'utilisateur.
Comment demander à Google d'ignorer tout ou partie des flux de mon site ?
Lorsque les utilisateurs ajoutent un service ou une application utilisant les données de Feedfetcher, ce dernier tente d'obtenir le contenu du flux pour l'afficher. Les demandes de Feedfetcher sont déclenchées par l'utilisateur, et non par des robots d'exploration automatisés. Feedfetcher ne suit donc pas les consignes du fichier robots.txt.
Si votre flux est public, Google ne peut pas empêcher les utilisateurs d'y accéder. Vous pouvez configurer votre site de manière à renvoyer un message d'erreur 404
, 410
ou autre au user-agent Feedfetcher-Google
.
Si votre flux provient d'un service d'hébergement de blogs ou de sites, adressez-vous directement au service concerné pour restreindre l'accès à votre flux.
À quelle fréquence Feedfetcher collecte-t-il mes flux ?
En principe, Feedfetcher collecte les flux de la plupart des sites une fois par heure au maximum. Cependant, certains sites fréquemment mis à jour peuvent être actualisés plus souvent. Il peut également arriver que cette fréquence de collecte soit temporairement plus importante, en raison des délais du réseau.
Pourquoi Feedfetcher tente-t-il de télécharger des liens incorrects depuis mon serveur ou depuis un domaine qui n'existe pas ?
Feedfetcher collecte les flux à la demande des services ou des applications installés par les utilisateurs. Il est possible qu'un utilisateur ait demandé un emplacement d'URL de flux qui n'existe pas.
Pourquoi Feedfetcher télécharge-t-il des informations depuis notre serveur Web "secret" ?
Feedfetcher collecte les flux à la demande des services ou des applications installés par les utilisateurs. Il est possible que la demande provienne d'un internaute qui a connaissance de votre serveur "secret" ou qui a saisi l'adresse par erreur.
Pourquoi Feedfetcher ne respecte-t-il pas les consignes de mon fichier robots.txt ?
Feedfetcher ne collecte les flux qu'une fois que les utilisateurs ont explicitement lancé un service ou une application demandant à accéder aux données du flux. Feedfetcher se comporte comme un agent direct de l'utilisateur, et non comme un robot. C'est pourquoi il ignore les consignes du fichier robots.txt. Il agit en tant qu'agent de plusieurs utilisateurs et préserve la bande passante en effectuant des requêtes groupées uniques pour les flux communs à tous les utilisateurs qui demandent ces flux via une application ou un service. Les flux communs sont RSS et Atom.
Vous pouvez empêcher Feedfetcher d'explorer votre site en configurant votre serveur de manière à renvoyer un message d'erreur 404
, 410
ou autre au user-agent Feedfetcher-Google
.
Pourquoi y-a-t'il des visites de plusieurs machines Google.com, toutes avec le user-agent Feedfetcher ?
Feedfetcher est conçu pour être réparti sur plusieurs machines afin d'améliorer les performances et de suivre la croissance du Web. Pour réduire la consommation de bande passante, les machines se trouvent souvent près des sites auxquels elles accèdent sur le réseau.
Puis-je savoir à partir de quelles adresses IP Feedfetcher envoie ses requêtes afin que je puisse filtrer mes journaux ?
Les adresses IP utilisées par Feedfetcher changent de temps en temps. Le meilleur moyen d'identifier les requêtes de Feedfetcher est de rechercher son user-agent, Feedfetcher-Google
.
Pourquoi Feedfetcher télécharge-t-il plusieurs fois la même page sur mon site ?
En principe, Feedfetcher télécharge une seule copie de chaque fichier sur votre site au cours de chaque collecte de flux. Cependant, il arrive parfois que les machines soient arrêtées et redémarrées, ce qui peut entraîner une nouvelle collecte des flux déjà extraits récemment.
Quels types de liens Feedfetcher suit-il ?
Contrairement aux robots d'exploration classiques, Feedfetcher ne suit pas de liens. Il suit les demandes d'utilisateurs de services ou d'applications utilisant Feedfetcher.
Je n'ai pas trouvé de réponse à ma question concernant Feedfetcher. Où puis-je obtenir de l'aide ?
Si vous rencontrez toujours des difficultés, publiez votre question sur le forum Search Central.