Annotations: définir les sites sur lesquels effectuer des recherches

Cette page explique comment définir la couverture de votre moteur de recherche à l'aide d'un fichier d'annotations XML.

  1. Présentation
  2. Utiliser le format XML de la recherche programmable
  3. Améliorer la couverture sur le Réseau de Recherche
  4. Limites des annotations

Présentation

La gestion d'un grand nombre de sites peut s'avérer fastidieuse si vous créez un moteur de recherche performant. En revanche, vous pouvez ajouter et gérer un grand nombre de sites en les répertoriant dans un fichier d'annotations et en le transférant. En outre, les fichiers d'annotations vous offrent un meilleur contrôle du classement des résultats de recherche.

Un fichier d'annotations est simplement une liste d'annotations. Chaque annotation est constituée de deux éléments: le site et les libellés qui lui sont associés. Ce libellé indique au Programmable Search Engine comment gérer un site. c'est-à-dire si un site doit être inclus, exclu, promu ou rétrogradé. Dans le fichier de contexte, vous définissez les étiquettes. Dans le fichier d'annotations, vous associez les libellés appropriés aux sites.

Lorsque vous commencez à modifier votre fichier d'annotations, commencez avec un petit nombre d'annotations. Il est plus facile de tester votre moteur de recherche et de résoudre les problèmes en ajoutant quelques annotations. Lorsque vous obtenez les résultats attendus, ajoutez progressivement des annotations.

Vous pouvez importer le fichier d'annotations dans le panneau de configuration. Pour en savoir plus sur les limites applicables aux fichiers, consultez la section Limites des annotations.

Haut de page

Utiliser le format XML de la recherche programmable

Si vous souhaitez profiter de toutes les fonctionnalités disponibles dans le fichier de configuration Programmable Search Engine, optez pour le format XML.

Annotations XML

Voici un exemple d'annotations XML. Ce fichier d'annotations indique à Programmable Search Engine d'inclure tout ce qui se trouve sous www.webmd.com/hw/*, mais d'exclure tout ce qui se trouve sous www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Le fichier d'annotations comporte quatre éléments dans la hiérarchie suivante:

  • Annotations (élément racine) <ph type="x-smartling-placeholder">
      </ph>
    • Annotation
      • Label
      • Comment (facultatif)

Haut de page

Création d'annotations externes

Pour répertorier les sites que votre moteur de recherche doit couvrir, procédez comme suit:

  1. Commencez le fichier par l'élément racine <Annotations></Annotations>.
  2. Créez une annotation en ajoutant les balises <Annotation></Annotation>, puis définissez l'attribut about avec le format d'URL du site.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associez le site au moteur de recherche à l'aide de la balise <Label name=" "/>, puis spécifiez la manière dont ce site doit être traité par le moteur de recherche. Vous pouvez obtenir les libellés de votre moteur de recherche à partir du fichier de contexte du moteur de recherche. Deux libellés s'affichent: un pour ajouter des sites à Programmable Search Engine et un pour en exclure. Si vous n'avez pas modifié le nom du libellé du moteur de recherche dans le fichier de contexte, le libellé permettant d'inclure des sites se présente sous la forme _include_, tandis que celui permettant d'exclure des sites se présente sous la forme _exclude_. Pour éviter les erreurs, copiez et collez ces libellés au lieu de les saisir manuellement.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Un même site peut être associé à plusieurs libellés,

    Si vous avez modifié le nom du libellé dans le fichier de contexte, n'oubliez pas de mettre à jour les valeurs Label name dans votre fichier d'annotation.

  4. Pour ajouter d'autres sites, créez et définissez un autre élément Annotation.
  5. Enregistrez le fichier XML.

Haut de page

Amélioration de la couverture sur le Réseau de Recherche

Programmable Search Engine repose sur l'index Google. Cela signifie que les pages Web qui figurent dans l'index Google sont accessibles à votre moteur de recherche. En revanche, les pages Web qui n'ont pas été explorées par Google n'apparaîtront pas dans vos résultats de recherche. Si vous souhaitez que votre Programmable Search Engine inclue des sites qui ne figurent pas dans l'index Google, envoyez un sitemap à Google Search Console.

Un sitemap contient la liste des pages de votre site, ainsi que des informations sur la fréquence de mise à jour des pages Web et leur importance les unes par rapport aux autres. L'envoi d'un sitemap permet à Google de détecter vos pages Web et d'améliorer le planning d'exploration. Pour en savoir plus sur les sitemaps, consultez le Centre d'aide pour les webmasters et l'utilisation du protocole sitemap. Si vous souhaitez créer des sitemaps plus sophistiqués, consultez la page http://www.sitemaps.org/protocol.php.

L'envoi de sitemaps est particulièrement utile si votre site répond aux critères suivants:

  • Contenu dynamique
  • Pages Web difficilement identifiables par Googlebot (le robot d'exploration de Google), par exemple les pages dotées de fonctionnalités AJAX ou Flash enrichies
  • Peu de sites Web renvoient vers ce contenu.

    Googlebot explore le Web en suivant les liens d'une page à une autre. Ainsi, si les liens de votre site sont imprécis, le robot d'exploration aura du mal à le découvrir. Si votre site Web est récent, peu de sites Web renvoient vers lui.

  • Archives de pages de contenu volumineuses, sans réseau de liaison transversal efficace

Google ne peut indexer que les pages auxquelles il a accès. Par conséquent, si vous utilisez un fichier robots.txt ou des balises Meta pour les robots dans vos pages Web, assurez-vous qu'elles ne bloquent pas les robots d'exploration.

La couverture améliorée n'est pas instantanée, car l'exploration et l'indexation des pages prennent un certain temps. Toutefois, une fois que vos pages Web sont incluses dans l'index, elles peuvent apparaître à la fois dans la recherche Google et dans votre Programmable Search Engine.

Haut de page

Limites des annotations

Le tableau suivant répertorie les limites pour les fichiers d'annotations importés dans Programmable Search Engine:

Remarque:Veillez à bien respecter les limites. Si vous les dépassez, votre moteur de recherche risque de ne pas afficher de résultats.

Aspect Limite
Taille du fichier (fichiers de contexte ou d'annotations) 30 Ko
Nombre maximal d'annotations par moteur de recherche 5 000

Conseil:Si vous constatez que votre moteur de recherche dépasse la limite importante de 5 000 sites, envisagez de regrouper les URL individuelles dans des formats d'URL.

Haut de page