Annotations: définir les sites sur lesquels effectuer des recherches

Cette page explique comment définir l'étendue de votre moteur de recherche à l'aide d'un fichier d'annotations XML.

  1. Présentation
  2. Utiliser le format XML Programmable Search
  3. Améliorer la couverture sur le Réseau de Recherche
  4. Limites d'annotations

Présentation

Gérer un grand nombre de sites peut s'avérer fastidieux si vous créez un moteur de recherche volumineux. En revanche, vous pouvez ajouter et gérer un grand nombre de sites en les répertoriant dans un fichier d'annotations et en l'important. En outre, les fichiers d'annotations vous permettent de mieux contrôler le classement des résultats de recherche.

Un fichier d'annotations n'est qu'une liste d'annotations. Chaque annotation comporte deux éléments: le site et les libellés qui lui sont associés. Ce libellé indique à Programmable Search Engine comment gérer un site, c'est-à-dire si ce site doit être inclus, exclu, promu ou rétrogradé. Dans le fichier de contexte, vous définissez les libellés. Dans le fichier d'annotations, vous ajoutez les libellés appropriés aux sites.

Lorsque vous commencez à modifier votre fichier d'annotations, commencez avec un petit nombre d'annotations. Quelques annotations vous permettent de tester plus facilement votre moteur de recherche et de résoudre les problèmes associés. Lorsque vous obtenez les résultats escomptés, ajoutez progressivement des annotations.

Vous pouvez importer le fichier d'annotations dans le panneau de configuration. Pour en savoir plus sur les limites applicables aux fichiers, consultez la section Limites d'annotations.

Haut de page

Utiliser le format XML Programmable Search

Si vous souhaitez exploiter toutes les fonctionnalités disponibles dans le fichier de configuration Programmable Search Engine, le format XML est la solution idéale.

Annotations XML

Voici un exemple d'annotations XML. Ce fichier d'annotations indique à Programmable Search Engine d'inclure tout ce qui se trouve sous www.webmd.com/hw/*, mais de exclure tout sous www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Le fichier d'annotations comporte quatre éléments dans la hiérarchie suivante:

  • Annotations (élément racine)
    • Annotation
      • Label
      • Comment (facultatif)

Haut de page

Créer des annotations externes

Pour répertorier les sites que votre moteur de recherche doit couvrir, procédez comme suit:

  1. Commencez le fichier avec l'élément racine <Annotations></Annotations>.
  2. Créez une annotation en ajoutant les balises <Annotation></Annotation>, puis définissez l'attribut about avec le format d'URL du site.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associez le site au moteur de recherche à l'aide de la balise <Label name=" "/> et indiquez comment le moteur de recherche doit le traiter. Vous pouvez obtenir les libellés de votre moteur de recherche à partir de son fichier de contexte. Deux libellés s'affichent: l'un pour ajouter des sites à Programmable Search Engine et l'autre pour en exclure. Si vous n'avez pas modifié le nom du libellé du moteur de recherche dans le fichier de contexte, le libellé d'inclusion de sites prend la forme _include_, tandis que celui d'exclusion de sites prend la forme _exclude_. Pour éviter les erreurs, copiez et collez ces libellés au lieu de les saisir manuellement.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Un même site peut être associé à plusieurs libellés,

    Si vous avez modifié le nom du libellé dans le fichier de contexte, n'oubliez pas de mettre à jour les valeurs Label name dans votre fichier d'annotations.

  4. Pour ajouter d'autres sites, créez et définissez un autre élément Annotation.
  5. Enregistrez le fichier XML.

Haut de page

Amélioration de la couverture sur le Réseau de Recherche

Programmable Search Engine s'appuie sur l'index Google. Cela signifie que votre moteur de recherche peut accéder aux pages Web de l'index Google. À l'inverse, les pages qui n'ont pas été explorées par Google n'apparaîtront pas dans les résultats de recherche. Si vous souhaitez que votre Programmable Search Engine inclue des sites qui ne figurent pas actuellement dans l'index Google, envoyez un sitemap à la Google Search Console.

Un sitemap comprend la liste des pages de votre site, ainsi que des informations sur la fréquence de mise à jour de ces pages et leur importance les unes par rapport aux autres. L'envoi d'un sitemap permet à Google de détecter vos pages Web et d'améliorer la planification de l'exploration. Pour en savoir plus sur les sitemaps, consultez le Centre d'aide pour les webmasters et l'utilisation du protocole sitemap. Si vous souhaitez créer des sitemaps plus sophistiqués, consultez la page http://www.sitemaps.org/protocol.php.

L'envoi de sitemaps est particulièrement utile si votre site comporte les éléments suivants:

  • Contenu dynamique
  • Les pages Web que Googlebot (le robot d'exploration de Google) ne peut pas facilement explorer. Il peut s'agir, par exemple, de pages dotées de fonctionnalités AJAX ou Flash avancées.
  • Peu de sites Web comportant un lien vers ce site.

    Googlebot explore le Web en suivant les liens d'une page à une autre. Par conséquent, si votre site n'est pas correctement référencé, le robot d'exploration aura du mal à le découvrir. S'il s'agit d'un nouveau site Web, il est probable que peu de sites Web redirigent vers celui-ci.

  • Archives volumineuses de pages de contenu qui ne disposent pas d'un réseau solide de liens croisés

Google ne peut indexer que les pages auxquelles il a accès. Par conséquent, si vous utilisez un robots.txt ou des balises Meta pour les robots dans vos pages Web, assurez-vous que ces pages ne bloquent pas les robots d'exploration.

L'amélioration de la couverture n'est pas instantanée, car l'exploration et l'indexation des pages prennent un certain temps. Cependant, une fois que vos pages Web sont indexées, elles peuvent apparaître à la fois dans la recherche Google et dans votre moteur Programmable Search Engine.

Haut de page

Limites d'annotations

Le tableau suivant répertorie les limites applicables aux fichiers d'annotations importés dans Programmable Search Engine:

Remarque:Veillez à respecter scrupuleusement ces limites. Si vous les dépassez, votre moteur de recherche risque de ne pas afficher de résultats.

Aspect Limite
Taille du fichier (fichiers de contexte ou d'annotations) 30 Ko
Nombre maximal d'annotations par moteur de recherche 5 000

Conseil:Si vous estimez que votre moteur de recherche dépasse la limite de 5 000 sites, envisagez de regrouper les URL individuelles dans des formats d'URL.

Haut de page