Annotazioni: definizione dei siti in cui eseguire la ricerca

In questa pagina viene descritto come definire la copertura del tuo motore di ricerca utilizzando un file di annotazioni XML.

  1. Panoramica
  2. Utilizzare il formato XML di Ricerca programmabile
  3. Migliorare la copertura della ricerca
  4. Limiti delle annotazioni

Panoramica

Gestire un vasto insieme di siti può essere noioso se devi creare un motore di ricerca di grandi dimensioni. Puoi invece aggiungere e gestire molti siti elencandoli in un file di annotazioni e caricandolo. Inoltre, i file di annotazioni offrono un controllo molto maggiore sul ranking dei risultati di ricerca.

Un file di annotazioni è semplicemente un elenco di annotazioni. Ogni annotazione ha due componenti: il sito e le etichette associate. L'etichetta indica a Motore di ricerca programmabile come gestire un sito, ovvero se un sito deve essere incluso, escluso, promosso o retrocesso. Nel file di contesto devi definire le etichette, mentre nel file delle annotazioni devi taggare i siti con le etichette appropriate.

Quando inizi a modificare il file delle annotazioni, inizia con un numero ridotto di annotazioni. È più facile eseguire test e risolvere problemi relativi al motore di ricerca con alcune annotazioni. Quando ottieni i risultati attesi, aggiungi in modo incrementale altre annotazioni.

Puoi caricare il file delle annotazioni nel pannello di controllo. Per maggiori dettagli sui limiti dei file, vedi la sezione Limiti delle annotazioni.

Torna all'inizio

Utilizzare il formato XML di Ricerca programmabile

Se vuoi sfruttare tutte le funzionalità disponibili nel file di configurazione di Motore di ricerca programmabile, XML è la soluzione che fa per te.

Annotazioni XML

Di seguito è riportato un esempio di annotazioni XML. Questo file delle annotazioni indica a Motore di ricerca programmabile di includere tutto il contenuto di www.webmd.com/hw/* ma di escludere tutto di www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Il file delle annotazioni contiene quattro elementi nella seguente gerarchia:

  • Annotations (elemento principale)
    • Annotation
      • Label
      • Comment (facoltativo)

Torna all'inizio

Creazione di annotazioni esterne

Per elencare i siti da coprire con il motore di ricerca, procedi nel seguente modo:

  1. Avvia il file con l'elemento principale <Annotations></Annotations>.
  2. Crea un'annotazione aggiungendo i tag <Annotation></Annotation> e poi definisci l'attributo about con il pattern URL del sito.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associa il sito al motore di ricerca utilizzando il tag <Label name=" "/> e specifica come il sito deve essere trattato dal motore di ricerca. Puoi ottenere le etichette per il tuo motore di ricerca dal file di contesto del motore di ricerca. Vengono visualizzate due etichette: una per aggiungere siti al Motore di ricerca programmabile e una per escluderne i siti. Se non hai modificato il nome dell'etichetta del motore di ricerca nel file di contesto, l'etichetta per l'inclusione dei siti sarà nel formato _include_, mentre l'etichetta per l'esclusione dei siti sarà nel formato _exclude_. Per evitare errori, copia e incolla queste etichette anziché digitarle a mano.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    A un sito possono essere associate più etichette,

    Se hai modificato il nome dell'etichetta nel file di contesto, ricordati di aggiornare i valori Label name nel file dell'annotazione.

  4. Per aggiungere altri siti, crea e definisci un altro elemento Annotation.
  5. Salva il file XML.

Torna all'inizio

Migliorare la copertura della ricerca

Motore di ricerca programmabile è basato sull'Indice Google. Ciò significa che le pagine web presenti nell'Indice Google sono disponibili per il tuo motore di ricerca; al contrario, le pagine web che non sono state sottoposte a scansione da Google non verranno visualizzate nei risultati di ricerca. Se vuoi che il tuo Motore di ricerca programmabile includa siti che non sono attualmente presenti nell'Indice Google, invia una Sitemap a Google Search Console.

Una Sitemap include un elenco di pagine del tuo sito, nonché informazioni sulla frequenza di aggiornamento delle pagine web e sulla loro importanza l'una rispetto all'altra. L'invio di una Sitemap aiuta Google a scoprire le tue pagine web e a migliorare la pianificazione della scansione. Per ulteriori informazioni sulle Sitemap, consulta il Centro assistenza per i webmaster e l'articolo sull'utilizzo del protocollo Sitemap. Se ti interessa creare Sitemap più originali, visita la pagina http://www.sitemaps.org/protocol.php.

L'invio di Sitemap è particolarmente utile se il tuo sito ha le seguenti caratteristiche:

  • Contenuti dinamici
  • Pagine web che non sono facilmente individuabili da Googlebot (il web crawler di Google), ad esempio pagine con funzioni AJAX o Flash avanzate
  • Pochi siti web contenenti link che rimandano al sito.

    Googlebot esegue la scansione del Web seguendo i link da una pagina all'altra; pertanto, se il tuo sito non è ben collegato, è difficile per il crawler individuarlo. Se il tuo sito web è nuovo, probabilmente pochi siti web indirizzano al tuo sito.

  • Un grande archivio di pagine di contenuti che non dispone di una solida rete di crosslinking

Google può indicizzare solo le pagine a cui può accedere. Pertanto, se utilizzi un file robots.txt o meta tag robots nelle tue pagine web, assicurati che queste non blocchino i crawler.

Una copertura migliorata non è istantanea, in quanto occorre un po' di tempo per la scansione e l'indicizzazione delle pagine. Tuttavia, una volta che le tue pagine web sono presenti nell'indice, potrebbero apparire sia nella Ricerca Google sia nel Motore di ricerca programmabile.

Torna all'inizio

Limiti delle annotazioni

La seguente tabella elenca i limiti per i file di annotazioni che vengono caricati su Motore di ricerca programmabile:

Nota: segui attentamente i limiti; se li superi, il motore di ricerca potrebbe non mostrare risultati.

Proporzioni Limite
Dimensioni del file (file di contesto o di annotazioni) 30 kB
Numero massimo di annotazioni per motore di ricerca 5000

Suggerimento: se ti accorgi che il tuo motore di ricerca supera il limite massimo di 5000 siti, valuta la possibilità di consolidare i singoli URL in pattern URL.

Torna all'inizio