In questa pagina viene descritto come definire la copertura del tuo motore di ricerca utilizzando un file di annotazioni XML.
- Panoramica
- Utilizzare il formato XML di Ricerca programmabile
- Migliorare la copertura della ricerca
- Limiti delle annotazioni
Panoramica
Gestire un vasto insieme di siti può essere noioso se devi creare un motore di ricerca di grandi dimensioni. Puoi invece aggiungere e gestire molti siti elencandoli in un file di annotazioni e caricandolo. Inoltre, i file di annotazioni offrono un controllo molto maggiore sul ranking dei risultati di ricerca.
Un file di annotazioni è semplicemente un elenco di annotazioni. Ogni annotazione ha due componenti: il sito e le etichette associate. L'etichetta indica a Motore di ricerca programmabile come gestire un sito, ovvero se un sito deve essere incluso, escluso, promosso o retrocesso. Nel file di contesto devi definire le etichette, mentre nel file delle annotazioni devi taggare i siti con le etichette appropriate.
Quando inizi a modificare il file delle annotazioni, inizia con un numero ridotto di annotazioni. È più facile eseguire test e risolvere problemi relativi al motore di ricerca con alcune annotazioni. Quando ottieni i risultati attesi, aggiungi in modo incrementale altre annotazioni.
Puoi caricare il file delle annotazioni nel pannello di controllo. Per maggiori dettagli sui limiti dei file, vedi la sezione Limiti delle annotazioni.
Utilizzare il formato XML di Ricerca programmabile
Se vuoi sfruttare tutte le funzionalità disponibili nel file di configurazione di Motore di ricerca programmabile, XML è la soluzione che fa per te.
Annotazioni XML
Di seguito è riportato un esempio di annotazioni XML. Questo file delle annotazioni indica a Motore di ricerca programmabile di includere tutto il contenuto di www.webmd.com/hw/* ma di escludere tutto di www.webmd.com/hw/cancer/*.
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
Il file delle annotazioni contiene quattro elementi nella seguente gerarchia:
-
Annotations
(elemento principale)Annotation
Label
Comment
(facoltativo)
Creazione di annotazioni esterne
Per elencare i siti da coprire con il motore di ricerca, procedi nel seguente modo:
- Avvia il file con l'elemento principale
<Annotations></Annotations>
. - Crea un'annotazione aggiungendo i tag
<Annotation></Annotation>
e poi definisci l'attributoabout
con il pattern URL del sito.<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
- Associa il sito al motore di ricerca utilizzando il tag
<Label name=" "/>
e specifica come il sito deve essere trattato dal motore di ricerca. Puoi ottenere le etichette per il tuo motore di ricerca dal file di contesto del motore di ricerca. Vengono visualizzate due etichette: una per aggiungere siti al Motore di ricerca programmabile e una per escluderne i siti. Se non hai modificato il nome dell'etichetta del motore di ricerca nel file di contesto, l'etichetta per l'inclusione dei siti sarà nel formato_include_
, mentre l'etichetta per l'esclusione dei siti sarà nel formato_exclude_
. Per evitare errori, copia e incolla queste etichette anziché digitarle a mano.<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
A un sito possono essere associate più etichette,
Se hai modificato il nome dell'etichetta nel file di contesto, ricordati di aggiornare i valori
Label name
nel file dell'annotazione. - Per aggiungere altri siti, crea e definisci un altro elemento
Annotation
. - Salva il file XML.
Migliorare la copertura della ricerca
Motore di ricerca programmabile è basato sull'Indice Google. Ciò significa che le pagine web presenti nell'Indice Google sono disponibili per il tuo motore di ricerca; al contrario, le pagine web che non sono state sottoposte a scansione da Google non verranno visualizzate nei risultati di ricerca. Se vuoi che il tuo Motore di ricerca programmabile includa siti che non sono attualmente presenti nell'Indice Google, invia una Sitemap a Google Search Console.
Una Sitemap include un elenco di pagine del tuo sito, nonché informazioni sulla frequenza di aggiornamento delle pagine web e sulla loro importanza l'una rispetto all'altra. L'invio di una Sitemap aiuta Google a scoprire le tue pagine web e a migliorare la pianificazione della scansione. Per ulteriori informazioni sulle Sitemap, consulta il Centro assistenza per i webmaster e l'articolo sull'utilizzo del protocollo Sitemap. Se ti interessa creare Sitemap più originali, visita la pagina http://www.sitemaps.org/protocol.php.
L'invio di Sitemap è particolarmente utile se il tuo sito ha le seguenti caratteristiche:
- Contenuti dinamici
- Pagine web che non sono facilmente individuabili da Googlebot (il web crawler di Google), ad esempio pagine con funzioni AJAX o Flash avanzate
- Pochi siti web contenenti link che rimandano al sito.
Googlebot esegue la scansione del Web seguendo i link da una pagina all'altra; pertanto, se il tuo sito non è ben collegato, è difficile per il crawler individuarlo. Se il tuo sito web è nuovo, probabilmente pochi siti web indirizzano al tuo sito.
- Un grande archivio di pagine di contenuti che non dispone di una solida rete di crosslinking
Google può indicizzare solo le pagine a cui può accedere. Pertanto, se utilizzi un file robots.txt o meta tag robots nelle tue pagine web, assicurati che queste non blocchino i crawler.
Una copertura migliorata non è istantanea, in quanto occorre un po' di tempo per la scansione e l'indicizzazione delle pagine. Tuttavia, una volta che le tue pagine web sono presenti nell'indice, potrebbero apparire sia nella Ricerca Google sia nel Motore di ricerca programmabile.
Limiti delle annotazioni
La seguente tabella elenca i limiti per i file di annotazioni che vengono caricati su Motore di ricerca programmabile:
Nota: segui attentamente i limiti; se li superi, il motore di ricerca potrebbe non mostrare risultati.
Proporzioni | Limite |
---|---|
Dimensioni del file (file di contesto o di annotazioni) | 30 kB |
Numero massimo di annotazioni per motore di ricerca | 5000
Suggerimento: se ti accorgi che il tuo motore di ricerca supera il limite massimo di 5000 siti, valuta la possibilità di consolidare i singoli URL in pattern URL. |