Annotationen: Zu durchsuchende Websites definieren

Auf dieser Seite wird beschrieben, wie Sie die Abdeckung Ihrer Suchmaschine mithilfe einer XML-Annotationsdatei definieren.

  1. Übersicht
  2. XML-Format für die Programmable Search verwenden
  3. Suchabdeckung verbessern
  4. Beschränkungen für Annotationen

Übersicht

Die Verwaltung einer großen Sammlung von Websites kann bei einer großen Suchmaschine mühsam sein. Stattdessen kannst du viele Websites hinzufügen und verwalten, indem du sie in einer Anmerkungsdatei auflistest und diese hochlädst. Darüber hinaus bieten Anmerkungsdateien weitaus mehr Kontrolle über das Ranking der Suchergebnisse.

Eine Annotationsdatei ist einfach eine Liste von Annotationen. Jede Annotation besteht aus zwei Komponenten: der Website und den zugehörigen Labels. Das Label teilt der Programmable Search Engine mit, wie eine Website zu behandeln ist. das heißt, ob eine Website ein-, ausgeschlossen, hochgestuft oder herabgestuft werden soll. In der Kontextdatei definieren Sie Labels. In der Annotationsdatei versehen Sie Websites mit den entsprechenden Labels.

Wenn du anfängst, deine Anmerkungsdatei zu bearbeiten, beginne mit einer kleinen Anzahl von Anmerkungen. Mit ein paar Annotationen können Sie Ihre Suchmaschine einfacher testen und Fehler beheben. Wenn Sie die erwarteten Ergebnisse erhalten, fügen Sie inkrementell weitere Annotationen hinzu.

Sie können die Annotationsdatei in das Steuerfeld hochladen. Weitere Informationen zu Dateibeschränkungen finden Sie im Abschnitt Beschränkungen für Annotationen.

Nach oben

XML-Format für die Programmable Search verwenden

Wenn Sie alle in der Konfigurationsdatei der Programmable Search Engine verfügbaren Funktionen nutzen möchten, ist XML die richtige Wahl.

XML-Annotationen

Im Folgenden finden Sie ein Beispiel für XML-Annotationen. Diese Annotationsdatei weist die Programmable Search Engine an, alles unter www.webmd.com/hw/* einzuschließen, aber alles unter www.webmd.com/hw/cancer/* auszuschließen.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Die Annotationsdatei besteht aus vier Elementen in der folgenden Hierarchie:

  • Annotations (Stammelement) <ph type="x-smartling-placeholder">
      </ph>
    • Annotation
      • Label
      • Comment (optional)

Nach oben

Externe Anmerkungen erstellen

So listen Sie Websites auf, die Ihre Suchmaschine abdecken soll:

  1. Starten Sie die Datei mit dem Stammelement <Annotations></Annotations>.
  2. Erstellen Sie eine Annotation, indem Sie die <Annotation></Annotation>-Tags hinzufügen, und definieren Sie dann das Attribut about mit dem URL-Muster der Website.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Verknüpfe die Website mithilfe des <Label name=" "/>-Tags mit der Suchmaschine und gib an, wie die Website von der Suchmaschine behandelt werden soll. Sie können die Labels für Ihre Suchmaschine aus der Kontextdatei der Suchmaschine abrufen. Es gibt zwei Labels: eines zum Hinzufügen von Websites zu Ihrer Programmable Search Engine und eines zum Ausschließen von Websites. Wenn Sie den Namen des Suchmaschinenlabels in der Kontextdatei nicht geändert haben, hat das Label zum Einschließen von Websites das Format _include_ und das Label zum Ausschließen von Websites das Format _exclude_. Um Fehler zu vermeiden, kopieren Sie diese Labels und fügen Sie sie ein, anstatt sie manuell einzugeben.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Einer Website können mehrere Labels zugeordnet sein.

    Wenn Sie den Namen des Labels in der Kontextdatei geändert haben, denken Sie daran, die Label name-Werte in Ihrer Annotationsdatei zu aktualisieren.

  4. Wenn Sie weitere Websites hinzufügen möchten, erstellen und definieren Sie ein weiteres Annotation-Element.
  5. Speichern Sie die XML-Datei.

Nach oben

Suchabdeckung verbessern

Die Programmable Search Engine baut auf dem Google-Index auf. Das bedeutet, dass Webseiten, die im Google-Index enthalten sind, für Ihre Suchmaschine verfügbar sind. Umgekehrt werden Webseiten, die nicht von Google gecrawlt wurden, nicht in Ihren Suchergebnissen angezeigt. Wenn Ihre Programmable Search Engine Websites einschließen soll, die derzeit nicht im Google-Index enthalten sind, reichen Sie eine Sitemap bei der Google Search Console ein.

Eine Sitemap enthält eine Liste der Seiten Ihrer Website sowie Informationen zur Aktualisierungshäufigkeit der Webseiten und ihrer Wichtigkeit im Verhältnis zueinander. Wenn Sie eine Sitemap einreichen, kann Google Ihre Webseiten leichter finden und den Crawling-Zeitplan verbessern. Weitere Informationen zu Sitemaps finden Sie in der Webmaster-Hilfe und unter Sitemap-Protokoll verwenden. Wenn Sie noch ausgefeiltere Sitemaps erstellen möchten, finden Sie weitere Informationen unter http://www.sitemaps.org/protocol.php.

Das Einreichen von Sitemaps ist besonders hilfreich, wenn Ihre Website über Folgendes verfügt:

  • Dynamischer Inhalt
  • Webseiten, die vom Googlebot, dem Web-Crawler von Google, nicht leicht zu finden sind, beispielsweise Seiten mit umfangreichen AJAX- oder Flash-Funktionen
  • Es gibt nur wenige Websites, die auf ihn verlinken.

    Der Googlebot durchsucht das Web durch Verfolgen von Links von einer Seite zur anderen. Wenn Ihre Website also nicht gut verlinkt ist, kann der Crawler sie nur schwer finden. Wenn Ihre Website neu ist, verweisen wahrscheinlich nicht viele Websites auf sie.

  • Ein großes Archiv von Inhaltsseiten, das kein starkes Netzwerk an gegenseitigen Verlinkungen aufweist

Google kann nur Seiten indexieren, auf die es zugreifen kann. Wenn Sie auf Ihren Webseiten also die Datei robots.txt oder Robots-Meta-Tags verwenden, achten Sie darauf, dass diese Seiten Crawler nicht blockieren.

Eine verbesserte Abdeckung erfolgt nicht sofort, da das Crawlen und Indexieren der Seiten einige Zeit in Anspruch nimmt. Sobald sich Ihre Webseiten jedoch im Index befinden, können sie sowohl in der Google Suche als auch in Ihrer Programmable Search Engine erscheinen.

Nach oben

Einschränkungen für Annotationen

In der folgenden Tabelle sind die Beschränkungen für Annotationsdateien aufgeführt, die in die Programmable Search Engine hochgeladen werden:

Hinweis:Halten Sie sich an die Beschränkungen. wenn Sie sie überschreiten, zeigt Ihre Suchmaschine möglicherweise keine Ergebnisse an.

Aspekt Limit
Dateigröße (Kontext- oder Annotationsdateien) 30KB
Maximale Anzahl von Annotationen pro Suchmaschine 5.000

Tipp:Wenn Ihre Suchmaschine die hohe Grenze von 5.000 Websites überschreitet, können Sie einzelne URLs in URL-Mustern konsolidieren.

Nach oben