Annotationen: Zu durchsuchende Websites definieren

Auf dieser Seite wird beschrieben, wie Sie die Abdeckung Ihrer Suchmaschine mithilfe einer Datei mit XML-Anmerkungen definieren.

  1. Übersicht
  2. Programmable Search XML-Format verwenden
  3. Suchabdeckung verbessern
  4. Beschränkungen für Anmerkungen

Überblick

Die Verwaltung einer großen Sammlung von Websites kann mühsam sein, wenn Sie eine große Suchmaschine erstellen. Stattdessen kannst du viele Websites hinzufügen und verwalten, indem du sie in einer Anmerkungsdatei aufführst und anschließend hochlädst. Darüber hinaus geben Ihnen Anmerkungsdateien eine weitaus bessere Kontrolle über das Ranking der Suchergebnisse.

Eine Anmerkungsdatei ist einfach eine Liste von Anmerkungen. Jede Anmerkung besteht aus zwei Komponenten: der Website und den zugehörigen Labels. Das Label teilt der Programmable Search Engine mit, wie eine Website behandelt werden soll, d. h., ob eine Website eingeschlossen, ausgeschlossen, hochgestuft oder abgewertet werden soll. In der Kontextdatei definieren Sie Labels und in der Annotationsdatei versehen Sie Websites mit den entsprechenden Labels.

Wenn du mit der Bearbeitung deiner Anmerkungsdatei beginnst, beginne mit einer kleinen Anzahl von Anmerkungen. Mit einigen Anmerkungen ist es einfacher, Ihre Suchmaschine zu testen und Fehler zu beheben. Wenn Sie die erwarteten Ergebnisse erhalten, fügen Sie schrittweise weitere Anmerkungen hinzu.

Du kannst die Anmerkungsdatei in das Steuerfeld hochladen. Weitere Informationen zu Dateibeschränkungen finden Sie im Abschnitt Beschränkungen für Annotationen.

Nach oben

Programmable Search XML-Format verwenden

Wenn Sie alle in der Konfigurationsdatei der Programmable Search Engine verfügbaren Funktionen nutzen möchten, ist XML die richtige Wahl.

XML-Annotationen

Im Folgenden finden Sie ein Beispiel für XML-Annotationen. Diese Annotationsdatei weist die Programmable Search Engine an, alles unter www.webmd.com/hw/* einzubeziehen, aber alles unter www.webmd.com/hw/cancer/* auszuschließen.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Die Annotationsdatei enthält vier Elemente in der folgenden Hierarchie:

  • Annotations (Stammelement)
    • Annotation
      • Label
      • Comment (optional)

Nach oben

Erstellen externer Anmerkungen

So listen Sie Websites auf, die von Ihrer Suchmaschine abgedeckt werden sollen:

  1. Beginnen Sie die Datei mit dem Stammelement <Annotations></Annotations>.
  2. Erstelle eine Anmerkung, indem du die <Annotation></Annotation>-Tags hinzufügst, und definiere dann das about-Attribut mit dem URL-Muster der Website.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Verknüpfen Sie die Website mithilfe des <Label name=" "/>-Tags mit der Suchmaschine und geben Sie an, wie die Website von der Suchmaschine behandelt werden soll. Die Labels für Ihre Suchmaschine können Sie der Kontextdatei der Suchmaschine entnehmen. Es gibt zwei Labels: eines zum Hinzufügen von Websites zu Ihrer Programmable Search Engine und eines zum Ausschließen von Websites. Wenn Sie den Namen des Suchmaschinenlabels in der Kontextdatei nicht geändert haben, hat das Label zum Einbeziehen von Websites das Format _include_ und das Label zum Ausschließen von Websites das Format _exclude_. Um Fehler zu vermeiden, sollten Sie diese Labels kopieren und einfügen, anstatt sie manuell einzugeben.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Einer Website können mehrere Labels zugeordnet sein,

    Wenn Sie den Namen des Labels in der Kontextdatei geändert haben, denken Sie daran, die Label name-Werte in der Annotationsdatei zu aktualisieren.

  4. Wenn Sie weitere Websites hinzufügen möchten, erstellen und definieren Sie ein weiteres Annotation-Element.
  5. Speichern Sie die XML-Datei.

Nach oben

Suchabdeckung verbessern

Die Programmable Search Engine baut auf dem Google-Index auf. Das bedeutet, dass Webseiten im Google-Index für Ihre Suchmaschine verfügbar sind. Umgekehrt werden Webseiten, die nicht von Google gecrawlt wurden, nicht in Ihren Suchergebnissen angezeigt. Wenn Ihre Programmable Search Engine Websites einschließen soll, die sich derzeit nicht im Google-Index befinden, reichen Sie eine Sitemap an die Google Search Console ein.

Eine Sitemap enthält eine Liste von Seiten Ihrer Website sowie Informationen dazu, wie häufig die Webseiten aktualisiert werden und wie wichtig sie im Vergleich zueinander sind. Wenn Sie eine Sitemap einreichen, kann Google Ihre Webseiten leichter finden und den Crawling-Zeitplan verbessern. Weitere Informationen zu Sitemaps finden Sie in der Hilfe für Webmaster unter Sitemap-Protokoll verwenden. Wenn Sie an der Erstellung komplexerer Sitemaps interessiert sind, finden Sie weitere Informationen unter http://www.sitemaps.org/protocol.php.

Das Einreichen von Sitemaps ist in folgenden Fällen besonders hilfreich:

  • Dynamische Inhalte
  • Webseiten, die vom Googlebot (dem Web-Crawler von Google) nicht ohne Weiteres zu finden sind, z. B. Seiten mit umfangreichen AJAX- oder Flash-Funktionen
  • Es gibt nur wenige Websites, die darauf verlinken.

    Der Googlebot durchsucht das Web, indem er Links von einer Seite zur nächsten folgt. Wenn Ihre Website also nicht gut verlinkt ist, kann der Crawler sie nur schwer finden. Wenn Ihre Website neu ist, verweisen wahrscheinlich nur wenige Websites auf Ihre Website.

  • Ein großes Archiv mit Inhaltsseiten ohne starkes Vernetzungsnetzwerk

Google kann nur Seiten indexieren, auf die er zugreifen kann. Wenn Sie auf Ihren Webseiten die robots.txt-Datei oder Robots-Meta-Tags verwenden, sollten Sie darauf achten, dass diese Seiten keine Crawler blockieren.

Die verbesserte Abdeckung erfolgt nicht sofort, da das Crawlen und Indexieren der Seiten einige Zeit in Anspruch nimmt. Sobald sich Ihre Webseiten jedoch im Index befinden, können sie sowohl in der Google-Suche als auch in Ihrer Programmable Search Engine angezeigt werden.

Nach oben

Einschränkungen für Anmerkungen

In der folgenden Tabelle sind die Beschränkungen für Anmerkungsdateien aufgeführt, die in die Programmable Search Engine hochgeladen werden:

Hinweis: Halten Sie sich genau an die Limits. Wenn Sie sie überschreiten, zeigt Ihre Suchmaschine möglicherweise keine Ergebnisse an.

Seitenverhältnis Limit
Dateigröße (Kontext- oder Anmerkungsdateien) 30KB
Maximale Anzahl von Anmerkungen pro Suchmaschine 5.000

Tipp: Wenn Sie feststellen,dass Ihre Suchmaschine die Obergrenze von 5.000 Websites überschreitet, können Sie einzelne URLs in URL-Mustern zusammenfassen.

Nach oben