Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen

Dieses Handbuch ist für den Norconex HTTP Collector-Indexierungscode von Google Cloud Search bestimmt Plug-in-Administratoren, d. h. alle, die für Downloads, Bereitstellen, Konfigurieren und Verwalten des Indexierungs-Plug-ins. In diesem Leitfaden wird davon ausgegangen, mit denen Sie vertraut sind, Linux-Betriebssysteme, Webgrundlagen, Crawling, XML und Norconex HTTP Collector

Dieses Handbuch enthält Anleitungen zu wichtigen Aufgaben im Zusammenhang mit der Indexierung Plug-in-Bereitstellung:

  • Software für das Indexierungs-Plug-in herunterladen
  • Google Cloud Search konfigurieren
  • Den Norconex HTTP Collector und das Web-Crawling konfigurieren
  • Web-Crawling starten und Inhalte hochladen

Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss Google Cloud Search dem Indexierungs-Plug-in „Norconex HTTP Collector“ zuordnen nicht in diesem Leitfaden. Informationen zu diesen Aufgaben finden Sie unter Datenquellen von Drittanbietern verwalten

Das Indexierungs-Plug-in für den Norconex HTTP Collector für Cloud Search

Standardmäßig kann Cloud Search Inhalte aus folgenden Quellen finden, indexieren und bereitstellen Google Workspace-Produkte wie Google Docs und Gmail Sie können die die Reichweite von Google Cloud Search um die Bereitstellung von Webinhalten für Ihre Nutzer das Indexierungs-Plug-in für Norconex HTTP Collector Open Source Enterprise-Web-Crawler.

Dateien mit Konfigurationseigenschaften

Um das Indexierungs-Plug-in zu aktivieren, um Web-Crawling durchzuführen und Inhalte auf die Indexierungs-API können Sie als Administrator des Indexierungs-Plug-ins spezifische Informationen während der in diesem Dokument beschriebenen Konfigurationsschritte unter Bereitstellungsschritte.

Wenn Sie das Indexierungs-Plug-in verwenden möchten, müssen Sie Attribute in zwei Konfigurationsdateien festlegen:

  • {gcs-crawl-config.xml}: enthält Einstellungen für den Norconex HTTP Collector
  • sdk-configuration.properties: enthält Einstellungen für Google Cloud Search

Eigenschaften in jeder Datei ermöglichen das Indexierungs-Plug-in von Google Cloud Search und den Norconex HTTP Collector, um miteinander zu kommunizieren.

Web-Crawling und Upload von Inhalten

Nachdem Sie die Konfigurationsdateien befüllt haben, verfügen Sie über die erforderlichen Einstellungen zum Starten des Web-Crawlings. Der Norconex HTTP Collector crawlt das Web erkunden, Dokumentinhalte finden, die für die Konfiguration relevant sind, lädt ursprüngliche binäre (oder Text-) Versionen des Dokumentinhalts in die Cloud hoch Search Indexierungs API, wo sie indexiert und letztendlich Ihren Nutzern bereitgestellt wird.

Unterstütztes Betriebssystem

Das Indexierungs-Plug-in für den Norconex HTTP Collector muss für Google Cloud Search installiert sein unter Linux.

Unterstützte Version des Norconex HTTP Collectors

Das Indexierungs-Plug-in für den Norconex HTTP Collector von Google Cloud Search unterstützt Version 2.8.0.

ACL-Unterstützung

Mit dem Indexierungs-Plug-in kann der Zugriff auf Dokumente im Google Workspace-Domain mithilfe von Access Control Lists (ACLs).

Wenn Standard-ACLs in der Konfiguration des Google Cloud Search-Plug-ins aktiviert sind (defaultAcl.mode auf einen anderen Wert als none festgelegt und mit defaultAcl.* konfiguriert) versucht das Indexierungs-Plug-in zuerst, eine Standard-ACL zu erstellen und anzuwenden.

Wenn Standard-ACLs nicht aktiviert sind, erteilt das Plug-in wieder Leseberechtigungen für die gesamte Google Workspace-Domain.

Detaillierte Beschreibungen der ACL-Konfigurationsparameter finden Sie unter Von Google bereitgestellte Connector-Parameter.

Vorbereitung

Bevor Sie das Indexierungs-Plug-in bereitstellen, benötigen Sie Folgendes: erforderliche Komponenten:

  • Java JRE 1.8, installiert auf einem Computer, auf dem das Indexierungs-Plug-in ausgeführt wird
  • Google Workspace-Informationen, die erforderlich sind, um Beziehungen zwischen Cloud Search und Norconex HTTP Collector:

    In der Regel erhalten Sie diese Informationen vom Google Workspace-Administrator der Domain. Anmeldedaten für Sie.

Deployment

So stellen Sie das Indexierungs-Plug-in bereit:

  1. Norconex HTTP Collector und das Indexierungs-Plug-in installieren
  2. Google Cloud Search konfigurieren
  3. Norconex HTTP Collector konfigurieren
  4. Web-Crawling konfigurieren
  5. Web-Crawling und Inhaltsupload starten

Schritt 1: Den Norconex HTTP Collector und die Software für das Indexierungs-Plug-in installieren

  1. Laden Sie die Norconex Commiter-Software herunter von dieser Seite.
  2. Entpacken Sie die heruntergeladene Software in den Ordner ~/norconex/.
  3. Klonen Sie das Commiter-Plug-in von GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git und danach cd norconex-committer-plugin
  4. Prüfen Sie die gewünschte Version des Commiter-Plug-ins und erstellen Sie die ZIP-Datei: git checkout tags/v1-0.0.3 und mvn package (um die Tests beim Erstellen zu überspringen des Connectors verwenden, verwenden Sie mvn package -DskipTests.
  5. cd target
  6. Kopieren Sie die erstellte Plug-in-JAR-Datei in das lib-Verzeichnis von Norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Extrahieren Sie die soeben erstellte ZIP-Datei und entpacken Sie sie: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Führen Sie das Installationsskript aus, um die JAR-Datei des Plug-ins und alle erforderlichen in das Verzeichnis des HTTP-Collectors ein: <ph type="x-smartling-placeholder">
      </ph>
    1. Wechseln Sie zum extrahierten Commiter-Plug-in, das oben entpackt wurde: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Führen Sie $ sh install.sh aus und geben Sie den vollständigen Pfad zu norconex/norconex-collector-http-{version}/lib als Ziel wenn Sie dazu aufgefordert werden.
    3. Wenn doppelte JAR-Dateien gefunden werden, wählen Sie die Option 1 aus (nur Quell-JAR-Dateien kopieren) wenn nach dem Umbenennen der Ziel-Jar-Version eine höhere oder gleiche Version als Ziel-Jar-Version vorhanden ist).

Schritt 2: Google Cloud Search konfigurieren

Damit das Indexierungs-Plug-in eine Verbindung zum Norconex HTTP Collector herstellen und den relevante Inhalte erstellen, müssen Sie die Cloud Search-Konfigurationsdatei Norconex-Verzeichnis, in dem der Norconex HTTP Collector installiert ist Google empfiehlt dass Sie die Cloud Search-Konfigurationsdatei sdk-configuration.properties

Diese Konfigurationsdatei muss Schlüssel/Wert-Paare enthalten, die einen Parameter definieren. In der Konfigurationsdatei müssen mindestens die folgenden Parameter angegeben werden. Diese sind: die für den Zugriff auf die Cloud Search-Datenquelle erforderlich sind.

Einstellung Parameter
Datenquellen-ID api.sourceId = 1234567890abcdef
Erforderlich. Die ID der Cloud Search-Quelle, die vom Google Workspace-Administrator eingerichtet wurde.
Dienstkonto api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Erforderlich. Die Schlüsseldatei des Cloud Search-Dienstkontos, die vom Google Workspace-Administrator für den Zugriff auf das Indexierungs-Plug-in erstellt wurde.

Das folgende Beispiel zeigt eine sdk-configuration.properties-Datei.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Die Konfigurationsdatei kann auch von Google bereitgestellte Konfigurationsparameter enthalten. Diese Parameter können beeinflussen, wie das Plug-in Daten an die Google Cloud Search API überträgt. Beispiel: Die Parameter batch.* wie der Connector Anfragen kombiniert.

Wenn Sie keinen Parameter in der Konfigurationsdatei definieren, wird der Standardwert, falls verfügbar, verwendet. Detaillierte Beschreibungen der einzelnen Parameter finden Sie unter Von Google bereitgestellte Connector-Parameter.

Sie können das Indexierungs-Plug-in so konfigurieren, dass Metadaten und strukturierte Daten für die indexiert werden sollen. Werte, die für Metadaten und strukturierte Daten ausgefüllt werden sollen aus Meta-Tags in zu indexierenden HTML-Inhalten extrahiert oder Standardwerte können in der Konfigurationsdatei angegeben werden.

Einstellung Parameter
Titel itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Standardmäßig verwendet das Plug-in HTML title als Titel des zu indexierenden Dokuments. Falls der Titel fehlt, können Sie das Metadatenattribut, das den Wert enthält, der dem Dokumenttitel entspricht, oder einen Standardwert festlegen
Zeitstempel der Erstellung itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Das Metadatenattribut, das den Wert für den Zeitstempel der Dokumenterstellung enthält.
Zeitpunkt der letzten Aktualisierung itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Das Metadatenattribut, das den Wert für den Zeitstempel der letzten Änderung am Dokument enthält.
Dokumentsprache itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Die Inhaltssprache der indexierten Dokumente.
Schemaobjekttyp itemMetadata.objectType=movie
Der Objekttyp, der von der Website verwendet wird, wie in den <ph type="x-smartling-placeholder"></ph> Schemaobjektdefinitionen der Datenquelle. Der Connector indexiert keine strukturierte Daten, wenn diese Property nicht angegeben ist.

Hinweis: Dieses Konfigurationsattribut verweist auf einen Wert, als ein Metadatenattribut und der .field und .defaultValue Suffixe werden nicht unterstützt.

Datums-/Uhrzeitformate

Datum/Uhrzeit-Formate geben die in Metadatenattributen erwarteten Formate an. Wenn die Konfigurationsdatei diesen Parameter nicht enthält, werden Standardwerte verwendet. verwendet. In der folgenden Tabelle sehen Sie diesen Parameter.

Einstellung

Parameter

Zusätzliche Datum/Uhrzeit-Muster

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Eine durch Semikolons getrennte Liste zusätzlicher java.time.format.DateTimeFormatter Muster zu erkennen. Die Muster werden beim Parsen von Stringwerten für ein Datum oder eine Uhrzeit verwendet. in den Metadaten oder im Schema. Der Standardwert ist eine leere Liste. Die Formate RFC 3339 und RFC 1123 werden jedoch immer unterstützt.

Schritt 3: Den Norconex HTTP Collector konfigurieren

Das ZIP-Archiv norconex-committer-google-cloud-search-{version}.zipenthält ein Beispielkonfigurationsdatei minimum-config.xml.

Google empfiehlt, dass Sie mit der Konfiguration beginnen, indem Sie die folgende Beispieldatei kopieren:

  1. Wechseln Sie zum Verzeichnis des Norconex HTTP Collectors:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Kopieren Sie die Konfigurationsdatei:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Bearbeiten Sie die neu erstellte Datei (in diesem Beispiel gcs-crawl-config.xml) und Fügen Sie vorhandene <committer>- und <tagger>-Knoten hinzu oder ersetzen Sie sie, wie in in der folgenden Tabelle.
Einstellung Parameter
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Erforderlich. Um das Plug-in zu aktivieren, müssen Sie einen <committer>-Knoten als untergeordnetes Element des <httpcollector>-Stammknotens hinzufügen.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Optional. Das Format, in dem das Indexierungs-Plug-in Dokumentinhalte an die Indexierungs-API von Google Cloud Search überträgt. Gültige Werte sind:
  • raw: Der ursprüngliche, nicht konvertierte Dokumentinhalt wird vom Indexierungs-Plug-in übertragen.
  • text: Extrahierter Textinhalt wird vom Indexierungs-Plug-in übertragen.

Der Standardwert ist raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Erforderlich, wenn der Wert von <UploadFormat> raw ist. In diesem Fall muss das binäre Inhaltsfeld des Dokuments für das Indexierungs-Plug-in verfügbar sein.

Sie müssen den BinaryContentTagger <tagger>-Knoten als untergeordnetes Element des <importer> / <preParseHandlers>-Knotens hinzufügen.

Das folgende Beispiel zeigt den erforderlichen Änderung an gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Schritt 4: Web-Crawling konfigurieren

Bevor Sie ein Web-Crawling starten, müssen Sie das Crawling so konfigurieren, dass enthält Informationen, die Ihre Organisation in der Suche verfügbar machen möchte Ergebnisse. Die wichtigsten Einstellungen für das Web-Crawling sind Teil der <crawler> Knoten und kann Folgendes umfassen:

  • Start-URLs
  • Maximale Tiefe des Crawlings
  • Anzahl der Threads

Ändern Sie diese Konfigurationswerte entsprechend Ihren Anforderungen. Detailliertere Informationen Informationen zum Einrichten eines Web-Crawlings sowie eine vollständige Liste der Konfigurationsparametern finden Sie in der Konfiguration Seite.

Schritt 5: Web-Crawling und Inhaltsupload starten

Nachdem Sie das Indexierungs-Plug-in installiert und eingerichtet haben, können Sie es auf im lokalen Modus.

Im folgenden Beispiel wird davon ausgegangen, dass sich die erforderlichen Komponenten in der lokalen auf einem Linux-System. Führen Sie dazu diesen Befehl aus:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Crawler mit JEF Monitor überwachen

Norconex JEF Monitor (Job Execution Framework) Monitor ist ein grafisches Tool für Überwachen des Fortschritts der Prozesse des Norconex Web Crawlers (HTTP Collector) und Jobs. Eine vollständige Anleitung zum Einrichten dieses Dienstprogramms finden Sie unter Überwachen Sie den Crawler-Fortschritt mit JEF Monitor.