Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen

Dieser Leitfaden richtet sich an Administratoren, die für das Herunterladen, Bereitstellen und Verwalten des Indexierungs-Plug-ins für den Google Cloud Search Norconex HTTP Collector verantwortlich sind. Sie sollten mit Linux, den Grundlagen des Web-Crawlings, XML und dem Norconex HTTP Collector vertraut sein.

In diesem Leitfaden finden Sie Anleitungen für Folgendes:

  • Laden Sie die Software für das Indexierungs-Plug-in herunter.
  • Konfigurieren Sie Cloud Search.
  • Konfigurieren Sie den Norconex HTTP Collector und das Web-Crawling.
  • Starten Sie das Web-Crawling und den Upload von Inhalten.

Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss, sind nicht Bestandteil dieses Leitfadens. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.

Das Indexierungs-Plug-in für den Norconex HTTP Collector

Mit Cloud Search können Sie in Google Workspace-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen, können Sie die Reichweite von Google Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.

Konfigurationsattributdateien

Damit das Plug-in Inhalte crawlen und hochladen kann, müssen Sie in zwei Konfigurationsdateien bestimmte Informationen angeben:

  • {gcs-crawl-config.xml}: Einstellungen für den Norconex HTTP Collector.
  • sdk-configuration.properties: Einstellungen für Cloud Search.

Web-Crawling und Upload von Inhalten

Nachdem Sie die Konfigurationsdateien vorbereitet haben, können Sie das Web-Crawling starten. Der Norconex HTTP Collector crawlt das Web und lädt die ursprüngliche Binär- oder Textversion der Dokumentinhalte in die Indexierungs-API von Cloud Search hoch.

Systemanforderungen

  • Betriebssystem: Nur Linux.
  • Norconex-Version: Version 2.8.0.
  • Software: Java JRE 1.8.

ACL-Unterstützung

Das Indexierungs-Plug-in unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs), um den Zugriff auf Dokumente in der Google Workspace-Domain zu steuern.

Wenn Sie Standard-ACLs in der Plug-in-Konfiguration aktivieren (defaultAcl.mode ist nicht auf none festgelegt), wendet das Plug-in diese Standardeinstellungen an. Andernfalls gewährt das Plug-in Lesezugriff für die gesamte Domain. Weitere Informationen zu den von Google bereitgestellten Connectorparametern

Vorbereitung

Für das Deployment des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:

Deployment

  1. Installieren Sie den Norconex HTTP Collector und das Plug-in.
  2. Cloud Search konfigurieren
  3. Norconex HTTP Collector konfigurieren
  4. Web-Crawling konfigurieren
  5. Web-Crawling und Upload von Inhalten starten

Schritt 1: Den Norconex HTTP Collector und die Plug-in-Software installieren

  1. Laden Sie die Norconex Committer-Software von der Norconex-Downloadseite herunter.
  2. Extrahieren Sie die Software in den Ordner „~/norconex/“.
  3. Klonen Sie das Committer-Plug-in:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Checken Sie die ausgewählte Version aus und erstellen Sie das Plug-in:

    git checkout tags/v1-0.0.3
    mvn package
    

    Wenn Sie Tests überspringen möchten, verwenden Sie mvn package -DskipTests.

  5. Kopieren Sie die JAR-Datei in das Norconex-Verzeichnis lib:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrahieren Sie die erstellte ZIP-Datei:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Führen Sie das Installationsskript aus und geben Sie den vollständigen Pfad zum Norconex-Verzeichnis lib an:

    sh install.sh
    

    Wenn Sie nach doppelten Dateien gefragt werden, wählen Sie die Option 1 aus.

Schritt 2: Cloud Search konfigurieren

Erstellen Sie sdk-configuration.properties im Norconex-Verzeichnis. In der Datei müssen die folgenden Parameter angegeben sein:

Einstellung Parameter
ID der Datenquelle api.sourceId = 1234567890abcdef
Erforderlich. Die Quell-ID von Ihrem Google Workspace-Administrator.
Dienstkonto api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Erforderlich. Die Dienstkontoschlüsseldatei.

Beispiel für sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Sie können auch Parameter wie batch.* einfügen, um zu steuern, wie das Plug-in Daten überträgt. Weitere Informationen zu den von Google bereitgestellten Connectorparametern

Wenn Sie Metadaten einfügen möchten, konfigurieren Sie die folgenden optionalen Parameter:

Einstellung Parameter
Titel itemMetadata.title.field=movieTitle
Typ des Schemaobjekts itemMetadata.objectType=movie

Schritt 3: Den Norconex HTTP Collector konfigurieren

Das Plug-in enthält eine Beispieldatei, minimum-config.xml.

  1. Wechseln Sie in das Norconex-Verzeichnis und kopieren Sie das Beispiel:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Bearbeiten Sie gcs-crawl-config.xml, um die Knoten <committer> und <tagger> hinzuzufügen oder zu ersetzen:

Einstellung Parameter
<committer>-Knoten <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Erforderlich. Fügen Sie dies unter dem Knoten <httpcollector> hinzu.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Optional. raw oder text. Der Standardwert ist raw.

Beispiel für gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Schritt 4: Web-Crawling konfigurieren

Konfigurieren Sie die <crawler>-Knoten nach Bedarf, einschließlich:

  • Start-URLs
  • Maximale Crawling-Tiefe
  • Anzahl der Threads

Norconex-Konfiguration

Schritt 5: Web-Crawling und Inhaltsupload starten

Führen Sie den Collector im lokalen Modus aus:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Crawler mit JEF Monitor überwachen

Norconex JEF Monitor (Job Execution Framework) bietet eine grafische Ansicht des Fortschritts. Weitere Informationen finden Sie unter Crawler mit JEF Monitor überwachen.