Dieser Leitfaden richtet sich an Administratoren, die für das Herunterladen, Bereitstellen und Verwalten des Indexierungs-Plug-ins für den Google Cloud Search Norconex HTTP Collector verantwortlich sind. Sie sollten mit Linux, den Grundlagen des Web-Crawlings, XML und dem Norconex HTTP Collector vertraut sein.
In diesem Leitfaden finden Sie Anleitungen für Folgendes:
- Laden Sie die Software für das Indexierungs-Plug-in herunter.
- Konfigurieren Sie Cloud Search.
- Konfigurieren Sie den Norconex HTTP Collector und das Web-Crawling.
- Starten Sie das Web-Crawling und den Upload von Inhalten.
Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss, sind nicht Bestandteil dieses Leitfadens. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.
Das Indexierungs-Plug-in für den Norconex HTTP Collector
Mit Cloud Search können Sie in Google Workspace-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen, können Sie die Reichweite von Google Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.
Konfigurationsattributdateien
Damit das Plug-in Inhalte crawlen und hochladen kann, müssen Sie in zwei Konfigurationsdateien bestimmte Informationen angeben:
{gcs-crawl-config.xml}: Einstellungen für den Norconex HTTP Collector.sdk-configuration.properties: Einstellungen für Cloud Search.
Web-Crawling und Upload von Inhalten
Nachdem Sie die Konfigurationsdateien vorbereitet haben, können Sie das Web-Crawling starten. Der Norconex HTTP Collector crawlt das Web und lädt die ursprüngliche Binär- oder Textversion der Dokumentinhalte in die Indexierungs-API von Cloud Search hoch.
Systemanforderungen
- Betriebssystem: Nur Linux.
- Norconex-Version: Version 2.8.0.
- Software: Java JRE 1.8.
ACL-Unterstützung
Das Indexierungs-Plug-in unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs), um den Zugriff auf Dokumente in der Google Workspace-Domain zu steuern.
Wenn Sie Standard-ACLs in der Plug-in-Konfiguration aktivieren (defaultAcl.mode ist nicht auf none festgelegt), wendet das Plug-in diese Standardeinstellungen an. Andernfalls gewährt das Plug-in Lesezugriff für die gesamte Domain. Weitere Informationen zu den von Google bereitgestellten Connectorparametern
Vorbereitung
Für das Deployment des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:
- Privater Google Workspace-Schlüssel, der die ID des Dienstkontos enthält. Weitere Informationen finden Sie unter Zugriff auf die Cloud Search API konfigurieren.
- ID der Google Workspace-Datenquelle. Weitere Informationen finden Sie unter Integration von Drittanbietern.
Deployment
- Installieren Sie den Norconex HTTP Collector und das Plug-in.
- Cloud Search konfigurieren
- Norconex HTTP Collector konfigurieren
- Web-Crawling konfigurieren
- Web-Crawling und Upload von Inhalten starten
Schritt 1: Den Norconex HTTP Collector und die Plug-in-Software installieren
- Laden Sie die Norconex Committer-Software von der Norconex-Downloadseite herunter.
- Extrahieren Sie die Software in den Ordner „
~/norconex/“. Klonen Sie das Committer-Plug-in:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginChecken Sie die ausgewählte Version aus und erstellen Sie das Plug-in:
git checkout tags/v1-0.0.3 mvn packageWenn Sie Tests überspringen möchten, verwenden Sie
mvn package -DskipTests.Kopieren Sie die JAR-Datei in das Norconex-Verzeichnis
lib:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtrahieren Sie die erstellte ZIP-Datei:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Führen Sie das Installationsskript aus und geben Sie den vollständigen Pfad zum Norconex-Verzeichnis
liban:sh install.shWenn Sie nach doppelten Dateien gefragt werden, wählen Sie die Option
1aus.
Schritt 2: Cloud Search konfigurieren
Erstellen Sie sdk-configuration.properties im Norconex-Verzeichnis. In der Datei müssen die folgenden Parameter angegeben sein:
| Einstellung | Parameter |
| ID der Datenquelle | api.sourceId = 1234567890abcdef
Erforderlich. Die Quell-ID von Ihrem Google Workspace-Administrator. |
| Dienstkonto | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Erforderlich. Die Dienstkontoschlüsseldatei. |
Beispiel für sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Sie können auch Parameter wie batch.* einfügen, um zu steuern, wie das Plug-in Daten überträgt. Weitere Informationen zu den von Google bereitgestellten Connectorparametern
Wenn Sie Metadaten einfügen möchten, konfigurieren Sie die folgenden optionalen Parameter:
| Einstellung | Parameter |
| Titel | itemMetadata.title.field=movieTitle |
| Typ des Schemaobjekts | itemMetadata.objectType=movie |
Schritt 3: Den Norconex HTTP Collector konfigurieren
Das Plug-in enthält eine Beispieldatei, minimum-config.xml.
Wechseln Sie in das Norconex-Verzeichnis und kopieren Sie das Beispiel:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlBearbeiten Sie
gcs-crawl-config.xml, um die Knoten<committer>und<tagger>hinzuzufügen oder zu ersetzen:
| Einstellung | Parameter |
<committer>-Knoten |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Erforderlich. Fügen Sie dies unter dem Knoten <httpcollector> hinzu. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Optional. raw oder text. Der Standardwert ist raw. |
Beispiel für gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Schritt 4: Web-Crawling konfigurieren
Konfigurieren Sie die <crawler>-Knoten nach Bedarf, einschließlich:
- Start-URLs
- Maximale Crawling-Tiefe
- Anzahl der Threads
Schritt 5: Web-Crawling und Inhaltsupload starten
Führen Sie den Collector im lokalen Modus aus:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Crawler mit JEF Monitor überwachen
Norconex JEF Monitor (Job Execution Framework) bietet eine grafische Ansicht des Fortschritts. Weitere Informationen finden Sie unter Crawler mit JEF Monitor überwachen.