Sie können Google Cloud Search für die Bereitstellung von Webinhalten für Ihre Nutzer einrichten. Dafür stellen Sie das Cloud Search-Indexierungs-Plug-in für Apache Nutch bereit, einen Open-Source-Web-Crawler.
Wenn Sie das Web-Crawling starten, crawlt Apache Nutch das Web und verwendet das Indexierungs-Plug-in, um ursprüngliche binäre oder Textversionen von Dokumentinhalten in die Google Cloud Search API hochzuladen. Die Cloud Search API indexiert den Inhalt und stellt den Nutzern die Ergebnisse bereit.
Wichtige Hinweise
Beachten Sie vor dem Deployment des Indexierungs-Plug-in die folgenden Punkte.
Systemanforderungen
| Systemanforderungen | |
|---|---|
| Betriebssystem | Nur Linux:
|
| Software |
|
| Von Apache Tika unterstützte Dokumenttypen | Von Apache Tika 1.18 unterstützte Dokumentformate |
Indexierungs-Plug-in bereitstellen
In diesen Schritten wird beschrieben, wie Sie das Indexierungs-Plug-in installieren und seine Komponenten konfigurieren, um URLs zu crawlen und Ergebnisse an Cloud Search zurückzugeben.
Vorbereitung
Bevor Sie das Indexierungs-Plug-in bereitstellen, sollten Sie die erforderlichen Informationen sammeln, um Cloud Search und die Datenquelle zu verbinden:
- Privater Google Workspace-Schlüssel, der die ID des Dienstkontos enthält. Weitere Informationen zum Abrufen eines privaten Schlüssels finden Sie unter Zugriff auf die Cloud Search API konfigurieren.
- ID der Google Workspace-Datenquelle. Informationen zum Abrufen einer Datenquellen-ID finden Sie unter Datenquelle für die Suche hinzufügen.
Schritt 1: Plug-in-Software und Apache Nutch erstellen und installieren
Klonen Sie das Indexierungs-Plug-in-Repository von GitHub.
$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git $ cd apache-nutch-indexer-plugin
Checken Sie die gewünschte Version des Indexierungs-Plug-ins aus:
$ git checkout tags/v1-0.0.5
Erstellen Sie einen Build für das Indexierungs-Plug-in.
$ mvn package
Wenn Sie beim Erstellen des Plug-ins Tests überspringen möchten, verwenden Sie
mvn package -DskipTests.Laden Sie Apache Nutch 1.15 herunter und folgen Sie der Installationsanleitung für Apache Nutch.
Extrahieren Sie
target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zipin einen Ordner. Kopieren Sie den Ordnerplugins/indexer-google-cloudsearchin den Apache Nutch-Ordnerplugins(apache-nutch-1.15/plugins).
Schritt 2: Indexierungs-Plug-in konfigurieren
Erstellen Sie eine Datei mit dem Namen plugin-configuration.properties, um das Plug-in zu konfigurieren.
In der Konfigurationsdatei müssen die folgenden Parameter angegeben werden, um auf die Cloud Search-Datenquelle zuzugreifen.
| Einstellung | Parameter |
| ID der Datenquelle | api.sourceId = 1234567890abcdef
Erforderlich. Die ID der Cloud Search-Quelle, die der Google Workspace-Administrator für das Indexierungs-Plug-in eingerichtet hat. |
| Dienstkonto | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Erforderlich. Die Schlüsseldatei des Cloud Search-Dienstkontos, die der Google Workspace-Administrator für den Zugriff auf Indexierungs-Plug-ins erstellt hat. |
Das folgende Beispiel zeigt eine Beispielkonfigurationsdatei:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Die Konfigurationsdatei kann auch Parameter enthalten, die das Verhalten des Plug-ins steuern, z. B. wie das Plug-in Daten in die Cloud Search API überträgt und wie es Metadaten und strukturierte Daten ergänzt. Beschreibungen dieser Parameter finden Sie im Artikel zu den von Google bereitgestellten Connectorparametern.
Schritt 3: Apache Nutch konfigurieren
Öffnen Sie
conf/nutch-site.xmlund fügen Sie die folgenden Parameter hinzu:Einstellung Parameter Verwendete Plug-ins plugin.includes = textErforderlich. Liste der zu verwendenden Plug-ins. Der Parameter muss mindestens Folgendes enthalten:
- index-basic
- index-more
- indexer-google-cloudsearch
conf/nutch-default.xmlstellt einen Standardwert bereit. Sie müssen ihmindexer-google-cloudsearchaber auch manuell hinzufügen.Metatags-Namen metatags.names = textOptional. Durch Kommas getrennte Liste der Tags, die Attributen im Schema der entsprechenden Datenquelle zugeordnet sind. Weitere Informationen
Das folgende Beispiel zeigt die erforderliche Änderung an
nutch-site.xml:<property> <name>plugin.includes</name> <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more|metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value> </property>Öffnen Sie
conf/index-writers.xmlund fügen Sie den folgenden Abschnitt hinzu:<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter"> <parameters> <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/> </parameters> <mapping> <copy /> <rename /> <remove /> </mapping> </writer>Der Abschnitt
<writer>enthält die folgenden Parameter:Einstellung Parameter Pfad zur Cloud Search-Konfigurationsdatei gcs.config.file = pathErforderlich. Der vollständige (absolute) Pfad zur Cloud Search-Konfigurationsdatei.
Upload-Format gcs.uploadFormat = textOptional. Das Format, das das Plug-in verwendet, um Dokumentinhalte an die Cloud Search API zu übertragen. Gültige Werte sind:
raw: Der ursprüngliche, nicht konvertierte Inhalt wird übertragen.text: Extrahierter Textinhalt wird übertragen. Der Standardwert istraw.
Schritt 4: Web-Crawling konfigurieren
Konfigurieren Sie vor dem Web-Crawling das Crawling so, dass es nur Informationen enthält, die Ihre Organisation verfügbar machen möchte. Weitere Informationen finden Sie im Nutch-Tutorial.
Richten Sie Start-URLs ein.
Mit Start-URLs wird bestimmt, an welchem Punkt begonnen werden soll, Ihre Inhalte mit dem Web-Crawler zu erfassen. Der Crawler muss alle Inhalte erreichen können, die Sie einbeziehen möchten, indem er den Links folgt.
So richten Sie Start-URLs ein:
- Wechseln Sie in das Installationsverzeichnis von Nutch:
$ cd ~/nutch/apache-nutch-X.Y/
- Erstellen Sie ein Verzeichnis für URLs:
$ mkdir urls
- Erstellen Sie eine Datei mit dem Namen
seed.txtund geben Sie darin die URLs an (jeweils eine pro Zeile).
- Wechseln Sie in das Installationsverzeichnis von Nutch:
Richten Sie Regeln für das Ein- und Ausschließen von Links ein.
URL-Regeln für das Einschließen von Links steuern, welche URLs der Crawler indexiert. Mit Regeln für das Ausschließen von Links wird verhindert, dass URLs gecrawlt werden.
So richten Sie diese Regeln ein:
- Wechseln Sie in das Installationsverzeichnis von Nutch.
conf/regex-urlfilter.txtbearbeiten:$ nano conf/regex-urlfilter.txt
Geben Sie reguläre Ausdrücke mit dem Präfix „+“ oder „-“ ein:
# skip file extensions -\.(gif|GIF|jpg|JPG|png|PNG|ico) # skip protocols (file: ftp: and mailto:) -^(file|ftp|mailto): # allow urls starting with https://support.google.com/gsa/ +^https://support.google.com/gsa/ # accept anything else #+.
Bearbeiten Sie das Crawl-Skript.
Wenn der Parameter
gcs.uploadFormatfehlt oder auf „raw“ gesetzt ist, müssen Sie dem Befehlnutch indexdie Argumente-addBinaryContent -base64hinzufügen. Sie führen dazu, dass vom Nutch Indexierungs-Modul binärer Inhalt in Base64 aufgenommen wird.- Öffnen Sie das Skript
crawlinapache-nutch-1.15/bin. Fügen Sie die Optionen wie in diesem Beispiel hinzu:
if $INDEXFLAG; then echo "Indexing $SEGMENT to index" __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT echo "Cleaning up index if possible" __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb else echo "Skipping indexing ..."
- Öffnen Sie das Skript
Schritt 5: Web-Crawling und Inhaltsupload starten
Nachdem Sie das Indexierungs-Plug-in eingerichtet haben, können Sie es im lokalen Modus ausführen. Verwenden Sie Skripts aus ./bin, um einen Crawling-Job auszuführen.
Im folgenden Beispiel wird davon ausgegangen, dass sich die Komponenten im lokalen Verzeichnis befinden. Führen Sie Nutch über das Verzeichnis apache-nutch-1.15 aus:
$ bin/crawl -i -s urls/ crawl-test/ 5
Crawl-Protokolle sind im Terminal oder im Verzeichnis logs/ verfügbar. Bearbeiten Sie conf/log4j.properties, um die Protokollierung anzupassen.