Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è rivolta agli amministratori dei plug-in dell'indicizzatore Norconex HTTP Collector di Google Cloud Search, ovvero a chiunque sia responsabile del download, del deployment, della configurazione e della manutenzione del plug-in dell'indicizzatore. La guida presuppone che tu abbia familiarità con i sistemi operativi Linux, le nozioni di base della scansione del web, il linguaggio XML e Norconex HTTP Collector.

Questa guida include le istruzioni per eseguire le attività chiave correlate al deployment del plug-in dell'indicizzatore:

  • Scarica il software del plug-in per l'indicizzazione
  • Configurare Google Cloud Search
  • Configurare il raccoglitore HTTP Norconex e la scansione web
  • Avvia la scansione del web e carica i contenuti

In questa guida non sono riportate informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in dell'indicizzatore Norconex HTTP Collector. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.

Panoramica del plug-in per l'indicizzazione raccoglitore HTTP di Cloud Search Norconex

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dei prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere la copertura di Google Cloud Search in modo da includere la pubblicazione di contenuti web per gli utenti eseguendo il deployment del plug-in di indicizzazione per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in di indicizzare di eseguire scansioni web e caricare contenuti nell'API di indicizzazione, in qualità di amministratore del plug-in dell'indicizzatore devi fornire informazioni specifiche durante i passaggi di configurazione descritti in questo documento nella sezione Passaggi di deployment.

Per utilizzare il plug-in indexer, devi impostare le proprietà in due file di configurazione:

  • {gcs-crawl-config.xml}: contiene le impostazioni per il raccoglitore HTTP Norconex.
  • sdk-configuration.properties: contiene le impostazioni per Google Cloud Search.

Le proprietà in ogni file consentono al plug-in dell'indicizzatore di Google Cloud Search e Norconex HTTP Collector di comunicare tra loro.

Scansione web e caricamento dei contenuti

Dopo aver completato i file di configurazione, disponi delle impostazioni necessarie per avviare la scansione web. Norconex HTTP Collector esegue la scansione del web, scoprendo i contenuti del documento attinenti alla sua configurazione e carica le versioni binarie (o di testo) originali dei contenuti nell'API di indicizzazione di Cloud Search, dove vengono indicizzati e infine forniti agli utenti.

Sistema operativo supportato

Il plug-in per l'indicizzatore del raccoglitore HTTP Norconex di Google Cloud Search deve essere installato su Linux.

Versione del raccoglitore HTTP Norconex supportata

Il plug-in per l'indicizzazione raccoglitore HTTP di Google Cloud Search Norconex supporta la versione 2.8.0.

Supporto ACL

Il plug-in Indicizzatore supporta il controllo dell'accesso ai documenti nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).

Se nella configurazione del plug-in di Google Cloud Search sono abilitati ACL predefiniti (defaultAcl.mode impostato su un valore diverso da none e configurato con defaultAcl.*), il plug-in dell'indicizzatore tenta prima di creare e applicare un ACL predefinito.

Se gli ACL predefiniti non sono abilitati, il plug-in restituisce l'autorizzazione di lettura all'intero dominio Google Workspace.

Per descrizioni dettagliate dei parametri di configurazione ACL, consulta Parametri dei connettori forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in indexer, assicurati di disporre dei seguenti componenti obbligatori:

  • Java JRE 1.8 installato su un computer che esegue il plug-in dell'indicizzatore
  • Informazioni di Google Workspace necessarie per stabilire le relazioni tra Cloud Search e Norconex HTTP Collector:

    In genere, le credenziali possono essere fornite dall'amministratore di Google Workspace del dominio.

Procedura di deployment

Per eseguire il deployment del plug-in indexer, segui questi passaggi:

  1. Installa Norconex HTTP Collector e il software plug-in per l'indicizzazione
  2. Configurare Google Cloud Search
  3. Configura il raccoglitore HTTP Norconex
  4. Configura la scansione web
  5. Avviare una scansione del web e caricare i contenuti

Passaggio 1: installa Norconex HTTP Collector e il software plug-in per l'indicizzazione

  1. Scarica il software commiter Norconex da questa pagina.
  2. Decomprimi il software scaricato nella cartella ~/norconex/
  3. Clonare il plug-in commiter da GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, poi cd norconex-committer-plugin
  4. Controlla la versione desiderata del plug-in commiter e crea il file ZIP: git checkout tags/v1-0.0.3 e mvn package (per saltare i test durante la creazione del connettore, utilizza mvn package -DskipTests.)
  5. cd target
  6. Copia il file jar del plug-in integrato nella directory norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Estrai il file ZIP che hai appena creato, quindi decomprimilo: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Esegui lo script di installazione per copiare il file .jar del plug-in e tutte le librerie richieste nella directory del raccoglitore http:
    1. Modifica al plug-in commiter estratto decompresso in alto: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Esegui $ sh install.sh e indica il percorso completo per norconex/norconex-collector-http-{version}/lib come directory di destinazione quando richiesto.
    3. Se vengono trovati file jar duplicati, seleziona l'opzione 1 (Copia Jar di origine solo se una versione superiore o uguale a Jar di destinazione dopo aver rinominato il target Jar).

Passaggio 2: configura Google Cloud Search

Affinché il plug-in dell'indicizzatore possa connettersi a Norconex HTTP Collector e indicizzare i contenuti pertinenti, devi creare il file di configurazione di Cloud Search nella directory Norconex dove è installato Norconex HTTP Collector. Google consiglia di assegnare al file di configurazione di Cloud Search il nome sdk-configuration.properties.

Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, necessari per accedere all'origine dati Cloud Search.

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine di Cloud Search configurato dall'amministratore di Google Workspace.
Account di servizio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave dell'account di servizio di Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in dell'indicizzatore.

L'esempio seguente mostra un file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può anche contenere parametri di configurazione forniti da Google. Questi parametri possono influire sul modo in cui il plug-in esegue il push dei dati nell'API Google Cloud Search. Ad esempio, l'insieme di parametri batch.* identifica il modo in cui il connettore combina le richieste.

Se non definisci un parametro nel file di configurazione, viene utilizzato il valore predefinito, se disponibile. Per descrizioni dettagliate di ciascun parametro, consulta Parametri dei connettori forniti da Google.

Puoi configurare il plug-in Indicizzatore per compilare i metadati e i dati strutturati per i contenuti che vengono indicizzati. I valori da compilare per i campi di metadati e dati strutturati possono essere estratti dai meta tag nei contenuti HTML indicizzati oppure è possibile specificare i valori predefiniti nel file di configurazione.

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento indicizzato. In caso di titolo mancante, puoi fare riferimento all'attributo dei metadati contenente il valore corrispondente al titolo del documento o impostare un valore predefinito.
Timestamp creazione itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp di creazione del documento.
Ora dell'ultima modifica itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp dell'ultima modifica per il documento.
Lingua del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti dei documenti indicizzati.
Tipo di oggetto schema itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nelle definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizza alcun dato strutturato se questa proprietà non è specificata.

Nota: questa proprietà di configurazione punta a un valore anziché a un attributo di metadati e i sottotitoli .field e .defaultValue non sono supportati.

Formati di data/ora

I formati di data/ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. La tabella seguente mostra questo parametro.

Impostazione

Parametro

Pattern di data/ora aggiuntivi

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Un elenco separato da punto e virgola di altri pattern java.time.format.DateTimeFormatter. I pattern vengono utilizzati durante l'analisi dei valori delle stringhe per qualsiasi campo data o data/ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma i formati RFC 3339 e RFC 1123 sono sempre supportati.

Passaggio 3: configura Norconex HTTP Collector

L'archivio ZIP norconex-committer-google-cloud-search-{version}.zipinclude un file di configurazione di esempio: minimum-config.xml.

Google consiglia di iniziare la configurazione copiando il file di esempio:

  1. Passa alla directory Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copia il file di configurazione:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Modifica il file appena creato (in questo esempio, gcs-crawl-config.xml) e aggiungi o sostituisci i nodi <committer> e <tagger> esistenti come descritto nella tabella seguente.
Impostazione Parametro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Obbligatorio. Per abilitare il plug-in, devi aggiungere un nodo <committer> come nodo secondario del nodo <httpcollector> principale.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in indexer invia il contenuto del documento all'API Indexer di Google Cloud Search. I valori validi sono:
  • raw: il plug-in indexer esegue il push dei contenuti originali dei documenti non convertiti.
  • text: il plug-in dell'indicizzatore esegue il push dei contenuti testuali estratti.

Il valore predefinito è raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw. In questo caso, il plug-in di indicizzazione richiede che il campo dei contenuti binari del documento sia disponibile.

Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers>.

L'esempio seguente mostra la modifica richiesta in gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione web

Prima di avviare una scansione web, devi configurarla in modo che includa solo le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Le impostazioni più importanti per la scansione web fanno parte dei nodi <crawler> e possono includere:

  • URL di inizio
  • Profondità massima della scansione
  • Numero di thread

Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate sulla configurazione di una scansione web, nonché per un elenco completo dei parametri di configurazione disponibili, consulta la pagina Configurazione del raccoglitore HTTP.

Passaggio 5: avvia una scansione del web e carica il contenuto

Dopo aver installato e configurato il plug-in per l'indicizzazione, puoi eseguirlo autonomamente in modalità locale.

L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale su un sistema Linux. Esegui questo comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitorare l'avanzamento dei processi e dei job del crawler web Norconex (HTTP Collector). Per un tutorial completo su come configurare questa utilità, consulta Monitorare i progressi del crawler con JEF Monitor.