Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata all'indicizzatore Google Cloud Search Norconex HTTP Collector amministratori di plug-in, ovvero chiunque sia responsabile del download, il deployment, la configurazione e la gestione del plug-in Indexer. La guida presuppone che conosci, i sistemi operativi Linux, i fondamenti del web di scansione, XML Norconex HTTP Collector.

Questa guida include istruzioni per eseguire attività chiave correlate all'indicizzatore deployment del plug-in:

  • Scarica il software del plug-in per l'indicizzatore
  • Configurare Google Cloud Search
  • Configurare Norconex HTTP Collector e scansione web
  • Avviare la scansione del web e caricare i contenuti

Informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in dell'indicizzatore dell'indicizzatore HTTP Collector di Norconex non viene visualizzata in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.

Panoramica del plug-in dell'indicizzatore dell'indicizzatore Norconex HTTP Collector di Cloud Search

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti da Prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere la copertura di Google Cloud Search per includere la pubblicazione di contenuti web per gli utenti il deployment del plug-in indexer Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in dell'indicizzatore di eseguire scansioni web e caricare i contenuti nel l'API per l'indicizzazione, in qualità di amministratore del plug-in dell'indicizzatore, puoi fornire informazioni durante le fasi di configurazione descritte in questo documento Passaggi di deployment.

Per utilizzare il plug-in indexer, devi impostare le proprietà in due file di configurazione:

  • {gcs-crawl-config.xml}-- contiene le impostazioni per Norconex HTTP Collector.
  • sdk-configuration.properties-- contiene le impostazioni per Google Cloud Search.

Le proprietà in ogni file abilitano il plug-in dell'indicizzatore di Google Cloud Search Norconex HTTP Collector per comunicare tra loro.

Scansione web e caricamento di contenuti

Dopo aver compilato i file di configurazione, disponi dei necessari impostazioni per avviare la scansione del web. Scansioni del raccoglitore HTTP Norconex il web, scoprendo contenuti di documenti attinenti alla sua configurazione carica le versioni binarie originali (o in formato testo) dei contenuti dei documenti nel cloud l'API Search Indicizzazione, con cui viene indicizzato e pubblicato per i tuoi utenti.

Sistema operativo supportato

Il plug-in dell'indicizzatore dell'indicizzatore di Google Cloud Search Norconex HTTP Collector deve essere installato su Linux.

Versione supportata della raccolta HTTP Norconex

Il plug-in dell'indicizzatore dell'indicizzatore di Google Cloud Search Norconex HTTP Collector supporta la versione 2.8.0.

Supporto ACL

Il plug-in indexer supporta il controllo dell'accesso ai documenti in nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).

Se sono abilitati ACL predefiniti nella configurazione del plug-in di Google Cloud Search (defaultAcl.mode impostata su un valore diverso da none e configurato con defaultAcl.*), il plug-in dell'indicizzatore tenta innanzitutto di creare e applicare un ACL predefinito.

Se gli ACL predefiniti non sono abilitati, il plug-in torna indietro concedendo l'autorizzazione di lettura all'intero dominio Google Workspace.

Per una descrizione dettagliata dei parametri di configurazione ACL, consulta Parametri dei connettori forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indicizzatore, assicurati di avere quanto segue componenti obbligatori:

  • Java JRE 1.8 installato su un computer che esegue il plug-in indexer
  • le informazioni di Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:

    In genere, l'amministratore di Google Workspace del dominio può fornirli le credenziali per te.

Passi per il deployment

Per eseguire il deployment del plug-in indexer, segui questi passaggi:

  1. Installare Norconex HTTP Collector e il software del plug-in indexer
  2. Configurare Google Cloud Search
  3. Configura Norconex HTTP Collector
  4. Configurare la scansione web
  5. Avviare una scansione web e caricare contenuti

Passaggio 1: installa Norconex HTTP Collector e il software del plug-in indexer

  1. Scarica il software Norconex commiter da questa pagina.
  2. Decomprimi il software scaricato nella cartella ~/norconex/
  3. Clona il plug-in del commiter da GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git e poi cd norconex-committer-plugin
  4. Verifica la versione desiderata del plug-in di commiter e crea il file ZIP: git checkout tags/v1-0.0.3 e mvn package (per saltare i test durante la creazione il connettore, utilizza mvn package -DskipTests.
  5. cd target
  6. Copia il file jar del plug-in creato nella directory lib di norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Estrai il file ZIP che hai appena creato e decomprimi il file: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Esegui lo script di installazione per copiare il file .jar del plug-in e tutti i file richiesti nella directory del raccoglitore http:
    1. Modifica al plug-in del commiter estratto decompresso sopra: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Esegui $ sh install.sh e fornisci il percorso completo per norconex/norconex-collector-http-{version}/lib come target quando richiesto.
    3. Se vengono trovati file jar duplicati, seleziona l'opzione 1 (copia solo il file jar di origine se maggiore o uguale alla versione del Jar di destinazione dopo aver rinominato il Jar target).

Passaggio 2: configura Google Cloud Search

Affinché il plug-in indexer si connetta a Norconex HTTP Collector e indicizzi pertinenti, devi creare il file di configurazione di Cloud Search nella Directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia assegnare un nome al file di configurazione di Cloud Search sdk-configuration.properties.

Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, che sono necessarie per accedere all'origine dati di Cloud Search.

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine di Cloud Search configurato dall'amministratore di Google Workspace.
Account di servizio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave dell'account di servizio di Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in dell'indicizzatore.

L'esempio seguente mostra un file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può contenere anche parametri di configurazione forniti da Google. Questi parametri possono influire sul modo in cui il plug-in invia i dati all'API Google Cloud Search. Ad esempio, l'insieme di parametri batch.* identifica il modo in cui il connettore combina le richieste.

Se non definisci un parametro nel file di configurazione, il valore predefinito se disponibile. Per una descrizione dettagliata di ciascun parametro, consulta Parametri dei connettori forniti da Google.

Puoi configurare il plug-in indexer in modo che compili metadati e dati strutturati per contenuti indicizzati. Valori da compilare per metadati e dati strutturati possono essere estratti dai meta tag nei contenuti HTML che vengono indicizzati oppure è possibile specificare valori predefiniti nel file di configurazione.

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento indicizzato. Se manca il titolo, puoi fare riferimento a l'attributo di metadati che contiene il valore corrispondente al titolo del documento o imposta un valore predefinito.
Timestamp creazione itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo di metadati che contiene il valore del timestamp di creazione del documento.
Ora dell'ultima modifica itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo di metadati che contiene il valore del timestamp dell'ultima modifica per il documento.
Lingua del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti per i documenti da indicizzare.
Tipo di oggetto schema itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nel definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizza alcun elemento se questa proprietà non è specificata.

Nota: questa proprietà di configurazione punta a un valore anziché rispetto a un attributo dei metadati e .field e .defaultValue di suggerimenti secondari non sono supportati.

Formati data/ora

I formati di data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, i valori predefiniti sono in uso. La tabella seguente mostra questo parametro.

Impostazione

Parametro

Pattern data/ora aggiuntivi

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Un elenco separato da punti e virgola di valori java.time.format.DateTimeFormatter aggiuntivi pattern. I pattern vengono utilizzati durante l'analisi dei valori stringa per qualsiasi data o data e ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma sono sempre supportati i formati RFC 3339 e RFC 1123.

Passaggio 3: configura Norconex HTTP Collector

L'archivio ZIP norconex-committer-google-cloud-search-{version}.zipinclude una file di configurazione di esempio, minimum-config.xml.

Google consiglia di iniziare la configurazione copiando il file di esempio:

  1. Passa alla directory Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copia il file di configurazione:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Modifica il file appena creato (in questo esempio, gcs-crawl-config.xml) e aggiungere o sostituire i nodi <committer> e <tagger> esistenti come descritto in la tabella seguente.
Impostazione Parametro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Obbligatorio. Per abilitare il plug-in, devi aggiungere un nodo <committer> come figlio del nodo principale <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in dell'indicizzatore invia i contenuti dei documenti all'API Google Cloud Search Indexer. I valori validi sono:
  • raw: il plug-in dell'indicizzatore trasferisce i contenuti dei documenti originali e non convertiti.
  • text: il plug-in dell'indicizzatore esegue il push dei contenuti testuali estratti.

Il valore predefinito è raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw. In questo caso, il plug-in dell'indicizzatore richiede che il campo del contenuto binario del documento sia disponibile.

Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers>.

L'esempio seguente mostra la richiesta modifica alle gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione del web

Prima di avviare una scansione web, devi configurare la scansione in modo che include le informazioni che la tua organizzazione vuole rendere disponibili nella ricerca che consentono di analizzare i dati e visualizzare i risultati. Le impostazioni più importanti per la scansione web fanno parte di <crawler> nodi e può includere:

  • URL di inizio
  • Profondità massima della scansione
  • Numero di thread

Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate informazioni sull'impostazione di una scansione web, nonché un elenco completo delle di configurazione, consulta la sezione Configurazione .

Passaggio 5: avvia una scansione del web e il caricamento di contenuti

Dopo aver installato e configurato il plug-in dell'indicizzatore, puoi eseguirlo in modalità locale.

L'esempio seguente presuppone che i componenti richiesti si trovino nell'ambiente su un sistema Linux. Esegui questo comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitoraggio dell'avanzamento dei processi del Web crawler Norconex (HTTP Collector) e job. Per un tutorial completo sulla configurazione di questa utilità, visita Monitora i progressi del crawler con JEF Monitor.