Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata agli amministratori responsabili del download, del deployment e della manutenzione del plug-in di indicizzazione Norconex HTTP Collector di Google Cloud Search. Devi avere familiarità con Linux, i concetti fondamentali di web crawling, XML e Norconex HTTP Collector.

Questa guida include istruzioni per:

  • Scarica il software del plug-in di indicizzazione.
  • Configura Cloud Search.
  • Configura Norconex HTTP Collector e il crawling del web.
  • Avvia la scansione del web e carica i contenuti.

Le informazioni sulle attività che l'amministratore di Google Workspace deve svolgere non sono riportate in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.

Panoramica del plug-in di indicizzazione Norconex HTTP Collector

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dai prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere questa funzionalità per includere i contenuti web implementando il plug-in di indicizzazione per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in di eseguire la scansione e il caricamento dei contenuti, devi fornire informazioni specifiche in due file di configurazione:

  • {gcs-crawl-config.xml}: impostazioni per Norconex HTTP Collector.
  • sdk-configuration.properties: impostazioni per Cloud Search.

Scansione del web e caricamento dei contenuti

Dopo aver compilato i file di configurazione, puoi avviare la scansione del web. Norconex HTTP Collector esegue la scansione del web e carica i contenuti originali dei documenti binari o di testo nell'API Cloud Search Indexing.

Requisiti di sistema

  • Sistema operativo: solo Linux.
  • Versione Norconex: versione 2.8.0.
  • Software: Java JRE 1.8.

Supporto ACL

Il plug-in di indicizzazione supporta gli elenchi di controllo dell'accesso (ACL) per controllare l'accesso ai documenti nel dominio Google Workspace.

Se attivi gli ACL predefiniti nella configurazione del plug-in (defaultAcl.mode impostato su un valore diverso da none), il plug-in applica questi valori predefiniti. In caso contrario, il plug-in concede l'autorizzazione di lettura all'intero dominio. Vedi Parametri del connettore forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indicizzatore, raccogli questi componenti:

Passi per il deployment

  1. Installa Norconex HTTP Collector e il software del plug-in
  2. Configurare Cloud Search
  3. Configura Norconex HTTP Collector
  4. Configurare la scansione web
  5. Avviare una scansione del web e il caricamento dei contenuti

Passaggio 1: installa Norconex HTTP Collector e il software del plug-in

  1. Scarica il software di commit Norconex dalla pagina di download di Norconex.
  2. Estrai il software in ~/norconex/.
  3. Clona il plug-in committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Controlla la versione selezionata e crea il plug-in:

    git checkout tags/v1-0.0.3
    mvn package
    

    Per saltare i test, utilizza mvn package -DskipTests.

  5. Copia il file JAR nella directory lib di Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Estrai il file ZIP creato:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Esegui lo script di installazione e fornisci il percorso completo della directory Norconex lib:

    sh install.sh
    

    Se ti viene chiesto di gestire i file duplicati, seleziona l'opzione 1.

Passaggio 2: configura Cloud Search

Crea sdk-configuration.properties nella directory Norconex. Il file deve specificare questi parametri:

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine fornito dall'amministratore di Google Workspace.
Service account api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave del service account.

Esempio di sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Puoi anche includere parametri come batch.* per controllare il modo in cui il plug-in invia i dati. Vedi Parametri del connettore forniti da Google.

Per compilare i metadati, configura questi parametri facoltativi:

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
Tipo di oggetto di schema itemMetadata.objectType=movie

Passaggio 3: configura Norconex HTTP Collector

Il plug-in include un file di esempio, minimum-config.xml.

  1. Passa alla directory Norconex e copia l'esempio:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Modifica gcs-crawl-config.xml per aggiungere o sostituire i nodi <committer> e <tagger>:

Impostazione Parametro
<committer> nodo <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obbligatorio. Aggiungi questo elemento sotto il nodo <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. raw o text. Il valore predefinito è raw.

Esempio di gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione del web

Configura i nodi <crawler> in base alle tue esigenze, tra cui:

  • URL di avvio
  • Profondità massima di scansione
  • Numero di thread

Consulta la pagina di configurazione di Norconex.

Passaggio 5: avvia una scansione del web e il caricamento dei contenuti

Esegui il raccoglitore in modalità locale:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor fornisce una visualizzazione grafica dell'avanzamento. Vedi Monitorare il crawler con JEF Monitor.