Questa guida è destinata agli amministratori responsabili del download, del deployment e della manutenzione del plug-in di indicizzazione Norconex HTTP Collector di Google Cloud Search. Devi avere familiarità con Linux, i concetti fondamentali di web crawling, XML e Norconex HTTP Collector.
Questa guida include istruzioni per:
- Scarica il software del plug-in di indicizzazione.
- Configura Cloud Search.
- Configura Norconex HTTP Collector e il crawling del web.
- Avvia la scansione del web e carica i contenuti.
Le informazioni sulle attività che l'amministratore di Google Workspace deve svolgere non sono riportate in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.
Panoramica del plug-in di indicizzazione Norconex HTTP Collector
Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dai prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere questa funzionalità per includere i contenuti web implementando il plug-in di indicizzazione per Norconex HTTP Collector, un web crawler aziendale open source.
File delle proprietà di configurazione
Per consentire al plug-in di eseguire la scansione e il caricamento dei contenuti, devi fornire informazioni specifiche in due file di configurazione:
{gcs-crawl-config.xml}: impostazioni per Norconex HTTP Collector.sdk-configuration.properties: impostazioni per Cloud Search.
Scansione del web e caricamento dei contenuti
Dopo aver compilato i file di configurazione, puoi avviare la scansione del web. Norconex HTTP Collector esegue la scansione del web e carica i contenuti originali dei documenti binari o di testo nell'API Cloud Search Indexing.
Requisiti di sistema
- Sistema operativo: solo Linux.
- Versione Norconex: versione 2.8.0.
- Software: Java JRE 1.8.
Supporto ACL
Il plug-in di indicizzazione supporta gli elenchi di controllo dell'accesso (ACL) per controllare l'accesso ai documenti nel dominio Google Workspace.
Se attivi gli ACL predefiniti nella configurazione del plug-in (defaultAcl.mode impostato su
un valore diverso da none), il plug-in applica questi valori predefiniti. In caso contrario, il plug-in
concede l'autorizzazione di lettura all'intero dominio. Vedi
Parametri del connettore forniti da Google.
Prerequisiti
Prima di eseguire il deployment del plug-in dell'indicizzatore, raccogli questi componenti:
- Chiave privata di Google Workspace (contenente l'ID account di servizio). Consulta Configurare l'accesso all'API Cloud Search.
- ID origine dati di Google Workspace. Consulta Gestire le origini dati di terze parti.
Passi per il deployment
- Installa Norconex HTTP Collector e il software del plug-in
- Configurare Cloud Search
- Configura Norconex HTTP Collector
- Configurare la scansione web
- Avviare una scansione del web e il caricamento dei contenuti
Passaggio 1: installa Norconex HTTP Collector e il software del plug-in
- Scarica il software di commit Norconex dalla pagina di download di Norconex.
- Estrai il software in
~/norconex/. Clona il plug-in committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginControlla la versione selezionata e crea il plug-in:
git checkout tags/v1-0.0.3 mvn packagePer saltare i test, utilizza
mvn package -DskipTests.Copia il file JAR nella directory
libdi Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libEstrai il file ZIP creato:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Esegui lo script di installazione e fornisci il percorso completo della directory Norconex
lib:sh install.shSe ti viene chiesto di gestire i file duplicati, seleziona l'opzione
1.
Passaggio 2: configura Cloud Search
Crea sdk-configuration.properties nella directory Norconex. Il file deve
specificare questi parametri:
| Impostazione | Parametro |
| ID origine dati | api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine fornito dall'amministratore di Google Workspace. |
| Service account | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave del service account. |
Esempio di sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Puoi anche includere parametri come batch.* per controllare il modo in cui il plug-in invia
i dati. Vedi
Parametri del connettore forniti da Google.
Per compilare i metadati, configura questi parametri facoltativi:
| Impostazione | Parametro |
| Titolo | itemMetadata.title.field=movieTitle |
| Tipo di oggetto di schema | itemMetadata.objectType=movie |
Passaggio 3: configura Norconex HTTP Collector
Il plug-in include un file di esempio, minimum-config.xml.
Passa alla directory Norconex e copia l'esempio:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlModifica
gcs-crawl-config.xmlper aggiungere o sostituire i nodi<committer>e<tagger>:
| Impostazione | Parametro |
<committer> nodo |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obbligatorio. Aggiungi questo elemento sotto il nodo <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Facoltativo. raw o text. Il valore predefinito è
raw. |
Esempio di gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Passaggio 4: configura la scansione del web
Configura i nodi <crawler> in base alle tue esigenze, tra cui:
- URL di avvio
- Profondità massima di scansione
- Numero di thread
Consulta la pagina di configurazione di Norconex.
Passaggio 5: avvia una scansione del web e il caricamento dei contenuti
Esegui il raccoglitore in modalità locale:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorare il crawler con JEF Monitor
Norconex JEF (Job Execution Framework) Monitor fornisce una visualizzazione grafica dell'avanzamento. Vedi Monitorare il crawler con JEF Monitor.