Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata agli amministratori del plug-in indicizzatore di Google Cloud Search Norconex HTTP Collector, ovvero a chiunque sia responsabile del download, del deployment, della configurazione e della manutenzione del plug-in indicizzatore. La guida presuppone che tu abbia familiarità con i sistemi operativi Linux, i fondamenti del crawling del web, XML e Norconex HTTP Collector.

Questa guida include istruzioni per eseguire le attività chiave relative all'implementazione del plug-in dell'indicizzatore:

Scaricare il software del plug-in di indicizzazione
Configurare Google Cloud Search
Configurare Norconex HTTP Collector e la scansione del web
Avvia la scansione del web e carica i contenuti

Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in di indicizzazione Norconex HTTP Collector non sono riportate in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.

Panoramica del plug-in di indicizzazione Norconex HTTP Collector di Cloud Search

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti da prodotti Google Workspace, come Google Docs e Gmail. Puoi estendere la copertura di Google Cloud Search per includere la pubblicazione di contenuti web per i tuoi utenti implementando il plug-in di indicizzazione per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in di indicizzazione di eseguire scansioni del web e caricare contenuti nell'API Indexing, tu, in qualità di amministratore del plug-in di indicizzazione, fornisci informazioni specifiche durante i passaggi di configurazione descritti in questo documento nella sezione Passaggi di deployment.

Per utilizzare il plug-in di indicizzazione, devi impostare le proprietà in due file di configurazione:

{gcs-crawl-config.xml}-- contiene le impostazioni per Norconex HTTP Collector.
sdk-configuration.properties: contiene le impostazioni di Google Cloud Search.

Le proprietà di ogni file consentono al plug-in indicizzatore Google Cloud Search e a Norconex HTTP Collector di comunicare tra loro.

Scansione del web e caricamento dei contenuti

Dopo aver compilato i file di configurazione, hai le impostazioni necessarie per avviare la scansione del web. Norconex HTTP Collector esegue la scansione del web, scoprendo i contenuti dei documenti pertinenti alla sua configurazione e carica le versioni binarie (o di testo) originali dei contenuti dei documenti nell'API Cloud Search Indexing, dove vengono indicizzati e infine forniti agli utenti.

Sistema operativo supportato

Il plug-in di indicizzazione Google Cloud Search Norconex HTTP Collector deve essere installato su Linux.

Versione supportata di Norconex HTTP Collector

Il plug-in di indicizzazione Norconex HTTP Collector di Google Cloud Search supporta la versione 2.8.0.

Supporto ACL

Il plug-in indicizzatore supporta il controllo dell'accesso ai documenti nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).

Se gli ACL predefiniti sono abilitati nella configurazione del plug-in Google Cloud Search (defaultAcl.mode impostato su un valore diverso da none e configurato con defaultAcl.*), il plug-in indicizzatore tenta prima di creare e applicare un ACL predefinito.

Se gli ACL predefiniti non sono attivati, il plug-in torna a concedere l'autorizzazione di lettura all'intero dominio Google Workspace.

Per descrizioni dettagliate dei parametri di configurazione ACL, vedi Parametri del connettore forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in di indicizzazione, assicurati di disporre dei seguenti componenti obbligatori:

Java JRE 1.8 installato su un computer che esegue il plug-in di indicizzazione
Informazioni di Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:
- Chiave privata di Google Workspace (che contiene l'ID account di servizio)
- ID origine dati di Google Workspace
In genere, l'amministratore di Google Workspace per il dominio può fornirti queste credenziali.

Passi per il deployment

Per eseguire il deployment del plug-in di indicizzazione:

Installa Norconex HTTP Collector e il software del plug-in di indicizzazione
Configurare Google Cloud Search
Configura Norconex HTTP Collector
Configurare la scansione web
Avviare una scansione del web e il caricamento dei contenuti

Passaggio 1: installa Norconex HTTP Collector e il software del plug-in di indicizzazione

Scarica il software di commit Norconex da questa pagina.
Decomprimi il software scaricato nella cartella ~/norconex/
Clona il plug-in commiter da GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git e poi cd norconex-committer-plugin
Estrai la versione desiderata del plug-in committer e crea il file ZIP: git checkout tags/v1-0.0.3 e mvn package (per ignorare i test durante la creazione del connettore, utilizza mvn package -DskipTests).
cd target
Copia il file JAR del plug-in creato nella directory lib di Norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
Estrai il file ZIP che hai appena creato, quindi decomprimilo: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
Esegui lo script di installazione per copiare il file .jar del plug-in e tutte le librerie richieste nella directory del raccoglitore HTTP:
1. Passa al plug-in committer estratto e decompresso sopra: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
2. Esegui $ sh install.sh e fornisci il percorso completo a norconex/norconex-collector-http-{version}/lib come directory di destinazione quando richiesto.
3. Se vengono trovati file JAR duplicati, seleziona l'opzione 1 (Copia solo il file JAR di origine se la versione è uguale o superiore a quella del file JAR di destinazione dopo la ridenominazione).

Passaggio 2: configura Google Cloud Search

Affinché il plug-in indicizzatore si connetta a Norconex HTTP Collector e indicizzi i contenuti pertinenti, devi creare il file di configurazione di Cloud Search nella directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia di denominare il file di configurazione di Cloud Search sdk-configuration.properties.

Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, necessari per accedere all'origine dati Cloud Search.

Impostazione	Parametro
ID origine dati	`api.sourceId = 1234567890abcdef` Obbligatorio. L'ID origine Cloud Search configurato dall'amministratore di Google Workspace.
Service account	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Obbligatorio. Il file della chiave del service account Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in di indicizzazione.

L'esempio seguente mostra un file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può contenere anche parametri di configurazione forniti da Google. Questi parametri possono influire sul modo in cui questo plug-in invia i dati all'API Google Cloud Search. Ad esempio, il set di parametri batch.* identifica il modo in cui il connettore combina le richieste.

Se non definisci un parametro nel file di configurazione, viene utilizzato il valore predefinito, se disponibile. Per descrizioni dettagliate di ciascun parametro, vedi Parametri del connettore forniti da Google.

Puoi configurare il plug-in di indicizzazione per compilare i metadati e i dati strutturati per i contenuti indicizzati. I valori da inserire per i campi dei metadati e dei dati strutturati possono essere estratti dai metatag nei contenuti HTML in fase di indicizzazione oppure è possibile specificare i valori predefiniti nel file di configurazione.

Impostazione	Parametro
Titolo	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` Per impostazione predefinita, il plug-in utilizza `HTML title` come titolo del documento da indicizzare. In caso di titolo mancante, puoi fare riferimento all'attributo dei metadati che contiene il valore corrispondente al titolo del documento o impostare un valore predefinito.
Timestamp creazione	`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` L'attributo dei metadati che contiene il valore del timestamp di creazione del documento.
Ora dell'ultima modifica	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` L'attributo dei metadati che contiene il valore del timestamp dell'ultima modifica del documento.
Lingua del documento	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` La lingua dei contenuti per i documenti indicizzati.
Tipo di oggetto di schema	`itemMetadata.objectType=movie` Il tipo di oggetto utilizzato dal sito, come definito nelle definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizzerà i dati strutturati se questa proprietà non è specificata. Nota: questa proprietà di configurazione punta a un valore anziché a un attributo di metadati e i suffissi `.field` e `.defaultValue` non sono supportati.

Formati data/ora

I formati di data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. La seguente tabella mostra questo parametro.

Impostazione

Parametro

Pattern di data e ora aggiuntivi

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Un elenco separato da punto e virgola di pattern java.time.format.DateTimeFormatter aggiuntivi. I pattern vengono utilizzati durante l'analisi dei valori stringa per qualsiasi campo di data o data e ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma i formati RFC 3339 e RFC 1123 sono sempre supportati.

Passaggio 3: configura Norconex HTTP Collector

L'archivio zip norconex-committer-google-cloud-search-{version}.zipinclude un file di configurazione di esempio, minimum-config.xml.

Google consiglia di iniziare la configurazione copiando il file di esempio:

Passa alla directory di Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
Copia il file di configurazione:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
Modifica il file appena creato (in questo esempio, gcs-crawl-config.xml) e aggiungi o sostituisci i nodi <committer> e <tagger> esistenti come descritto nella tabella seguente.

Impostazione	Parametro
`<committer> node`	`<committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">` Obbligatorio. Per attivare il plug-in, devi aggiungere un nodo `<committer>` come nodo secondario del nodo `<httpcollector>` radice.
`<UploadFormat>`	`<uploadFormat>raw</uploadFormat>` Facoltativo. Il formato in cui il plug-in indicizzatore invia i contenuti del documento all'API indicizzatore di Google Cloud Search. I valori validi sono: `raw`: il plug-in di indicizzazione esegue il push dei contenuti originali e non convertiti del documento. `text`: il plug-in di indicizzazione esegue il push dei contenuti di testo estratti. Il valore predefinito è `raw`.
`BinaryContent Tagger <tagger> node`	`<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>` Obbligatorio se il valore di `<UploadFormat>` è `raw`. In questo caso, il plug-in di indicizzazione richiede che il campo dei contenuti binari del documento sia disponibile. Devi aggiungere il nodo `BinaryContentTagger <tagger>` come elemento secondario del nodo `<importer> / <preParseHandlers>`.

L'esempio seguente mostra la modifica richiesta a gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione del web

Prima di avviare una scansione web, devi configurarla in modo che includa solo le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Le impostazioni più importanti per la scansione del web fanno parte dei nodi <crawler> e possono includere:

URL di avvio
Profondità massima della scansione
Numero di thread

Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate sulla configurazione di una scansione del web, nonché un elenco completo dei parametri di configurazione disponibili, consulta la pagina Configurazione del raccoglitore HTTP.

Passaggio 5: avvia una scansione del web e il caricamento dei contenuti

Dopo aver installato e configurato il plug-in di indicizzazione, puoi eseguirlo in modalità locale.

L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale di un sistema Linux. Esegui questo comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitorare l'avanzamento dei processi e dei job di Norconex Web Crawler (HTTP Collector). Per un tutorial completo su come configurare questa utilità, visita la pagina Monitorare l'avanzamento del crawler con JEF Monitor.

Esegui il deployment di un plug-in Norconex HTTP Collector Indexer Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.