Esegui il deployment di un connettore CSV

Questa guida è rivolta agli amministratori dei connettori CSV (valori separati da virgole) di Google Cloud Search, ovvero a chiunque sia responsabile del download, della configurazione, dell'esecuzione e del monitoraggio del connettore.

Questa guida include istruzioni per eseguire le attività chiave correlate al deployment dei connettori CSV:

  • Scarica il software del connettore CSV di Google Cloud Search
  • Configurare il connettore per l'utilizzo con un'origine dati CSV specifica
  • Eseguire il deployment e l'esecuzione del connettore

Per comprendere i concetti di questo documento, dovresti conoscere le nozioni di base di Google Workspace, dei file CSV e degli elenchi di controllo dell'accesso (ACL).

Panoramica del connettore CSV di Google Cloud Search

Il connettore CSV di Cloud Search funziona con qualsiasi file di testo con valori separati da virgole (CSV). Un file CSV archivia i dati tabulari e ogni riga del file è un record di dati.

Il connettore CSV di Google Cloud Search estrae singole righe da un file CSV e le indicizza in Cloud Search tramite l'API Index di Cloud Search. Dopo l'indicizzazione, le singole righe dei file CSV sono disponibili per la ricerca tramite i client di Cloud Search o l'API Query di Cloud Search. Il connettore CSV supporta anche il controllo dell'accesso degli utenti ai contenuti nei risultati di ricerca tramite gli ACL.

Il connettore CSV di Google Cloud Search può essere installato su Linux o Windows. Prima di eseguire il deployment del connettore CSV di Google Cloud Search, assicurati di disporre dei seguenti componenti obbligatori:

  • Java JRE 1.8 installato su un computer che esegue il connettore CSV di Google Cloud Search
  • Informazioni di Google Workspace necessarie per stabilire relazioni tra Google Cloud Search e l'origine dati:

    In genere, queste credenziali possono essere fornite dall'amministratore di Google Workspace del dominio.

Procedura di deployment

Per eseguire il deployment del connettore CSV di Google Cloud Search:

  1. Installare il software del connettore CSV di Google Cloud Search
  2. Specificare la configurazione del connettore CSV
  3. Configurare l'accesso all'origine dati Google Cloud Search
  4. Configurare l'accesso ai file CSV
  5. Specifica i nomi delle colonne da indicizzare, le colonne delle chiavi univoche e le colonne data/ora
  6. Specificare le colonne da utilizzare negli URL dei risultati di ricerca cliccabili
  7. Specificare le informazioni sui metadati e i formati delle colonne
  8. Pianificare il trasferimento dei dati
  9. Specificare le opzioni dell'elenco di controllo di accesso (ACL)

1. Installa l'SDK

Installa l'SDK nel tuo Repository Maven locale.

  1. Clonare il repository dell'SDK da GitHub.

    $ git clone https://github.com/google-cloudsearch/connector-sdk.git
    $ cd connector-sdk/csv
  2. Controlla la versione dell'SDK desiderata:

    $ git checkout tags/v1-0.0.3
  3. Crea il connettore:

    $ mvn package
  4. Copia il file ZIP del connettore nella directory di installazione locale:

    $ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
    $ cd installation-dir
    $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
    $ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Specifica la configurazione del connettore CSV

In qualità di amministratore del connettore, puoi controllare il comportamento del connettore CSV e gli attributi che definiscono i parametri nel file di configurazione del connettore. I parametri configurabili includono:

  • Accesso a un'origine dati
  • Percorso del file CSV
  • Definizioni delle colonne CSV
  • Colonne che definiscono un ID univoco
  • Opzioni di trasferimento
  • Opzioni ACL per limitare l'accesso ai dati

Affinché il connettore possa accedere correttamente a un file CSV e indicizzare i contenuti pertinenti, devi prima creare il relativo file di configurazione.

Per creare un file di configurazione:

  1. Apri un editor di testo di tua scelta e assegna un nome al file di configurazione.
    Aggiungi le coppie key=value ai contenuti del file come descritto nelle sezioni seguenti.
  2. Salva il file di configurazione e assegnagli un nome.
    Google consiglia di assegnare un nome al file di configurazione connector-config.properties in modo che non siano necessari parametri aggiuntivi della riga di comando per eseguire il connettore.

Poiché puoi specificare il percorso del file di configurazione nella riga di comando, non è necessaria una posizione del file standard. Tuttavia, mantieni il file di configurazione nella stessa directory del connettore per semplificare il monitoraggio e l'esecuzione del connettore.

Per assicurarti che il connettore riconosca il file di configurazione, specifica il percorso nella riga di comando. In caso contrario, il connettore utilizza connector-config.properties nella directory locale come nome file predefinito. Per informazioni su come specificare il percorso di configurazione nella riga di comando, consulta Eseguire il connettore CSV di Cloud Search.

3. Configurare l'accesso all'origine dati Google Cloud Search

I primi parametri che ogni file di configurazione deve specificare sono quelli necessari per accedere all'origine dati Cloud Search, come mostrato nella seguente tabella. In genere, sono necessari l'ID origine dati, l'ID dell'account di servizio e il percorso del file della chiave privata dell'account di servizio per configurare l'accesso del connettore a Cloud Search. I passaggi necessari per configurare un'origine dati sono descritti in Gestire le origini dati di terze parti

Impostazione Parametro
ID origine dati api.sourceId=1234567890abcdef

obbligatorio. L'ID origine di Google Cloud Search configurato dall'amministratore di Google Workspace, come descritto in Gestire le origini dati di terze parti.

Percorso del file di chiave privata dell'account di servizio api.serviceAccountPrivateKeyFile=./PrivateKey.json

obbligatorio. Il file della chiave dell'account di servizio di Google Cloud Search per l'accessibilità del connettore CSV di Google Cloud Search.

ID origine identità api.identitySourceId=x0987654321

Obbligatorio se utilizzi utenti e gruppi esterni. L'ID origine identità di Google Cloud Search configurato dall'amministratore di Google Workspace.

4. Configurare i parametri del file CSV

Prima che il connettore possa attraversare un file CSV ed estrarre i dati dal file per l'indicizzazione, devi identificare il percorso del file. Puoi anche specificare il formato e il tipo di codifica dei file. Aggiungi i seguenti parametri per specificare le proprietà del file CSV nel file di configurazione.

Impostazione Parametro
Percorso del file CSV csv.filePath=./movie_content.csv

obbligatorio. Il percorso del file CSV a cui accedere ed estrarre i contenuti per l'indicizzazione.

Formato file csv.format=DEFAULT

Il formato del file. I valori possibili sono quelli della classe Apache Commons CSV CSVFormat.

I valori del formato includono: DEFAULT, EXCEL, INFORMIX_UNLOAD, INFORMIX_UNLOAD_CSV, MYSQL, RFC4180, ORACLE, POSTGRESQL_CSV, POSTGRESQL_TEXT e TDF. Se non specificati, Cloud Search utilizza DEFAULT.

Modificatore formato file csv.format.withMethod=value

Una modifica al modo in cui Cloud Search gestisce il file. I metodi possibili sono quelli della classe CSV CSVFormat di Apache Commons e includono quelli che utilizzano un singolo carattere, una stringa o un valore booleano.

Ad esempio, per specificare un punto e virgola come delimitatore, utilizza csv.format.withDelimiter=;. Per ignorare le righe vuote, utilizza csv.format.withIgnoreEmptyLines=true.

Tipo di codifica file csv.fileEncoding=UTF-8

Il set di caratteri Java da utilizzare quando Cloud Search legge il file. Se non specificato, Cloud Search utilizza il set di caratteri predefinito della piattaforma.

5. Specifica i nomi delle colonne da indicizzare e le colonne di chiavi univoche

Affinché il connettore possa accedere ai file CSV e indicizzarli, devi fornire informazioni sulle definizioni delle colonne nel file di configurazione. Se il file di configurazione non contiene i parametri che specificano i nomi delle colonne da indicizzare e le colonne delle chiavi univoche, vengono utilizzati i valori predefiniti.

Impostazione Parametro
Colonne da indicizzare csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...

I nomi delle colonne da indicizzare nel file CSV. Se csv.csvColumns non è impostato, viene utilizzata come intestazione la prima riga del file CSV. Se il criterio csv.csvColumns è impostato, avrà la precedenza sulla prima riga del CSV. Se hai impostato csv.csvColumns e la prima riga del file CSV contiene un elenco di nomi di colonna, devi impostare csv.skipHeaderRecord=true per evitare di provare a indicizzare la prima riga come dati. I valori predefiniti sono le colonne nella riga di intestazione del file.

Colonne chiave univoche csv.uniqueKeyColumns=movieId

Le colonne CSV i cui valori verranno utilizzati per generare l'ID univoco di ogni record. Se non specificato, l'hash del record CSV deve essere utilizzato come la sua chiave univoca. Il valore predefinito è il codice hash del record.

6. Specifica le colonne da utilizzare negli URL dei risultati di ricerca cliccabili

Quando un utente esegue una ricerca utilizzando Google Cloud Search, visualizza una pagina dei risultati che include URL cliccabili per ogni risultato. Per abilitare questa funzionalità, devi aggiungere al file di configurazione il parametro mostrato nella seguente tabella.

Impostazione Parametro
Formato dell'URL dei risultati di ricerca url.format=https://mymoviesite.com/movies/{0}

obbligatorio. Il formato utilizzato per creare l'URL di visualizzazione per i contenuti CSV.

Parametri URL dei risultati di ricerca. url.columns=movieId

obbligatorio. I nomi delle colonne CSV i cui valori verranno utilizzati per generare l'URL di vista del record.

Parametri URL dei risultati di ricerca in cui eseguire l'escape url.columnsToEscape=movieId

Campo facoltativo. I nomi delle colonne CSV i cui valori verranno sottoposti a escape URL per generare un URL di visualizzazione valido.

7. Specifica le informazioni sui metadati, i formati delle colonne e la qualità della ricerca

Puoi aggiungere al file di configurazione parametri che specificano:

Parametri di configurazione dei metadati

Parametri di configurazione dei metadati descrive le colonne CSV utilizzate per compilare i metadati degli elementi. Se il file di configurazione non contiene questi parametri, vengono utilizzati i valori predefiniti. La tabella seguente mostra questi parametri.

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind

L'attributo dei metadati che contiene il valore corrispondente al titolo del documento. Il valore predefinito è una stringa vuota.

URL itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
L'attributo dei metadati che contiene il valore dell'URL del documento per i risultati di ricerca.
Timestamp creazione itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17

L'attributo dei metadati che contiene il valore del timestamp di creazione del documento.

Ora dell'ultima modifica itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17

L'attributo dei metadati che contiene il valore del timestamp dell'ultima modifica per il documento.

Lingua del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US

La lingua dei contenuti dei documenti indicizzati.

Tipo di oggetto schema itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie

Il tipo di oggetto utilizzato dal connettore, come definito nello schema. Il connettore non indicizza alcun dato strutturato se questa proprietà non è specificata.

Formati di data/ora

I formati di data/ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. La tabella seguente mostra questo parametro.

Impostazione Parametro
Altri formati di data/ora structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Un elenco separato da punto e virgola di pattern aggiuntivi java.time.format.DateTimeFormatter. I pattern vengono utilizzati durante l'analisi dei valori delle stringhe per qualsiasi campo relativo a data o data/ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma i formati RFC 3339 e RFC 1123 sono sempre supportati.

Formati colonna

I formati delle colonne specificano le informazioni sulle colonne che devono far parte dei contenuti disponibili per la ricerca. Se il file di configurazione non contiene questi parametri, vengono utilizzati i valori predefiniti. La tabella seguente mostra questi parametri.

Impostazione Parametro
Salta intestazione csv.skipHeaderRecord=true

Booleano. Ignora il record di intestazione (prima riga) nel file CSV. Se hai impostato csv.csvColumns e il file CSV ha una riga di intestazione, devi impostare skipHeaderRecord=true. Questo impedisce l'indicizzazione della prima riga del file come dati. Se il file CSV non ha una riga di intestazione, imposta skipHeaderRecord=false. Il valore predefinito è false.

Colonne multivalore csv.multiValueColumns=genre,actors

I nomi delle colonne nel file CSV a cui sono associati più valori. Il valore predefinito è una stringa vuota.

Delimitatore per colonne con più valori csv.multiValue.genre=;

Il delimitatore per le colonne con più valori. Il delimitatore predefinito è una virgola.

Qualità della ricerca

Il connettore CSV di Cloud Search consente la formattazione HTML automatica dei campi di dati. Il connettore definisce i campi di dati all'inizio dell'esecuzione del connettore, quindi utilizza un modello di contenuti per formattare ogni record di dati prima di caricarlo in Cloud Search.

Il modello di contenuti definisce l'importanza di ogni valore del campo per la ricerca. Il campo del titolo è obbligatorio ed è definito come la priorità più elevata. Puoi indicare i livelli di importanza della qualità della ricerca per tutti gli altri campi di contenuti: alto, medio o basso. Per impostazione predefinita, tutti i campi di contenuti non definiti in una categoria specifica hanno priorità bassa. La tabella seguente mostra questi parametri.

Impostazione Parametro
Titolo contenuti contentTemplate.csv.title=movieTitle

Il titolo dei contenuti è il campo con la qualità della ricerca più elevata.

Elevata qualità della ricerca per i campi dei contenuti contentTemplate.csv.quality.high=actors

Campi di contenuti con un valore di qualità di ricerca elevato. Il valore predefinito è una stringa vuota.

Bassa qualità della ricerca per i campi dei contenuti contentTemplate.csv.quality.low=genre

Campi di contenuti con un valore di qualità di ricerca basso. Il valore predefinito è una stringa vuota.

Qualità della ricerca media per i campi dei contenuti contentTemplate.csv.quality.medium=description

Campi di contenuti con un valore di qualità della ricerca medio. Il valore predefinito è una stringa vuota.

Campi dei contenuti non specificati contentTemplate.csv.unmappedColumnsMode=IGNORE

In che modo il connettore gestisce i campi di contenuti non specificati. I valori validi sono:

  • APPEND: aggiunge al modello campi di contenuti non specificati
  • IGNORE: ignora i campi di contenuti non specificati

    Il valore predefinito è APPEND..

8. Pianifica il trasferimento dei dati

Il trasferimento è il processo del connettore per il rilevamento dei contenuti dall'origine dati, in questo caso un file CSV. Durante l'esecuzione, il connettore CSV attraversa le righe di un file CSV e indicizza ogni riga in Cloud Search tramite l'API Index.

L'attraversamento completo indicizza tutte le colonne del file. L'attraversamento incrementale indicizza solo le colonne aggiunte o modificate dall'attraversamento precedente. Il connettore CSV esegue solo attraversamenti completi. Non esegue attraversamenti incrementali.

I parametri di pianificazione determinano la frequenza di attesa del connettore tra un trasferimento e l'altro. Se il file di configurazione non contiene parametri di pianificazione, vengono utilizzati i valori predefiniti. La tabella seguente mostra questi parametri.

Impostazione Parametro
Attraversamento completo dopo un intervallo schedule.traversalIntervalSecs=7200

Il connettore esegue un attraversamento completo dopo un intervallo specificato. Specifica l'intervallo tra gli attraversamenti in secondi. Il valore predefinito è 86400 (numero di secondi in un giorno).

Attraversamento completo all'avvio del connettore schedule.performTraversalOnStart=false

Il connettore esegue un attraversamento completo all'avvio del connettore, anziché attendere la scadenza del primo intervallo. Il valore predefinito è true.

9. Specifica le opzioni dell'elenco di controllo di accesso (ACL)

Il connettore CSV di Google Cloud Search supporta le autorizzazioni tramite ACL per controllare l'accesso ai contenuti del file CSV nei risultati di ricerca. Sono disponibili più opzioni ACL per proteggere l'accesso degli utenti ai record indicizzati.

Se il repository ha singole informazioni ACL associate a ciascun documento, carica tutte le informazioni ACL per controllare l'accesso ai documenti in Cloud Search. Se il repository fornisce informazioni ACL parziali o assenti, puoi fornire informazioni ACL predefinite nei seguenti parametri, che l'SDK fornisce al connettore.

Il connettore si basa su ACL predefiniti abilitati nel file di configurazione. Per abilitare gli ACL predefiniti, imposta defaultAcl.mode su una modalità diversa da none e configurala con defaultAcl.*

Impostazione Parametro
Modalità ACL defaultAcl.mode=riserva

obbligatorio. Il connettore CSV si basa sulla funzionalità ACL predefinita. Il connettore supporta solo la modalità di riserva.

Nome ACL predefinito defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1

Campo facoltativo. Consente di eseguire l'override del nome del contenitore virtuale utilizzato dal connettore per configurare gli ACL predefiniti. Il valore predefinito è "DEFAULT_ACL_VIRTUAL_CONTAINER". È consigliabile eseguire l'override di questo valore se più connettori indicizzano i contenuti nella stessa origine dati.

ACL pubblico predefinito defaultAcl.public=true

L'ACL predefinito utilizzato per l'intero repository è impostato sull'accesso al dominio pubblico. Il valore predefinito è false.

Lettori di gruppi ACL comuni defaultAcl.readers.groups=google:group1, group2
Lettori ACL comuni defaultAcl.readers.users=user1, user2, google:user3
Lettori di gruppi rifiutati ACL comuni defaultAcl.denied.groups=group3
Lettori Acl comuni con rifiuto defaultAcl.denied.users=user4, user5
Accesso completo al dominio Per specificare che ogni record indicizzato è accessibile pubblicamente da ogni utente del dominio, imposta entrambe le seguenti opzioni con i valori:
  • defaultAcl.mode=riserva
  • defaultAcl.public=true
ACL comune definito Per specificare un ACL per ogni record del repository di dati, imposta tutti i seguenti valori parametro:
  • defaultAcl.mode=riserva
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1, group2
  • defaultAcl.readers.users=user1, user2, google:user3
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Si presume che ogni utente e gruppo specificato sia un utente/gruppo definito dal dominio locale, a meno che non sia preceduto da "google:" (costante letterale).

    La stringa vuota per l'utente o il gruppo predefinito. Specifica le opzioni relative a utenti e gruppi solo se defaultAcl.public è impostato su false. Per elencare più gruppi e utenti, utilizza un elenco delimitato da virgole.

    Se defaultAcl.mode è impostato su none, non è possibile cercare record senza definire singoli ACL.

Definizione dello schema

Cloud Search consente l'indicizzazione e la pubblicazione di contenuti strutturati e non strutturati. Per supportare le query sui dati strutturati, devi configurare lo schema per l'origine dati.

Una volta definito, il connettore CSV può fare riferimento a uno schema definito per creare richieste di indicizzazione. Per fornire un esempio illustrativo, consideriamo un file CSV contenente informazioni sui film.

Supponiamo che il file CSV di input abbia i seguenti contenuti.

  1. movieId
  2. movieTitle
  3. descrizione
  4. anno
  5. releaseDate
  6. attori (più valori separati da virgole (,))
  7. genere (più valori)
  8. valutazioni

In base alla precedente struttura dei dati, puoi definire lo schema per un'origine dati in base alla quale indicizzare i dati provenienti dal file CSV.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

File di configurazione di esempio

Il file di configurazione di esempio seguente mostra le coppie di parametri key=value che definiscono il comportamento di un connettore di esempio.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Per descrizioni dettagliate di ciascun parametro, consulta la sezione di riferimento Parametri di configurazione.

Eseguire il connettore CSV di Cloud Search

Per eseguire il connettore dalla riga di comando, digita questo comando:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Per impostazione predefinita, i log del connettore sono disponibili nell'output standard. Puoi accedere ai file specificando logging.properties.