CSV-Connector bereitstellen

Dieser Leitfaden richtet sich an Administratoren, die mit dem Google Cloud Search-Connector für kommagetrennte Werte (comma-separated values, CSV) arbeiten und für das Herunterladen, Konfigurieren, Ausführen und Überwachen des Connectors verantwortlich sind.

Dieser Leitfaden enthält Anleitungen zu wichtigen Aufgaben im Zusammenhang mit der Bereitstellung des CSV-Connectors:

  • Software für den Google Cloud Search-CSV-Connector herunterladen
  • Connector für die Verwendung mit einer bestimmten CSV-Datenquelle konfigurieren
  • Connector bereitstellen und ausführen

Um die Konzepte in diesem Dokument zu verstehen, sollten Sie mit den Grundlagen von Google Workspace, mit CSV-Dateien und ACLs (Access Control Lists) vertraut sein.

Übersicht über den Google Cloud Search-CSV-Connector

Der Cloud Search-CSV-Connector funktioniert mit jeder Textdatei mit kommagetrennten Werten (CSV). In einer CSV-Datei werden tabellarische Daten gespeichert und jede Zeile der Datei ist ein Datensatz.

Der CSV-Connector von Google Cloud Search extrahiert einzelne Zeilen aus einer CSV-Datei und indexiert sie über die Cloud Search-Indexierungs-API in Cloud Search. Nach der erfolgreichen Indexierung können einzelne Zeilen aus CSV-Dateien über die Cloud Search-Clients oder die Query API von Cloud Search durchsucht werden. Mit dem CSV-Connector lässt sich auch mithilfe von ACLs der Nutzerzugriff auf Inhalte in den Suchergebnissen steuern.

Der CSV-Connector von Google Cloud Search kann unter Linux oder Windows installiert werden. Bevor Sie den CSV-Connector von Google Cloud Search bereitstellen, müssen die folgenden erforderlichen Komponenten vorhanden sein:

  • Java JRE 1.8, installiert auf einem Computer, auf dem der Google Cloud Search-CSV-Connector ausgeführt wird
  • Google Workspace-Informationen, die erforderlich sind, um Beziehungen zwischen Google Cloud Search und der Datenquelle herzustellen:

    In der Regel erhalten Sie diese Anmeldedaten vom Google Workspace-Administrator der Domain.

Deployment

So stellen Sie den CSV-Connector von Google Cloud Search bereit:

  1. Die CSV-Connector-Software von Google Cloud Search installieren
  2. Konfiguration des CSV-Connectors festlegen
  3. Zugriff auf die Google Cloud Search-Datenquelle konfigurieren
  4. CSV-Dateizugriff konfigurieren
  5. Zu indexierende Spaltennamen, Spalten mit eindeutigem Schlüssel und Datum/Uhrzeit-Spalten angeben
  6. Spalten für anklickbare Suchergebnis-URLs angeben
  7. Metadateninformationen und Spaltenformate angeben
  8. Datendurchlauf planen
  9. Optionen für Access Control List (ACL) angeben

1. SDK Installieren

Installieren Sie das SDK in Ihrem lokalen Maven-Repository.

  1. Klonen Sie das SDK-Repository aus GitHub.

    $ git clone https://github.com/google-cloudsearch/connector-sdk.git
    $ cd connector-sdk/csv
  2. Wählen Sie die gewünschte Version des SDKs aus:

    $ git checkout tags/v1-0.0.3
  3. Erstellen Sie den Connector:

    $ mvn package
  4. Kopieren Sie die ZIP-Datei des Connectors in Ihr lokales Installationsverzeichnis:

    $ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
    $ cd installation-dir
    $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
    $ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Konfiguration des CSV-Connectors angeben

Als Connectoradministrator legen Sie das Verhalten des CSV-Connectors und die Attribute fest, mit denen die Parameter in der Konfigurationsdatei des Connectors definiert werden. Zu den konfigurierbaren Parametern gehören:

  • Zugriff auf eine Datenquelle
  • Speicherort der CSV-Datei
  • CSV-Spaltendefinitionen
  • Spalte(n), die eine eindeutige ID definieren
  • Durchlaufoptionen
  • ACL-Optionen zum Einschränken des Datenzugriffs

Damit der Connector auf eine CSV-Datei zugreifen und die relevanten Inhalte indexieren kann, müssen Sie zuerst eine Konfigurationsdatei erstellen.

So erstellen Sie eine Konfigurationsdatei:

  1. Öffnen Sie einen Texteditor Ihrer Wahl und geben Sie der Konfigurationsdatei einen Namen.
    Fügen Sie dem Dateiinhalt Schlüssel/Wert-Paare hinzu, wie in den folgenden Abschnitten beschrieben.
  2. Speichern Sie die Konfigurationsdatei und benennen Sie sie.
    Google empfiehlt, die Konfigurationsdatei connector-config.properties zu nennen. Zum Ausführen des Connectors sind dann keine zusätzlichen Befehlszeilenparameter erforderlich.

Da Sie den Konfigurationsdateipfad in der Befehlszeile angeben können, ist ein Standarddateispeicherort nicht erforderlich. Belassen Sie die Konfigurationsdatei jedoch im selben Verzeichnis wie den Connector, um das Tracking und die Ausführung des Connectors zu vereinfachen.

Damit der Connector die Konfigurationsdatei erkennt, geben Sie ihren Pfad in der Befehlszeile an. Andernfalls wird connector-config.properties in Ihrem lokalen Verzeichnis als Standarddateiname verwendet. Informationen zum Angeben des Konfigurationspfads in der Befehlszeile finden Sie unter Cloud Search-CSV-Connector ausführen.

3. Zugriff auf die Google Cloud Search-Datenquelle konfigurieren

Die ersten Parameter, die in jeder Konfigurationsdatei angegeben werden müssen, sind die Parameter, die für den Zugriff auf die Cloud Search-Datenquelle erforderlich sind. Sie finden sie in der folgenden Tabelle. In der Regel benötigen Sie die Datenquellen-ID, die Dienstkonto-ID und den Pfad zur privaten Schlüsseldatei des Dienstkontos, um den Zugriff des Connectors auf Cloud Search zu konfigurieren. Eine Anleitung zum Einrichten einer Datenquelle finden Sie unter Datenquellen von Drittanbietern verwalten.

Einstellung Parameter
Datenquellen-ID api.sourceId=1234567890abcdef

Erforderlich. Die ID der vom Google Workspace-Administrator eingerichteten Google Cloud Search-Quelle, wie im Hilfeartikel Drittanbieter-Datenquellen verwalten beschrieben.

Pfad zur privaten Schlüsseldatei des Dienstkontos api.serviceAccountPrivateKeyFile=./PrivateKey.json

Erforderlich. Die Schlüsseldatei des Google Cloud Search-Dienstkontos für den Zugriff des CSV-Connectors auf Google Cloud Search.

ID der Identitätsquelle api.identitySourceId=x0987654321

Erforderlich, wenn externe Nutzer und Gruppen verwendet werden. Die ID der Google Cloud Search-Identitätsquelle, die vom Google Workspace-Administrator eingerichtet wurde.

4. Parameter für CSV-Datei konfigurieren

Bevor der Connector eine CSV-Datei durchsuchen und Daten aus ihr zur Indexierung extrahieren kann, müssen Sie den Pfad zur Datei identifizieren. Sie können auch das Dateiformat und die Art der Dateicodierung angeben. Fügen Sie die folgenden Parameter hinzu, um die Attribute der CSV-Datei in der Konfigurationsdatei anzugeben.

Einstellung Parameter
Pfad zur CSV-Datei csv.filePath=./movie_content.csv

Erforderlich. Der Pfad zur CSV-Datei, auf die zugegriffen und der Inhalt für die Indexierung extrahiert werden soll.

Dateiformat csv.format=DEFAULT

Das Format der Datei. Mögliche Werte stammen aus der Apache-Commons-CSV-Klasse CSVFormat.

Zu den Formatwerten gehören: DEFAULT, EXCEL, INFORMIX_UNLOAD, INFORMIX_UNLOAD_CSV, MYSQL, RFC4180, ORACLE, POSTGRESQL_CSV, POSTGRESQL_TEXT und TDF. Wenn keine Vorgabe erfolgt, verwendet Cloud Search DEFAULT.

Dateiformatmodifikator csv.format.withMethod=value

Eine Änderung an der Dateiverarbeitung durch Cloud Search. Mögliche Methoden stammen aus der Apache Commons CSV-Klasse CSVFormat und umfassen Methoden, die ein einzelnes Zeichen, einen String oder einen booleschen Wert annehmen.

Wenn Sie beispielsweise ein Semikolon als Trennzeichen angeben möchten, verwenden Sie csv.format.withDelimiter=;. Um leere Zeilen zu ignorieren, verwenden Sie csv.format.withIgnoreEmptyLines=true.

Dateicodierungstyp csv.fileEncoding=UTF-8

Der Java-Zeichensatz, der verwendet wird, wenn die Datei von Cloud Search gelesen wird. Wenn Sie keine Angabe machen, verwendet Cloud Search den Standardzeichensatz der Plattform.

5. Zu indexierende Spaltennamen und Spalten mit eindeutigem Schlüssel angeben

Damit der Connector auf CSV-Dateien zugreifen und diese indexieren kann, müssen Sie in der Konfigurationsdatei Informationen zu Spaltendefinitionen angeben. Wenn die Konfigurationsdatei nicht die Parameter für die zu indexierenden Spaltennamen und Spalten mit eindeutigem Schlüssel enthält, werden Standardwerte verwendet.

Einstellung Parameter
Spalten für Indexierung csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...

Die zu indexierenden Spaltennamen aus der CSV-Datei. Wenn csv.csvColumns nicht festgelegt ist, wird die erste Zeile der CSV-Datei als Header verwendet. Wenn csv.csvColumns festgelegt ist, hat sie Vorrang vor der ersten Zeile der CSV-Datei. Wenn Sie csv.csvColumns festgelegt haben und die erste Zeile der CSV-Datei eine Liste mit Spaltennamen ist, müssen Sie csv.skipHeaderRecord=true festlegen, damit nicht versucht wird, die erste Zeile als Daten zu indexieren. Standardwerte sind die Spalten in der Kopfzeile der Datei.

Spalten mit eindeutigem Schlüssel csv.uniqueKeyColumns=movieId

Die CSV-Spalte(n), deren Werte zum Generieren der eindeutigen ID jedes Eintrags verwendet werden. Wenn keine Angabe erfolgt, sollte der Hash des CSV-Eintrags als eindeutiger Schlüssel verwendet werden. Der Standardwert ist der Hashcode des Eintrags.

6. Spalten angeben, die in anklickbaren Suchergebnis-URLs verwendet werden sollen

Wenn ein Nutzer eine Suche mit Google Cloud Search durchführt, wird ihm eine Ergebnisseite mit anklickbaren URLs für jedes Ergebnis angezeigt. Um diese Funktion zu aktivieren, müssen Sie der Konfigurationsdatei den in der folgenden Tabelle gezeigten Parameter hinzufügen.

Einstellung Parameter
Format der Suchergebnis-URL url.format=https://mymoviesite.com/movies/{0}

Erforderlich. Das Format zum Erstellen der Ansichts-URL für CSV-Inhalte.

URL-Parameter für Suchergebnisse url.columns=movieId

Erforderlich. Die CSV-Spaltennamen, deren Werte zum Generieren der Ansichts-URL des Eintrags verwendet werden.

URL-Parameter für Suchergebnisse, die maskiert werden sollen url.columnsToEscape=movieId

Optional. Die CSV-Spaltennamen, deren Werte URL-codiert werden, um eine gültige Ansichts-URL zu generieren.

7. Metadateninformationen, Spaltenformate und Suchqualität angeben

Sie können der Konfigurationsdatei Parameter hinzufügen, die Folgendes angeben:

Konfigurationsparameter für Metadaten

Konfigurationsparameter für Metadaten beschreiben die CSV-Spalten, die zum Ausfüllen von Elementmetadaten verwendet werden. Wenn die Konfigurationsdatei diese Parameter nicht enthält, werden Standardwerte verwendet. In der folgenden Tabelle sehen Sie diese Parameter.

Einstellung Parameter
Titel itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind

Das Metadatenattribut, das den Wert enthält, der dem Dokumenttitel entspricht. Der Standardwert ist ein leerer String.

URL itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Das Metadatenattribut, das den Wert für die Dokument-URL der Suchergebnisse enthält.
Zeitstempel der Erstellung itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17

Das Metadatenattribut, das den Wert für den Zeitstempel der Dokumenterstellung enthält.

Zeitpunkt der letzten Aktualisierung itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17

Das Metadatenattribut, das den Wert für den Zeitstempel der letzten Änderung am Dokument enthält.

Dokumentsprache itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US

Die Inhaltssprache der indexierten Dokumente.

Schemaobjekttyp itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie

Der Objekttyp, der vom Connector verwendet wird, wie im Schema definiert. Wenn dieses Attribut nicht angegeben ist, indexiert der Connector keine strukturierten Daten.

Datums-/Uhrzeitformate

Datum/Uhrzeit-Formate geben die in Metadatenattributen erwarteten Formate an. Wenn die Konfigurationsdatei diesen Parameter nicht enthält, werden Standardwerte verwendet. In der folgenden Tabelle sehen Sie diesen Parameter.

Einstellung Parameter
Zusätzliche Datum/Uhrzeit-Formate structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Eine durch Semikolons getrennte Liste zusätzlicher Muster des Typs java.time.format.DateTimeFormatter. Die Muster werden beim Parsen von Stringwerten für Datums- oder Datum-Uhrzeitfelder in den Metadaten oder im Schema verwendet. Der Standardwert ist eine leere Liste. Die Formate RFC 3339 und RFC 1123 werden jedoch immer unterstützt.

Spaltenformate

Spaltenformate geben Informationen zu den Spalten an, die Teil des durchsuchbaren Inhalts sein sollen. Wenn die Konfigurationsdatei diese Parameter nicht enthält, werden Standardwerte verwendet. In der folgenden Tabelle sehen Sie diese Parameter.

Einstellung Parameter
Kopfzeile überspringen csv.skipHeaderRecord=true

Boolescher Wert. Ignorieren Sie den Header-Eintrag (erste Zeile) in der CSV-Datei. Wenn Sie csv.csvColumns festgelegt haben und die CSV-Datei eine Kopfzeile hat, müssen Sie skipHeaderRecord=true festlegen. Dadurch wird verhindert, dass die erste Zeile in der Datei als Daten indexiert wird. Wenn die CSV-Datei keine Kopfzeile hat, legen Sie skipHeaderRecord=false fest. Der Standardwert ist "false".

Spalten mit mehreren Werten csv.multiValueColumns=genre,actors

Die Spaltennamen in der CSV-Datei, die mehrere Werte enthalten. Der Standardwert ist ein leerer String.

Trennzeichen für Spalten mit mehreren Werten csv.multiValue.genre=;

Das Trennzeichen für die Spalten mit mehreren Werten. Das Standardtrennzeichen ist ein Komma.

Suchqualität

Mit dem CSV-Connector von Cloud Search können Datenfelder automatisch mit HTML formatiert werden. Der Connector definiert die Datenfelder zu Beginn der Connector-Ausführung und verwendet dann eine Inhaltsvorlage, um jeden Datensatz zu formatieren, bevor er in Cloud Search hochgeladen wird.

In der Inhaltsvorlage wird die Bedeutung jedes Feldwerts für die Suche definiert. Das Titelfeld ist erforderlich und hat die höchste Priorität. Für alle anderen Inhaltsfelder können Sie die Wichtigkeitsstufen der Suchqualität festlegen: hoch, mittel oder niedrig. Jedes Inhaltsfeld, das nicht in einer bestimmten Kategorie definiert ist, hat standardmäßig eine niedrige Priorität. In der folgenden Tabelle sehen Sie diese Parameter.

Einstellung Parameter
Titel des Inhalts contentTemplate.csv.title=movieTitle

Der Titel des Inhalts ist das Feld mit der höchsten Suchqualität.

Hohe Suchqualität für Inhaltsfelder contentTemplate.csv.quality.high=actors

Inhaltsfelder mit einem hohen Wert für die Suchqualität. Der Standardwert ist ein leerer String.

Niedrige Suchqualität für Inhaltsfelder contentTemplate.csv.quality.low=genre

Inhaltsfelder mit einem niedrigen Wert für die Suchqualität. Der Standardwert ist ein leerer String.

Mittlere Suchqualität für Inhaltsfelder contentTemplate.csv.quality.medium=description

Inhaltsfelder mit einem mittleren Wert für die Suchqualität. Der Standardwert ist ein leerer String.

Nicht angegebene Inhaltsfelder contentTemplate.csv.unmappedColumnsMode=IGNORE

Legt fest, wie der Connector nicht spezifizierte Inhaltsfelder handhabt. Gültige Werte sind:

  • APPEND: Fügt der Vorlage nicht spezifizierte Inhaltsfelder hinzu
  • IGNORE: nicht angegebene Inhaltsfelder werden ignoriert

    Der Standardwert ist APPEND..

8. Datendurchlauf planen

Der Durchlauf ist der Prozess des Connectors zum Erkennen von Inhalten aus der Datenquelle, in diesem Fall einer CSV-Datei. Während der CSV-Connector ausgeführt wird, durchsucht er die Zeilen einer CSV-Datei und indexiert jede Zeile über die Cloud Search API.

Bei einem vollständigen Durchlauf werden alle Spalten in der Datei indexiert. Beim Durchlauf mit Teilindexierung werden nur Spalten indexiert, die seit dem vorherigen Durchlauf hinzugefügt oder geändert wurden. Mit dem CSV-Connector werden nur vollständige Durchläufe ausgeführt. Es werden keine Durchläufe mit Teilindexierung durchgeführt.

Die Planungsparameter bestimmen, wie oft der Connector zwischen den Durchläufen wartet. Wenn die Konfigurationsdatei keine Planungsparameter enthält, werden Standardwerte verwendet. In der folgenden Tabelle sehen Sie diese Parameter.

Einstellung Parameter
Durchlauf mit vollständiger Indexierung nach einem Intervall schedule.traversalIntervalSecs=7200

Nach einem bestimmten Intervall wird ein vollständiger Durchlauf des Connectors durchgeführt. Geben Sie das Intervall zwischen den Durchläufen in Sekunden an. Der Standardwert ist 86.400, also die Anzahl der Sekunden eines Tages.

Durchlauf mit vollständiger Indexierung beim Start des Connectors schedule.performTraversalOnStart=false

Beim Start des Connectors wird ein vollständiger Durchlauf durchgeführt, anstatt bis zum Ablauf des ersten Intervalls zu warten. Der Standardwert ist true.

9. Optionen für Access Control List (ACL) angeben

Der CSV-Connector für Google Cloud Search unterstützt Berechtigungen über ACLs, mit denen der Zugriff auf Inhalte der CSV-Datei in Suchergebnissen gesteuert werden kann. Es gibt mehrere ACL-Optionen, mit denen Sie den Nutzerzugriff auf indexierte Datensätze schützen können.

Wenn Ihrem Repository individuelle ACL-Informationen zugeordnet sind, laden Sie alle ACL-Informationen hoch, um den Dokumentzugriff in Cloud Search zu steuern. Wenn Ihr Repository unvollständige oder keine ACL-Informationen enthält, können Sie in den folgenden Parametern Standard-ACL-Informationen angeben, die vom SDK für den Connector bereitgestellt werden.

Für den Connector müssen Standard-ACLs in der Konfigurationsdatei aktiviert sein. Wenn Sie Standard-ACLs aktivieren möchten, setzen Sie defaultAcl.mode auf einen anderen Modus als none und konfigurieren Sie ihn mit defaultAcl.*

Einstellung Parameter
ACL-Modus defaultAcl.mode=Fallback

Erforderlich. Für CSV-Connectors ist die Standard-ACL-Funktion erforderlich. Der Connector unterstützt nur den Fallback-Modus.

Standard-ACL-Name defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1

Optional. Ermöglicht das Überschreiben des Namens des virtuellen Containers, der vom Connector zum Einrichten von Standard-ACLs verwendet wird. Der Standardwert ist „DEFAULT_ACL_VIRTUAL_CONTAINER“. Sie können diesen Wert überschreiben, wenn Inhalte in derselben Datenquelle von mehreren Connectors indexiert werden.

Öffentliche Standard-ACL defaultAcl.public=true

Die Standard-ACL, die für das gesamte Repository verwendet wird, ist „Public Domain“. Der Standardwert ist false.

Allgemeine ACL-Gruppenleser defaultAcl.readers.groups=google:group1, group2
Allgemeine ACL für Nutzer mit Leseberechtigung defaultAcl.readers.users=user1, user2, google:user3
Allgemeine ACL für Gruppen mit Leseberechtigung defaultAcl.denied.groups=group3
Allgemeine ACL für Nutzer ohne Leseberechtigung defaultAcl.denied.users=user4, user5
Zugriff auf die gesamte Domain Um anzugeben, dass jeder indexierte Datensatz für jeden Nutzer in der Domain öffentlich zugänglich ist, legen Sie für die beiden folgenden Optionen Werte fest:
  • defaultAcl.mode=Fallback
  • defaultAcl.public=true
Allgemein definierte ACL Um eine ACL für jeden Datensatz des Daten-Repositorys anzugeben, legen Sie alle folgenden Parameterwerte fest:
  • defaultAcl.mode=Fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1, group2
  • defaultAcl.readers.users=user1, user2, google:user3
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Es wird davon ausgegangen, dass jeder angegebene Nutzer und jede Gruppe eine von einer lokalen Domain definierte Nutzer bzw. Gruppe ist, es sei denn, das Präfix google: (Literalkonstante).

    Der Standardnutzer oder die Standardgruppe ist ein leerer String. Geben Sie Optionen für Nutzer und Gruppen nur an, wenn defaultAcl.public auf false gesetzt ist. Wenn Sie mehrere Gruppen und Nutzer auflisten möchten, verwenden Sie eine durch Kommas getrennte Liste.

    Wenn defaultAcl.mode auf none festgelegt ist, können Datensätze ohne definierte individuelle ACLs nicht gesucht werden.

Schemadefinition

Mit Cloud Search können Sie strukturierte und unstrukturierte Inhalte indexieren und bereitstellen. Damit Abfragen strukturierter Daten für Ihre Daten unterstützt werden, müssen Sie ein Schema für Ihre Datenquelle einrichten.

Nach der Definition kann der CSV-Connector auf das definierte Schema verweisen, um Indexierungsanfragen zu erstellen. Betrachten wir zur Veranschaulichung eine CSV-Datei mit Informationen über Filme.

Angenommen, die CSV-Eingabedatei hat folgenden Inhalt.

  1. movieId
  2. movieTitle
  3. Beschreibung
  4. Jahr
  5. releaseDate
  6. actors (mehrere durch Komma (,) getrennte Werte)
  7. genre (mehrere Werte)
  8. Bewertungen

Anhand der obigen Datenstruktur können Sie ein Schema für eine Datenquelle definieren, unter dem Sie Daten aus einer CSV-Datei indexieren möchten.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Beispiel: Konfigurationsdatei

Die folgende Beispielkonfigurationsdatei enthält die key=value-Parameterpaare, durch die das Verhalten eines Beispielconnectors definiert wird.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Ausführliche Beschreibungen der einzelnen Parameter finden Sie in der Referenz zu Konfigurationsparametern.

Cloud Search-CSV-Connector ausführen

Geben Sie den folgenden Befehl ein, um den Connector über die Befehlszeile auszuführen:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Standardmäßig sind Connector-Protokolle in der Standardausgabe verfügbar. Sie können Logs in Dateien speichern, indem Sie logging.properties angeben.