Wdrażanie oprogramowania sprzęgającego CSV

Ten przewodnik jest przeznaczony dla administratorów oprogramowania sprzęgającego usługi Google Cloud Search CSV (wartości rozdzielanych przecinkami), czyli wszystkich osób odpowiedzialnych za pobieranie, konfigurowanie, uruchamianie i monitorowanie oprogramowania sprzęgającego.

Ten przewodnik zawiera instrukcje wykonywania kluczowych zadań związanych z wdrażaniem oprogramowania sprzęgającego CSV:

  • Pobierz oprogramowanie sprzęgające Google Cloud Search CSV
  • Konfigurowanie oprogramowania sprzęgającego do użycia z określonym źródłem danych CSV
  • Wdrażanie i uruchamianie oprogramowania sprzęgającego

Aby zrozumieć pojęcia przedstawione w tym dokumencie, musisz znać podstawy Google Workspace, plików CSV i list kontroli dostępu (ACL).

Omówienie oprogramowania sprzęgającego Google Cloud Search CSV

Oprogramowanie sprzęgające CSV Cloud Search działa z każdym plikiem tekstowym z wartościami rozdzielonymi przecinkami (CSV). Plik CSV zawiera dane tabelaryczne, a każdy wiersz pliku to rekord danych.

Oprogramowanie sprzęgające CSV Google Cloud Search wyodrębnia poszczególne wiersze z pliku CSV i indeksuje je w Cloud Search za pomocą interfejsu Crawl API w Cloud Search. Po zindeksowaniu poszczególnych wierszy z plików CSV będzie można je przeszukiwać przy użyciu klientów Cloud Search lub interfejsu Query API Cloud Search. Oprogramowanie sprzęgające CSV umożliwia również kontrolowanie dostępu użytkowników do treści w wynikach wyszukiwania za pomocą list kontroli dostępu.

Oprogramowanie sprzęgające CSV Google Cloud Search można zainstalować w systemie Linux lub Windows. Przed wdrożeniem oprogramowania sprzęgającego Google Cloud Search CSV sprawdź, czy masz te wymagane komponenty:

  • Oprogramowanie Java JRE 1.8 zainstalowane na komputerze z łącznikiem CSV Google Cloud Search
  • Informacje z Google Workspace niezbędne do utworzenia relacji między Google Cloud Search a źródłem danych:

    Zwykle administrator Google Workspace w domenie może podać Ci te dane logowania.

Etapy wdrażania

Aby wdrożyć oprogramowanie sprzęgające Google Cloud Search CSV, wykonaj te czynności:

  1. Instalowanie oprogramowania sprzęgającego Google Cloud Search CSV
  2. Określanie konfiguracji oprogramowania sprzęgającego CSV
  3. Konfigurowanie dostępu do źródła danych Google Cloud Search
  4. Konfigurowanie dostępu do pliku CSV
  5. Określanie nazw kolumn do zindeksowania, unikalnych kolumn kluczowych oraz kolumn z datą i datą
  6. Określanie kolumn do użycia w klikalnych adresach URL wyników wyszukiwania
  7. Określanie metadanych i formatów kolumn
  8. Planowanie przemierzania danych
  9. Określanie opcji listy kontroli dostępu (ACL)

1. Zainstaluj pakiet SDK

Zainstaluj pakiet SDK w lokalnym repozytorium Maven.

  1. Sklonuj repozytorium SDK z GitHuba.

    $ git clone https://github.com/google-cloudsearch/connector-sdk.git
    $ cd connector-sdk/csv
  2. Sprawdź odpowiednią wersję pakietu SDK:

    $ git checkout tags/v1-0.0.3
  3. Utwórz oprogramowanie sprzęgające:

    $ mvn package
  4. Skopiuj plik ZIP oprogramowania sprzęgającego do lokalnego katalogu instalacji:

    $ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
    $ cd installation-dir
    $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
    $ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Określ konfigurację oprogramowania sprzęgającego CSV

Jako administrator oprogramowania sprzęgającego możesz kontrolować działanie oprogramowania sprzęgającego CSV i atrybuty definiujące parametry w pliku konfiguracji oprogramowania sprzęgającego. Konfigurowalne parametry obejmują:

  • Dostęp do źródła danych
  • Lokalizacja pliku CSV
  • Definicje kolumn CSV
  • Kolumny określające unikalny identyfikator
  • Opcje przemierzania
  • Opcje listy kontroli dostępu (ACL) ograniczające dostęp do danych

Aby oprogramowanie sprzęgające mogło prawidłowo uzyskać dostęp do pliku CSV i zindeksować odpowiednią treść, najpierw musisz utworzyć jego plik konfiguracji.

Aby utworzyć plik konfiguracji:

  1. Otwórz wybrany edytor tekstu i nadaj plikowi konfiguracji nazwę.
    Dodaj pary klucz=wartość do zawartości pliku w sposób opisany w kolejnych sekcjach.
  2. Zapisz plik konfiguracji i nadaj mu nazwę.
    Google zaleca nazwę pliku konfiguracji connector-config.properties, dzięki czemu do uruchomienia oprogramowania sprzęgającego nie są wymagane żadne dodatkowe parametry wiersza poleceń.

W wierszu poleceń możesz określić ścieżkę pliku konfiguracji, więc standardowa lokalizacja pliku nie jest wymagana. Zachowaj jednak plik konfiguracji w tym samym katalogu co oprogramowanie sprzęgające, aby uprościć śledzenie i uruchamianie oprogramowania sprzęgającego.

Aby mieć pewność, że oprogramowanie sprzęgające rozpozna plik konfiguracji, podaj jego ścieżkę w wierszu poleceń. W przeciwnym razie oprogramowanie sprzęgające użyje nazwy connector-config.properties z katalogu lokalnego jako domyślnej nazwy pliku. Informacje o określaniu ścieżki konfiguracji w wierszu poleceń znajdziesz w artykule Uruchamianie oprogramowania sprzęgającego Cloud Search CSV.

3. Konfigurowanie dostępu do źródła danych Google Cloud Search

Pierwsze parametry, które musi określić każdy plik konfiguracji, to parametry niezbędne do uzyskania dostępu do źródła danych Cloud Search. Pokazujemy je w tabeli poniżej. Zwykle do skonfigurowania dostępu oprogramowania sprzęgającego do Cloud Search potrzebne są identyfikator źródła danych, identyfikator konta usługi oraz ścieżka do pliku klucza prywatnego konta usługi. Instrukcje konfigurowania źródła danych znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.

lokalizacji, Parametr
Identyfikator źródła danych api.sourceId=1234567890abcdef

To pole jest wymagane. Identyfikator źródła Google Cloud Search skonfigurowany przez administratora Google Workspace zgodnie z opisem w artykule Zarządzanie zewnętrznymi źródłami danych.

Ścieżka do pliku klucza prywatnego konta usługi api.serviceAccountPrivateKeyFile=./PrivateKey.json

To pole jest wymagane. Plik klucza konta usługi Google Cloud Search na potrzeby ułatwień dostępu w oprogramowaniu sprzęgającym CSV Google Cloud Search.

Identyfikator źródła tożsamości api.identitySourceId=x0987654321

Wymagane, jeśli korzystasz z użytkowników i grup zewnętrznych. Identyfikator źródła tożsamości Google Cloud Search skonfigurowany przez administratora Google Workspace.

4. Skonfiguruj parametry pliku CSV

Zanim oprogramowanie sprzęgające będzie mogło przeszukać plik CSV i wyodrębnić z niego dane na potrzeby indeksowania, musisz określić ścieżkę do pliku. Możesz też określić format i typ kodowania plików. Dodaj te parametry, aby określić właściwości pliku CSV w pliku konfiguracji.

lokalizacji, Parametr
Ścieżka do pliku CSV csv.filePath=./movie_content.csv

To pole jest wymagane. Ścieżka do pliku CSV, do którego można uzyskać dostęp, i wyodrębnianie treści na potrzeby indeksowania.

Format pliku csv.format=DEFAULT

Format pliku. Możliwe wartości to wartości z klasy CSVFormat systemu Apache Commons.

Wartości formatu: DEFAULT, EXCEL, INFORMIX_UNLOAD, INFORMIX_UNLOAD_CSV, MYSQL, RFC4180, ORACLE, POSTGRESQL_CSV, POSTGRESQL_TEXT i TDF. Jeśli nie określono inaczej, Cloud Search używa pola DEFAULT.

Modyfikator formatu pliku csv.format.withMethod=value

Zmiana sposobu obsługi pliku przez Cloud Search. Możliwe metody to klasa CSVFormat biblioteki Apache Commons i obejmują te, które przyjmują pojedynczy znak, ciąg znaków lub wartość logiczną.

Aby na przykład określić średnik jako separator, użyj znaku csv.format.withDelimiter=;. Aby zignorować puste wiersze, użyj polecenia csv.format.withIgnoreEmptyLines=true.

Typ kodowania pliku csv.fileEncoding=UTF-8

Zestaw znaków Java do użycia, gdy Cloud Search odczyta plik. Jeśli nie określono inaczej, Cloud Search używa domyślnego zestawu znaków platformy.

5. Określ nazwy kolumn do zindeksowania i unikalne kolumny kluczy

Aby oprogramowanie sprzęgające mogło uzyskać dostęp do plików CSV i je indeksować, musisz podać informacje o definicjach kolumn w pliku konfiguracji. Jeśli plik konfiguracji nie zawiera parametrów, które określają nazwy kolumn do indeksowania, ani unikalnych kolumn kluczy, używane są wartości domyślne.

lokalizacji, Parametr
Kolumny do zindeksowania csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...

Nazwy kolumn do indeksowania z pliku CSV. Jeśli zasada csv.csvColumns nie jest skonfigurowana, jako nagłówek używany jest pierwszy wiersz pliku CSV. Jeśli ustawiona jest wartość csv.csvColumns, ma ona pierwszeństwo przed pierwszym wierszem pliku CSV. Jeśli skonfigurowano csv.csvColumns, a pierwszy wiersz pliku CSV zawiera listę nazw kolumn, musisz ustawić csv.skipHeaderRecord=true, aby uniknąć próby zindeksowania pierwszego wiersza jako danych. Wartości domyślne to kolumny w wierszu nagłówka pliku.

Unikalne kolumny kluczy csv.uniqueKeyColumns=movieId

Kolumny pliku CSV, których wartości zostaną użyte do wygenerowania unikalnego identyfikatora każdego rekordu. Jeśli go nie podasz, jako unikalnego klucza należy użyć skrótu rekordu CSV. Wartość domyślna to kod skrótu rekordu.

6. Określ kolumny do użycia w adresach URL wyników wyszukiwania, które można kliknąć

Gdy użytkownik przeprowadza wyszukiwanie za pomocą Google Cloud Search, w reakcji wyświetla stronę wyników zawierającą klikalne adresy URL poszczególnych wyników. Aby włączyć tę funkcję, musisz dodać do pliku konfiguracji parametr z poniższej tabeli.

lokalizacji, Parametr
Format adresu URL wyniku wyszukiwania url.format=https://mymoviesite.com/movies/{0}

To pole jest wymagane. Format tworzenia adresu URL widoku dla treści CSV.

Parametry adresu URL wyników wyszukiwania. url.columns=movieId

To pole jest wymagane. Nazwy kolumn CSV, których wartości zostaną użyte do wygenerowania adresu URL widoku rekordu.

Parametry adresu URL wyników wyszukiwania ze zmianą znaczenia url.columnsToEscape=movieId

Opcjonalnie. Nazwy kolumn w pliku CSV, których wartości będą objęte zmianą znaczenia w adresie URL w celu wygenerowania prawidłowego adresu URL widoku.

7. Określ metadane, formaty kolumn i jakość wyszukiwania

Do pliku konfiguracji możesz dodać parametry, które określają:

Parametry konfiguracji metadanych

Parametry konfiguracji metadanych opisują kolumny pliku CSV służące do wypełniania metadanych elementu. Jeśli plik konfiguracji nie zawiera tych parametrów, używane są wartości domyślne. Parametry te są przedstawione w tabeli poniżej.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind

Atrybut metadanych, który zawiera wartość odpowiadającą tytułowi dokumentu. Wartością domyślną jest pusty ciąg znaków.

URL itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Atrybut metadanych, który zawiera wartość adresu URL dokumentu na potrzeby wyników wyszukiwania.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17

Atrybut metadanych, który zawiera wartość sygnatury czasowej utworzenia dokumentu.

Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17

Atrybut metadanych, który zawiera wartość sygnatury czasowej ostatniej modyfikacji dokumentu.

Język dokumentu itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US

Język treści indeksowanych dokumentów.

Typ obiektu schematu itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie

Typ obiektu używany przez oprogramowanie sprzęgające, określony w schemacie. Jeśli ta właściwość nie zostanie określona, oprogramowanie sprzęgające nie będzie indeksować żadnych uporządkowanych danych.

Formaty daty i godziny

Formaty daty i godziny określają oczekiwane formaty w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Ten parametr jest przedstawiony w tabeli poniżej.

Ustawienie Parametr
Dodatkowe formaty daty i godziny structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Rozdzielona średnikiem lista dodatkowych wzorców java.time.format.DateTimeFormatter. Wzorce są używane podczas analizowania wartości w postaci ciągów znaków w przypadku dowolnych pól daty lub daty i godziny w metadanych bądź schemacie. Wartością domyślną jest pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Formaty kolumn

Formaty kolumn określają informacje o kolumnach, które powinny zawierać treści dostępne dla wyszukiwarki. Jeśli plik konfiguracji nie zawiera tych parametrów, używane są wartości domyślne. Parametry te są przedstawione w tabeli poniżej.

lokalizacji, Parametr
Pomiń nagłówek csv.skipHeaderRecord=true

Wartość logiczna. Zignoruj rekord nagłówka (pierwszy wiersz) w pliku CSV. Jeśli masz ustawioną właściwość csv.csvColumns, a plik CSV ma wiersz nagłówka, musisz ustawić wartość skipHeaderRecord=true. Zapobiega to indeksowaniu pierwszego wiersza pliku jako danych. Jeśli plik CSV nie ma wiersza nagłówka, ustaw skipHeaderRecord=false. Wartość domyślna to false (fałsz).

Kolumny z wieloma wartościami csv.multiValueColumns=genre,actors

Nazwy kolumn w pliku CSV, które mają wiele wartości. Wartością domyślną jest pusty ciąg znaków.

Separator w kolumnach z wieloma wartościami csv.multiValue.genre=;

Separator kolumn z wieloma wartościami. Domyślnym separatorem jest przecinek.

Jakość wyszukiwania

Oprogramowanie sprzęgające CSV z Cloud Search umożliwia automatyczne formatowanie HTML w polach danych. Oprogramowanie sprzęgające definiuje pola danych na początku wykonywania oprogramowania sprzęgającego, a następnie używa szablonu treści do sformatowania każdego rekordu danych przed przesłaniem go do Cloud Search.

Szablon treści określa znaczenie wartości każdego pola dla wyszukiwania. Pole tytułu jest wymagane i jest zdefiniowane jako o najwyższym priorytecie. Dla wszystkich pozostałych pól treści możesz wyznaczyć poziomy ważności jakości wyszukiwania: wysokie, średnie lub niskie. Wszystkie pola treści, które nie są zdefiniowane w konkretnej kategorii, mają domyślnie niski priorytet. Parametry te są przedstawione w tabeli poniżej.

lokalizacji, Parametr
Tytuł treści contentTemplate.csv.title=movieTitle

Tytuł treści to pole o najwyższej jakości wyszukiwania.

Wysoka jakość wyszukiwania w polach treści contentTemplate.csv.quality.high=actors

Pola treści o wysokiej jakości wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Niska jakość wyszukiwania w polach treści contentTemplate.csv.quality.low=genre

Pola treści z niską wartością jakości wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Średnia jakość wyszukiwania w polach treści contentTemplate.csv.quality.medium=description

Pola treści o średniej wartości wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Nieokreślone pola treści contentTemplate.csv.unmappedColumnsMode=IGNORE

Sposób obsługi nieokreślonych pól treści przez oprogramowanie sprzęgające. Prawidłowe wartości to:

  • APPEND – dołącz nieokreślone pola treści do szablonu
  • IGNORE – ignoruj nieokreślone pola treści.

    Wartością domyślną jest APPEND.

8. Zaplanuj przemierzanie danych

Szybkość przemierzania to proces oprogramowania sprzęgającego służący do wykrywania treści ze źródła danych, w tym przypadku z pliku CSV. Po uruchomieniu oprogramowania sprzęgającego CSV będzie ono przeglądać wiersze w pliku CSV i indeksować każdy wiersz w Cloud Search za pomocą interfejsu Crawl API.

Pełne przemierzanie indeksuje wszystkie kolumny w pliku. Przemierzanie przyrostowe powoduje indeksowanie tylko kolumn, które zostały dodane lub zmodyfikowane od poprzedniego przemierzania. Oprogramowanie sprzęgające CSV wykonuje tylko pełne przemierzanie. Nie wykonuje on przemierzania przyrostowego.

Parametry planowania określają, jak często oprogramowanie sprzęgające oczekuje między przemierzaniami. Jeśli plik konfiguracji nie zawiera parametrów harmonogramu, używane są wartości domyślne. Parametry te są przedstawione w tabeli poniżej.

lokalizacji, Parametr
Pełne przemierzanie po interwale schedule.traversalIntervalSecs=7200

Oprogramowanie sprzęgające wykonuje pełne przemierzanie po określonym czasie. Określ odstęp między przemierzaniami w sekundach. Wartość domyślna to 86400 (liczba sekund w ciągu jednego dnia).

Pełne przemierzenie podczas uruchamiania oprogramowania sprzęgającego schedule.performTraversalOnStart=false

Oprogramowanie sprzęgające wykonuje pełne przemierzenie podczas uruchamiania oprogramowania sprzęgającego, zamiast czekać na wygaśnięcie pierwszego interwału. Wartością domyślną jest true.

9. Określ opcje listy kontroli dostępu (ACL)

Oprogramowanie sprzęgające CSV Google Cloud Search obsługuje uprawnienia za pomocą list kontroli dostępu (ACL) do kontrolowania dostępu do treści pliku CSV w wynikach wyszukiwania. Dostępnych jest wiele opcji kontroli dostępu (ACL), które pozwalają chronić dostęp użytkowników do zindeksowanych rekordów.

Jeśli repozytorium zawiera informacje o poszczególnych listach kontroli dostępu powiązanych z każdym dokumentem, prześlij wszystkie te informacje, aby kontrolować dostęp do dokumentów w Cloud Search. Jeśli repozytorium zawiera częściowe informacje o liście kontroli dostępu lub nie ma ich wcale, można podać domyślne informacje o liście kontroli dostępu w poniższych parametrach, które pakiet SDK udostępnia łącznikowi.

Oprogramowanie sprzęgające korzysta z włączenia domyślnych list kontroli dostępu (ACL) w pliku konfiguracji. Aby włączyć domyślne listy kontroli dostępu, ustaw defaultAcl.mode w dowolnym trybie innym niż none i skonfiguruj go za pomocą defaultAcl.*

lokalizacji, Parametr
tryb ACL defaultAcl.mode=fallback

To pole jest wymagane. Oprogramowanie sprzęgające CSV korzysta z funkcji domyślnej listy kontroli dostępu. Oprogramowanie sprzęgające obsługuje tylko tryb zastępczy.

Nazwa domyślnej listy kontroli dostępu defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1

Opcjonalnie. Umożliwia zastąpienie nazwy kontenera wirtualnego używanej przez oprogramowanie sprzęgające do konfigurowania domyślnych list kontroli dostępu. Wartość domyślna to „DEFAULT_ACL_VIRTUAL_CONTAINER”. Możesz zastąpić tę wartość, jeśli wiele programów sprzęgających indeksuje treści z tego samego źródła danych.

Domyślna publiczna lista kontroli dostępu defaultAcl.public=true

Domyślna lista kontroli dostępu używana dla całego repozytorium jest ustawiona na dostęp z domeny publicznej. Wartością domyślną jest false (fałsz).

Wspólni odczytujący grupy ACL defaultAcl.readers.groups=google:group1, group2
Typowe czytniki list ACL defaultAcl.readers.users=user1, user2, google:user3
Typowe odczytujące odrzucone grupy ACL za pomocą listy ACL defaultAcl.denied.groups=group3
Typowe czytniki odrzucone z listy ACL defaultAcl.denied.users=user4, user5
Dostęp do całej domeny Aby określić, że każdy indeksowany rekord jest publicznie dostępny dla każdego użytkownika w domenie, ustaw obie te opcje z wartościami:
  • defaultAcl.mode=fallback
  • defaultAcl.public=true
Wspólnie zdefiniowana lista kontroli dostępu Aby określić jedną listę kontroli dostępu dla każdego rekordu repozytorium danych, ustaw wszystkie następujące wartości parametrów:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1, group2
  • defaultAcl.readers.users=user1, user2, google:user3
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Każdy określony użytkownik i każda grupa są uznawane za lokalną użytkownika lub grupę zdefiniowaną w domenie, chyba że są poprzedzone znakiem „google:” (stałą dosłowną).

    Domyślny użytkownik lub grupa to pusty ciąg znaków. Opcje użytkownika i grupy możesz podać tylko wtedy, gdy parametr defaultAcl.public ma wartość false. Aby podać większą liczbę grup i użytkowników, użyj listy rozdzielanej przecinkami.

    Jeśli tryb defaultAcl.mode ma wartość none, rekordy są niedostępne do przeszukiwania bez zdefiniowanych list kontroli dostępu.

Definicja schematu

Cloud Search umożliwia indeksowanie oraz wyświetlanie uporządkowanych i nieuporządkowanych treści. Aby obsługiwać zapytania o uporządkowane dane dotyczące Twoich danych, musisz skonfigurować schemat dla swojego źródła danych.

Po zdefiniowaniu oprogramowania sprzęgającego CSV może odwoływać się do zdefiniowanego schematu w celu tworzenia żądań indeksowania. Przeanalizujmy plik CSV zawierający informacje o filmach.

Załóżmy, że wejściowy plik CSV ma taką zawartość.

  1. movieId
  2. movieTitle
  3. opis
  4. rok
  5. releaseDate
  6. aktorzy (wiele wartości rozdzielonych przecinkami (,)),
  7. genre (wiele wartości)
  8. oceny

Na podstawie powyższej struktury danych możesz zdefiniować schemat dla źródła danych, w którym chcesz indeksować dane z pliku CSV.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Przykładowy plik konfiguracji

Poniższy przykładowy plik konfiguracji zawiera pary parametrów key=value, które definiują działanie przykładowego oprogramowania sprzęgającego.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Szczegółowy opis poszczególnych parametrów znajdziesz w dokumentacji parametrów konfiguracji.

Uruchamianie oprogramowania sprzęgającego Cloud Search CSV

Aby uruchomić oprogramowanie sprzęgające z poziomu wiersza poleceń, wpisz następujące polecenie:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Domyślnie dzienniki oprogramowania sprzęgającego są dostępne na standardowym wyjściu. Możesz logować się do plików, określając właściwość logging.properties.