Ta strona została przetłumaczona przez Cloud Translation API.

Tworzenie łącznika treści

Łącznik treści to program, który służy do przeglądania danych w repozytorium przedsiębiorstwa i wypełniania źródła danych. Google udostępnia te opcje tworzenia łączników treści:

Pakiet SDK Content Connector. Jest to dobre rozwiązanie, jeśli programujesz w języku Java. Pakiet SDK Content Connector to opakowanie interfejsu API REST, które umożliwia szybkie tworzenie połączeń. Aby utworzyć oprogramowanie sprzęgające treści za pomocą pakietu SDK, zapoznaj się z artykułem Tworzenie oprogramowania sprzęgającego treści za pomocą pakietu SDK Content Connector.
interfejs API REST niskiego poziomu lub biblioteki API; Użyj tych opcji, jeśli nie programujesz w języku Java lub jeśli Twój kod źródłowy lepiej pasuje do interfejsu REST API lub biblioteki. Aby utworzyć oprogramowanie sprzęgające treści za pomocą interfejsu API REST, zapoznaj się z artykułem Tworzenie oprogramowania sprzęgającego treści za pomocą interfejsu API REST.

Typowy łącznik treści wykonuje te zadania:

Czyta i przetwarza parametry konfiguracji.
Pobiera z zewnętrznego repozytorium treści poszczególne fragmenty danych, które można indeksować, zwane „elementami”.
Łączy listy kontroli dostępu, metadane i dane treści w elementy indeksowane.
Indeksuje elementy w źródle danych Cloud Search.
(opcjonalnie) Słucha powiadomień o zmianach w repozytorium treści zewnętrznych. Powiadomienia o zmianach są przekształcane w żądania indeksowania, aby źródło danych Cloud Search było zsynchronizowane z repozytorium innej firmy. Konwerter wykonuje to zadanie tylko wtedy, gdy repozytorium obsługuje wykrywanie zmian.

Tworzenie łącznika treści za pomocą pakietu SDK Content Connector

W kolejnych sekcjach opisujemy, jak utworzyć oprogramowanie sprzęgające treści za pomocą pakietu SDK oprogramowania sprzęgającego treści.

Konfigurowanie zależności

Aby korzystać z pakietu SDK, musisz uwzględnić w pliku kompilacji określone zależności. Aby wyświetlić zależności środowiska kompilacji:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Tworzenie konfiguracji oprogramowania sprzęgającego

Każdy łącznik ma plik konfiguracji zawierający parametry używane przez ten łącznik, takie jak identyfikator repozytorium. Parametry są definiowane jako pary klucz-wartość, np. api.sourceId=1234567890abcdef.

Pakiet SDK Google Cloud Search zawiera kilka parametrów konfiguracji dostarczonych przez Google, które są używane przez wszystkie oprogramowania sprzęgające. W pliku konfiguracyjnym musisz zadeklarować te parametry dostarczane przez Google:

W przypadku łącznika treści musisz zadeklarować parametry api.sourceId i api.serviceAccountPrivateKeyFile, ponieważ wskazują one lokalizację repozytorium i klucz prywatny potrzebny do uzyskania dostępu do repozytorium.

W przypadku łącznika tożsamości musisz zadeklarować parametr api.identitySourceId, ponieważ wskazuje on lokalizację zewnętrznego źródła tożsamości. Jeśli synchronizujesz użytkowników, musisz też zadeklarować api.customerId jako unikalny identyfikator konta Google Workspace Twojej firmy.

O ile nie chcesz zastąpić domyślnych wartości innych parametrów dostarczanych przez Google, nie musisz ich deklarować w pliku konfiguracyjnym. Więcej informacji o parametrach konfiguracji udostępnianych przez Google, np. o generowaniu określonych identyfikatorów i kluczy, znajdziesz w artykule Parametry konfiguracji udostępniane przez Google.

Możesz też zdefiniować własne parametry repozytorium, które będą używane w pliku konfiguracyjnym.

Przekazywanie pliku konfiguracji do oprogramowania sprzęgającego

Ustaw właściwość systemową config, aby przekazać plik konfiguracji do łącznika. Podczas uruchamiania łącznika możesz ustawić tę właściwość za pomocą argumentu -D. Na przykład to polecenie uruchamia łącznik za pomocą pliku konfiguracji MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Jeśli ten argument jest nieobecny, pakiet SDK próbuje uzyskać dostęp do domyślnego pliku konfiguracji o nazwie connector-config.properties.

Określanie strategii przeszukiwania

Podstawową funkcją łącznika treści jest przeszukiwanie repozytorium i indeksowanie jego danych. Musisz zastosować strategię przeszukiwania na podstawie rozmiaru i układu danych w repozytorium. Możesz zaprojektować własną strategię lub wybrać jedną z tych implementowanych w pakiecie SDK:

Strategia pełnego przeszukiwania

Strategia pełnego przeszukiwania skanuje całe repozytorium i indeksuje wszystkie elementy. Ta strategia jest często stosowana, gdy masz małą repozytorię i możesz sobie pozwolić na obciążenie związane z pełnym przeszukiwaniem za każdym razem, gdy indeksujesz.

Ta strategia przeszukiwania jest odpowiednia w przypadku małych repozytoriów z głównie statycznymi, niehierarchicznymi danymi. Możesz też użyć tej strategii przeszukiwania, gdy wykrywanie zmian jest trudne lub nieobsługiwane przez repozytorium.

List traversal strategy

Strategia przeszukiwania listy skanuje całe repozytorium, w tym wszystkie węzły podrzędne, określając stan każdego elementu. Następnie oprogramowanie sprzęgające wykonuje drugi pass i indeksuje tylko elementy, które są nowe lub zostały zaktualizowane od czasu ostatniego indeksowania. Ta strategia jest często stosowana do wykonywania przyrostowych aktualizacji istniejącego indeksu (zamiast pełnego przeszukiwania za każdym razem, gdy indeks jest aktualizowany).

Ta strategia przeszukiwania jest odpowiednia, gdy wykrywanie zmian jest trudne lub nieobsługiwane przez repozytorium, gdy masz dane niehierarchiczne i pracujesz z bardzo dużymi zbiorami danych.

Przeglądanie grafu

Strategia przeszukiwania grafu skanuje cały węzeł nadrzędny, aby określić stan każdego elementu. Następnie oprogramowanie sprzęgające wykonuje drugi przejazd i indeksuje tylko te elementy w węźle głównym, które są nowe lub zostały zaktualizowane od czasu ostatniego indeksowania. Na koniec usługa przekazuje wszystkie identyfikatory elementów podrzędnych, a następnie indeksuje elementy w węzłach podrzędnych, które są nowe lub zostały zaktualizowane. Połączenie przechodzi rekurencyjnie przez wszystkie węzły podrzędne, dopóki nie zostaną przetworzone wszystkie elementy. Takie przeszukiwanie jest zwykle używane w przypadku repozytoriów hierarchicznych, w których wyświetlanie wszystkich identyfikatorów nie jest praktyczne.

Ta strategia jest odpowiednia, jeśli masz dane hierarchiczne, które wymagają zindeksowania, np. serię katalogów lub stron internetowych.

Każda z tych strategii przeszukiwania jest implementowana przez klasę łącznika szablonu w pakiecie SDK. Możesz zastosować własną strategię przeszukiwania, ale te szablony znacznie przyspieszą rozwój łącznika. Aby utworzyć łącznik za pomocą szablonu, przejdź do sekcji odpowiadającej Twojej strategii przeszukiwania:

Tworzenie pełnego łącznika przeszukiwania za pomocą klasy szablonu
Tworzenie łącznika do przeszukiwania list za pomocą klasy szablonu
Tworzenie oprogramowania sprzęgającego do przechodzenia po grafie za pomocą klasy szablonu

Tworzenie pełnego łącznika przeszukiwania za pomocą klasy szablonu

Ta sekcja dokumentów odnosi się do fragmentów kodu z pliku FullTraversalSample.

Implementacja punktu wejścia oprogramowania sprzęgającego

Punkt wejścia do łącznika to metoda main(). Głównym zadaniem tej metody jest utworzenie instancji klasy Application i wywołanie jej metody start(), aby uruchomić oprogramowanie sprzęgające.

Zanim wywołasz funkcję application.start(), użyj klasy IndexingApplication.Builder do utworzenia instancji szablonu FullTraversalConnector. Funkcja FullTraversalConnector przyjmuje obiekt Repository, którego metody implementujesz. Ten fragment kodu pokazuje, jak zastosować metodę main():

FullTraversalSample.java

Tworzenie łącznika treści

Tworzenie łącznika treści za pomocą pakietu SDK Content Connector

Konfigurowanie zależności

Maven

Gradle

Tworzenie konfiguracji oprogramowania sprzęgającego

Przekazywanie pliku konfiguracji do oprogramowania sprzęgającego

Określanie strategii przeszukiwania

Tworzenie pełnego łącznika przeszukiwania za pomocą klasy szablonu

Implementacja punktu wejścia oprogramowania sprzęgającego

Zaimplementuj interfejs Repository.

Pobieranie parametrów konfiguracji niestandardowej

Przeprowadź pełne przeszukiwanie

Ustawianie uprawnień dotyczących elementu

Ustawianie metadanych produktu

Tworzenie elementu podlegającego indeksowaniu

Pakowanie każdego indeksowalnego elementu w iteratorze

Następne kroki

Tworzenie łącznika do przechodzenia po listach za pomocą klasy szablonu

Implementacja punktu wejścia oprogramowania sprzęgającego

Zaimplementuj interfejs Repository.

Pobieranie parametrów konfiguracji niestandardowej

Przechodzenie po liście

Przesyłanie identyfikatorów produktów i wartości haszowanych

Pobieranie i przetwarzanie poszczególnych elementów

Obsługa usuniętych elementów

Obsługa niezmienionych elementów

Ustawianie uprawnień dotyczących elementu

Ustawianie metadanych produktu

Tworzenie elementu podlegającego indeksowaniu

Następne kroki

Tworzenie złącza do przeszukiwania grafu za pomocą klasy szablonu

Implementacja punktu wejścia oprogramowania sprzęgającego

Zaimplementuj interfejs Repository.

Pobieranie parametrów konfiguracji niestandardowej

Przechodzenie po grafie

Przesyłanie identyfikatorów produktów i wartości haszowanych

Pobieranie i przetwarzanie poszczególnych elementów

Obsługa usuniętych elementów

Ustawianie uprawnień dotyczących elementu

Ustawianie metadanych produktu

Tworzenie elementu podlegającego indeksowaniu

Umieść identyfikatory podrzędne w kolejce indeksowania Cloud Search

Następne kroki

Tworzenie oprogramowania sprzęgającego treści za pomocą interfejsu API REST

Określanie strategii przeszukiwania

Wdrażanie strategii przeszukiwania i indeksowania elementów

Obsługa zmian w repozytorium

Zaimplementuj interfejs `Repository`.

Zaimplementuj interfejs `Repository`.

Zaimplementuj interfejs `Repository`.