Parametry konfiguracji dostarczone przez Google

Każde oprogramowanie sprzęgające ma powiązany plik konfiguracji zawierający parametry używane przez oprogramowanie sprzęgające np. identyfikator repozytorium. Parametry są zdefiniowane w postaci par klucz-wartość, na przykład api.sourceId=1234567890abcdef

Pakiet SDK Google Cloud Search zawiera kilka konfiguracji dostarczonych przez Google z parametrów wykorzystywanych przez różne oprogramowanie sprzęgające. Spośród parametrów konfiguracyjnych dostarczonych przez Google musisz zdefiniować tylko parametry Dostęp do źródła danych . Nie musisz ponownie definiować parametrów dostarczonych przez Google w pliku konfiguracji, chyba że chcesz zastąpić ich wartości domyślne.

W tym artykule opisano parametry konfiguracji dostarczone przez Google.

Przykład pliku konfiguracji

Przykład poniżej przedstawia plik konfiguracji tożsamości z parami klucz-wartość parametrów.

#
# Configuration file sample
#
api.sourceId=1234567890abcdef
api.identitySourceId=0987654321lmnopq
api.serviceAccountPrivateKeyFile= ./PrivateKey.json

#
# Traversal schedules
#
schedule.traversalIntervalSecs=7200
schedule.incrementalTraversalIntervalSecs=600
#
# Default ACLs
#
defaultAcl.mode=fallback
defaultAcl.public=true
  

Często ustawiane parametry

Ta sekcja zawiera listę wymaganych i opcjonalnych często ustawianych parametrów konfiguracji. Jeśli nie chcesz jeśli zmienisz wartości parametrów opcjonalnych, oprogramowanie sprzęgające będzie używać wartości domyślnych udostępniane przez pakiet SDK.

Dostęp do źródła danych

Tabela poniżej zawiera wszystkie parametry, które muszą się pojawić w konfiguracji . Użyte parametry zależą od typu tworzonego oprogramowania sprzęgającego (łącznik treści) lub łącznik tożsamości).

Ustawienie Parametr
Identyfikator źródła danych api.sourceId=1234567890abcdef

Ten parametr jest wymagany przez oprogramowanie sprzęgające do identyfikowania lokalizację repozytorium. Wartość ta jest uzyskiwana po dodało źródło danych do wyszukiwania. Ten parametr musi znajdować się w plikach konfiguracji oprogramowania sprzęgającego.

Identyfikator źródła tożsamości api.identitySourceId=0987654321lmnopq

Ten parametr jest wymagany przez oprogramowanie sprzęgające tożsamości do identyfikowania lokalizację zewnętrznego źródła tożsamości. Ta wartość jest uzyskiwana dzięki zmapuj tożsamości użytkowników w Cloud Search. Ten parametr musi znajdować się we wszystkich plikach konfiguracji oprogramowania sprzęgającego tożsamości.

Plik klucza prywatnego konta usługi api.serviceAccountPrivateKeyFile=./PrivateKey.json

Ten parametr zawiera potrzebny klucz prywatny aby uzyskać dostęp do repozytorium. Ta wartość jest uzyskiwana dzięki skonfigurowany dostęp do Google Cloud Search REST API. Ten parametr musi występować we wszystkich plikach konfiguracji.

Identyfikator konta usługi api.serviceAccountId=123abcdef4567890

Ten parametr określa konto usługi ID. Domyślna wartość pustego ciągu znaków jest dozwolona tylko wtedy, gdy plik konfiguracji określa parametr pliku klucza prywatnego. Ten parametr jest wymagany, jeśli plik z kluczem prywatnym nie jest kluczem JSON.

Identyfikator konta Google Workspace api.customerId=123abcdef4567890

Ten parametr określa identyfikator konta Google Workspace firmy. Udało Ci się uzyskać tę wartość, gdy mapujesz użytkownika tożsamości w Cloud Search. Ten parametr jest wymagany przy synchronizowaniu użytkowników za pomocą łącznik tożsamości.

Główny adres URL api.rootUrl=baseURLPath

Ten parametr określa ścieżkę podstawowego adresu URL usługi indeksowania.

Domyślną wartością tego parametru jest pusty ciąg znaków, który jest konwertowany na https://cloudsearch.googleapis.com

Harmonogramy przemierzania

Parametry planowania określają, jak często oprogramowanie sprzęgające oczekuje między przemierzania stron.

Ustawienie Parametr
Pełne przemierzanie podczas uruchamiania oprogramowania sprzęgającego schedule.performTraversalOnStart=true|false

Oprogramowanie sprzęgające wykonuje pełny przemierzanie podczas uruchamiania oprogramowania sprzęgającego, a nie oczekiwanie na upłynięcie pierwszego interwału. Wartość domyślna to true..

Pełne przemierzanie po interwale schedule.traversalIntervalSecs=intervalInSeconds

Oprogramowanie sprzęgające wykonuje pełne przemierzenie po określonym czasie. Podaj wartość odstępy między przemierzaniami w sekundach. Wartość domyślna to 86400. (liczba sekund w ciągu jednego dnia).

Wyjdź po wykonaniu pojedynczego przemierzania connector.runOnce=true|false

Oprogramowanie sprzęgające uruchamia opcję pełnego przemierzania raz, a następnie zostaje zakończone. Ten parametr powinien ustaw wartość true, jeśli korzystasz ze strategii pełnego przemierzania; lista i wykres wymagają wielu przemierzania, aby wykryć zmiany i zindeksować treść. Domyślny wartość to false (nie wychodź po jednym przemierzaniu).

Przemierzanie przyrostowe po interwale schedule.incrementalTraversalIntervalSecs=intervalInSeconds

Oprogramowanie sprzęgające wykonuje przyrostowe przemierzanie po określonym czasie. Określ interwał między przemierzaniami w sekundach. Wartość domyślna to 300 (liczba sekund z 5 minut).

Interwały zaplanowanych kolejki sondowania schedule.pollQueueIntervalSecs=interval_in_seconds

Odstęp czasu między odstępami między zaplanowanymi kolejkami sondowania (w sekundach). Jest on używany tylko za pomocą oprogramowania sprzęgającego służącego do przemierzania listy. Wartość domyślna to 10..

Listy kontroli dostępu

Oprogramowanie sprzęgające kontroluje dostęp do elementów za pomocą list kontroli dostępu. Wiele parametrów umożliwiają ochronę dostępu użytkowników do zindeksowanych rekordów za pomocą list kontroli dostępu.

Jeśli repozytorium zawiera osobne informacje ACL powiązane z każdym elementem, przesyłać wszystkie informacje z list kontroli dostępu (ACL), aby kontrolować dostęp do produktów w Cloud Search; Jeśli repozytorium zawiera częściowe informacje o kontroli dostępu (ACL) lub nie zawiera ich wcale, możesz podać wartość domyślną, informacje o liście kontroli dostępu (ACL) w poniższych parametrach, które pakiet SDK przekazuje do .

Ustawienie Parametr
Tryb listy kontroli dostępu (ACL) defaultAcl.mode=mode

Określa, kiedy należy zastosować domyślną listę kontroli dostępu. Prawidłowe wartości:

  • none: nie używaj domyślnej listy kontroli dostępu (w tym trybie rekordy są niedostępny do wyszukiwania, chyba że zdefiniujesz indywidualne listy kontroli dostępu (ACL)
  • fallback: domyślna lista kontroli dostępu jest używana tylko wtedy, gdy nie istnieje żadna lista kontroli dostępu (ACL)
  • append: dodawanie domyślnej listy kontroli dostępu (ACL) do istniejącej listy ACL
  • override: zastępowanie istniejącej listy kontroli dostępu (ACL) domyślną listą kontroli dostępu

Tryb domyślny to none.

Domyślna publiczna lista kontroli dostępu (ACL) defaultAcl.public=true|false

Domyślna lista kontroli dostępu używana dla całego repozytorium jest ustawiona na dostęp z domeny publicznej. Wartość domyślna to false. .

Popularni czytelnicy grup ACL defaultAcl.readers.groups=google:group1@mydomain.com, group2
Popularni czytelnicy listy ACL defaultAcl.readers.users=user1, user2, google:user3@mydomain.com
Często odmawiani czytelnicy grup na liście kontroli dostępu (ACL) defaultAcl.denied.groups=group3
Często odmawiani czytelnicy z listy ACL defaultAcl.denied.users=user4, user5
Dostęp do całej domeny Określenie, że każdy indeksowany rekord ma być publicznie dostępny dla każdego użytkownika ustaw w domenie oba te parametry z wartościami:
  • defaultAcl.mode=override
  • defaultACL.public=true
Wspólna zdefiniowana lista kontroli dostępu (ACL) Aby określić jedną listę kontroli dostępu dla każdego rekordu repozytorium danych, ustaw wszystkie następujące wartości parametrów:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1@mydomain.com, group2 code>
  • defaultAcl.readers.users=user1@mydomain.com, user2, google:user3@mydomain.com
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Każdy określony użytkownik i grupa przyjmuje się, że jest to zdefiniowana domena lokalna użytkownik/grupa, chyba że ma prefiks „google:” (dosłownie stała).

    Domyślny użytkownik lub domyślna grupa to pusty ciąg znaków. Podaj tylko parametry użytkownika i grupy jeśli defaultAcl.public ma wartość false. Aby wymienić wiele elementów dla grup i użytkowników – użyj list rozdzielanych przecinkami.

    Jeśli defaultAcl.mode ma wartość none, rekordy są brak możliwości wyszukiwania bez zdefiniowanych list kontroli dostępu.

Parametry konfiguracji metadanych

Część metadanych elementu można skonfigurować. Oprogramowanie sprzęgające może ustawiać konfigurowalne pola metadanych podczas indeksowanie. Jeśli oprogramowanie sprzęgające nie ustawi pola, używane są parametry z pliku konfiguracji aby skonfigurować pole.

Plik konfiguracji zawiera serię nazwanych parametrów konfiguracji metadanych wskazywanych przez sufiks .field, taki jak itemMetadata.title.field=movieTitle Jeśli występuje wartość dla tych służy do konfigurowania pola metadanych. Jeśli nie ma wartości dla parametru nazwany parametr metadanych, metadane są konfigurowane za pomocą parametru z .defaultValue).

W tabeli poniżej znajdziesz parametry konfiguracji metadanych.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Tytuł elementu. Jeśli title.field nie ma podanej wartości, wartość parametru Używana jest wartość title.defaultValue.
URL repozytorium źródłowego itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Adres URL elementu używany w wynikach wyszukiwania. Możesz po prostu ustawić defaultValue tak, aby zawieszał Adres URL całego repozytorium, na przykład jeśli dane przedstawiciela są w pliku CSV i jest tylko jeden Adres URL każdego elementu. Jeśli sourceRepositoryUrl.field nie jest ustawiony jako wartości, zostaje użyta wartość sourceRepositoryUrl.defaultValue.
Nazwa kontenera itemMetadata.containerName.field=containerName
itemMetadata.containerName.defaultValue=myDefaultContainerName
Nazwa kontenera elementu, na przykład nazwa katalogu lub folderu systemu plików. Jeśli containerName.field nie jest ustawiony na wartość, wartość dla Używana jest wartość containerName.defaultValue.
Typ obiektu itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie
Typ obiektu używany przez oprogramowanie sprzęgające, zgodnie z definicją w schemat. Jeśli ta właściwość nie jest określona, oprogramowanie sprzęgające nie zindeksuje żadnych uporządkowanych danych.
Jeśli objectType.field nie ma określonej wartości, wartość parametru Używana jest wartość objectType.defaultValue.
Czas utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Sygnatura czasowa utworzenia dokumentu. Jeśli createTime.field nie ma określonej wartości, w kolumnie została użyta wartość createTime.defaultValue.
Czas aktualizacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Sygnatura czasowa ostatniej modyfikacji elementu. Jeśli updateTime.field nie jest ustawiony na zostanie użyta wartość updateTime.defaultValue.
Język treści itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Język treści indeksowanych dokumentów. Jeśli contentLanguage.field nie jest ustawiona na wartość, używana jest wartość contentLanguage.defaultValue.
Typ MIME itemMetadata.mimeType.field=mimeType
itemMetadata.mimeType.defaultValue=image/bmp
Oryginalny typ MIME elementu ItemContent.content w repozytorium źródłowym. Maksymalna długość to 256 znaków. Jeśli mimeType.field nie ma określonej wartości, wartość parametru Używana jest wartość mimeType.defaultValue.
Metadane jakości wyszukiwania itemMetadata.searchQualityMetadata.quality.field=quality
itemMetadata.searchQualityMetadata.quality.defaultValue=1
Wskaźnik jakości produktu, który wpływa na jakość wyszukiwania. Wartość powinna być od 0,0 (najniższa jakość) do 1,0 (najwyższa jakość). Wartością domyślną jest 0,0. Jeśli quality.field nie jest ustawiony na wartość, dla Używana jest wartość quality.defaultValue.
Hasz itemMetadata.hash.field=hash
itemMetadata.hash.defaultValue=f0fda58630310a6dd91a7d8f0a4ceda2
Wartość haszowania dostarczona przez wywołujący interfejs API. Tej opcji można używać z Metoda items.push do obliczania stanu zmodyfikowanego. Maksymalna długość to 2048 znaków znaków. Jeśli hash.field nie ma podanej wartości, wartość parametru Używana jest wartość hash.defaultValue.

Formaty daty i godziny

Formaty daty i godziny określają formaty, które powinny być stosowane w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Ten parametr znajduje się w tabeli poniżej.

Ustawienie Parametr
Dodatkowe formaty daty i godziny structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Rozdzielana średnikami lista dodatkowych pól java.time.format.DateTimeFormatter wzorów. Wzorce są używane podczas analizowania wartości ciągu znaków w przypadku dowolnych pól daty lub daty i godziny w metadanych lub schemacie. Wartość domyślna to pusta lista, ale RFC 3339 i RFC 1123 są zawsze obsługiwane.

Uporządkowane dane

Interfejs Cloud Search Indexing API udostępnia usługę schematu, której można użyć do dostosować sposób indeksowania i udostępniania danych przez Cloud Search. Jeśli używasz schemat lokalnego repozytorium, musisz określić uporządkowane dane lokalnie nazwę schematu.

Ustawienie Parametr
Nazwa schematu lokalnego structuredData.localSchema=mySchemaName

Nazwa schematu jest odczytywana ze źródła danych i używana jako repozytorium danych strukturalnych.

Wartość domyślna to pusty ciąg znaków.

Jakość treści i wyszukiwania

W przypadku repozytoriów zawierających zawartość rekordów lub pól (takich jak system CRM, CVS lub lub bazy danych), pakiet SDK umożliwia automatyczne formatowanie HTML pól danych. Twoje oprogramowanie sprzęgające definiuje pola danych na początku jego wykonywania, a także korzysta z szablonu treści, aby sformatować każdy rekord danych przed jego przesłaniem do Cloud Search.

Szablon treści określa znaczenie każdej wartości pola w kontekście wyszukiwania. Komponent HTML <title> jest wymagane i ma zdefiniowany najwyższy priorytet. Dostępne opcje określ poziomy ważności jakości wyszukiwania dla wszystkich pozostałych pól treści: wysokim, średnim lub niskim. Dowolne pole treści niezdefiniowane w określonej kategorii domyślnie ma niski priorytet.

Ustawienie Parametr
Tytuł HTML zawartości contentTemplate.templateName.title=myTitleField

Tytuł HTML treści i pole najwyższej jakości wyszukiwania. Ten parametr jest wymagany tylko wtedy, gdy korzystasz z szablonu treści HTML. Wartość domyślna jest pusta ciągu znaków.

Wysoka jakość wyszukiwania w polach treści contentTemplate.templateName.quality.high=hField1,hField2

Pola treści o wysokim priorytecie wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Średnia jakość wyszukiwania w przypadku pól treści contentTemplate.templateName.quality.medium=mField1,mField2

Pola treści otrzymały średni priorytet wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Niska jakość wyszukiwania w polach treści contentTemplate.templateName.quality.low=lField1,lField2

Pola treści o niskim priorytecie wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Nieokreślone pola treści contentTemplate.templateName.unmappedColumnsMode=value

Jak oprogramowanie sprzęgające obsługuje nieokreślone pola treści. Prawidłowe wartości to:

  • APPEND – do szablonu możesz dołączyć nieokreślone pola treści.
  • IGNORE – ignoruj nieokreślone pola treści

    Wartością domyślną jest APPEND.

Uwzględnij nazwy pól w szablonie HTML contentTemplate.templateName.includeFieldName=true|false

Określa, czy wraz z danymi pól mają być uwzględniane nazwy pól w kodzie HTML szablon. Wartość domyślna to true, dzięki czemu nazwy pól są dostępne do przeszukiwania jako część danych o treści.

Rzadko ustawiane parametry

Rzadko trzeba ustawiać parametry wymienione w tej sekcji. Wartości domyślne tych parametrów to: aby zapewnić optymalną wydajność. Google nie zaleca ustawiania tych parametrów na wartości inne niż domyślne, bez określonych wymagań w z repozytorium.

Konfiguracja serwera proxy

Pakiet SDK umożliwia skonfigurowanie oprogramowania sprzęgającego tak, aby używało serwera proxy na potrzeby połączeń wychodzących.

Parametry transport.proxy.hostname i transport.proxy.port są wymagane do włączenia transportu przez serwer proxy. Inne parametry mogą być wymagane jeśli Twój serwer proxy wymaga uwierzytelniania lub korzysta z protokołu SOCKS zamiast HTTP. Jeśli Nie skonfigurowano transport.proxy.hostname, pakiet SDK nie będzie używać serwera proxy.

Ustawienie Parametr
Nazwa hosta transport.proxy.hostname=hostname

Nazwa hosta serwera proxy. Ten parametr jest wymagany przy korzystaniu z serwera proxy.

Port transport.proxy.port=port

Numer portu serwera proxy. Ten parametr jest wymagany przy korzystaniu z serwera proxy.

Typ serwera proxy transport.proxy.type=type

Typ serwera proxy. Prawidłowe wartości to:

  • HTTP – serwer proxy akceptuje i przekazuje żądania przez HTTP.
  • SOCKS – serwer proxy akceptuje i przekazuje pakiety przez protokół SOCKS.

Wartością domyślną jest HTTP.

Nazwa użytkownika transport.proxy.username=username

Nazwa użytkownika, która ma być używana podczas tworzenia tokena autoryzacji serwera proxy. Ten parametr jest opcjonalny i należy go ustawiać tylko wtedy, gdy serwer proxy wymaga uwierzytelniania.

Hasło transport.proxy.password=password

Hasło, które ma być używane podczas tworzenia tokena autoryzacji serwera proxy. Ten parametr jest opcjonalny i należy go ustawiać tylko wtedy, gdy serwer proxy wymaga uwierzytelniania.

Trawersery

Pakiet SDK umożliwia określenie wielu indywidualnych modułów przemierzających, które dopuszczają równoległe przemierzanie repozytorium danych. Oprogramowanie sprzęgające szablonu SDK używa tego funkcji.

Ustawienie Parametr
Rozmiar puli wątków traverse.threadPoolSize=size

Liczba wątków, które tworzy oprogramowanie sprzęgające, aby umożliwić przetwarzanie równoległe. O pojedynczy iterator pobiera operacje szeregowo (zwykle obiekty RepositoryDoc). ale API wywołuje procesy równolegle z użyciem tej liczby wątków.

Wartością domyślną jest 5.

Rozmiar partycji traverse.partitionSize=batchSize

Liczba: ApiOperation() ma zostać przetworzony partiami przed pobraniem dodatkowych APIOperation.

Wartością domyślną jest 50.

Żądania ankiety w usłudze Traverser

Głównym elementem kolejki indeksowania w Cloud Search jest kolejka priorytetowa zawierająca dla każdego elementu, o którym wiemy, że istnieje. Oprogramowanie sprzęgające do wyświetlania informacji może poprosić o przeprowadzenie sondowania elementów z interfejsu API indeksowania. Żądanie ankiety otrzymuje wpisy o najwyższym priorytecie z kolejki indeksowania.

Te parametry są używane przez szablon oprogramowania sprzęgającego z informacjami o pakiecie SDK do określić parametry sondowania.

Ustawienie Parametr
Przemierzanie repozytorium repository.traversers=t1, t2, t3, ...

Tworzy jeden lub więcej pojedynczych elementów przemierzających, gdzie t1, t2, t3, ... to unikalna nazwa każdego z tych elementów. Każdy nazwany przemierza ma własny zestaw ustawień które są rozpoznawane dzięki unikalnej nazwie użytkownika przemierzającego, np. traversers.t1.hostload i traversers.t2.hostload.

Kolejka do wypełnienia ankiety traverser.pollRequest.queue=mySpecialQueue

Kolejka nazw sondowanych przez ten traverser. Wartością domyślną jest pusty ciąg znaków (oznacza „domyślna”).

traverser.t1.pollRequest.queue=mySpecialQueue

Jeśli masz wielu przemierzających, ustaw stan elementów dla każdego z nich (gdzie t1 oznacza konkretny użytkownik).

Sposób uczestnictwa w ankietach traverser.pollRequest.limit=maxItems

Maksymalna liczba elementów do zwrócenia z żądania odpytywania. Wartość domyślna to 0 (oznacza maksymalną wartość interfejsu API).

traverser.t1.pollRequest.limit=limit

Jeśli masz wielu przemierzających, ustaw stan elementów dla każdego z nich (gdzie t1 oznacza konkretny użytkownik).

Stan elementu traverser.pollRequest.statuses=statuses

Stany konkretnego elementu ankietowane przez tę usługę, przy czym statuses może mieć wartość dowolna kombinacja wartości MODIFIED, NEW_ITEM (rozdzielone przecinkami). Wartość domyślna to pusty ciąg znaków (oznacza wszystkie wartości stanu).

traverser.t1.pollRequest.statuses=statusesForThisTraverser

Jeśli masz wiele elementów przemierzających, ustaw stan każdego z nich (gdzie t1, reprezentuje konkretny traverser).

Obciążenie hosta traverser.hostload=threads

Maksymalna liczba aktywnych równoległych wątków dostępnych do odpytywania. Domyślny wartość to 5.

traverser.t1.hostload=threadsForThisTraverser

Jeśli masz wiele elementów przemierzających, ustaw stan każdego z nich (gdzie t1, reprezentuje konkretny traverser).

Czas oczekiwania traverser.timeout=timeout

Wartość czasu oczekiwania na przerwanie tej próby sondowania z przemierzaniem.

Wartością domyślną jest 60.

traverser.t1.timeout=timeoutForThisTraverser

Jeśli masz wiele elementów przemierzających, ustaw stan każdego z nich (gdzie t1, reprezentuje konkretny traverser).

traverser.timeunit=timeoutUunit

Jednostki czasu oczekiwania. Prawidłowe wartości to SECONDS, MINUTES,

traverser.t1.timeunit=timeoutUnit

Jeśli masz wiele elementów przemierzających, ustaw stan każdego z nich (gdzie t1, reprezentuje konkretny traverser).

W większości przypadków oprogramowanie sprzęgające korzystające z pakietu SDK wyświetla tylko szablon oprogramowania sprzęgającego wymaga jednego zestawu parametrów do odpytywania. W niektórych przypadkach konieczne może być wykonanie tych czynności: zdefiniować więcej niż jedno kryterium sondowania, jeśli algorytm przemierzania wymaga rozdzielając przetwarzanie produktów na przykład za pomocą różnych kolejek.

W tym przypadku możesz zdefiniować wiele zestawów ankiet . Zacznij od podania nazw zestawów parametrów za pomocą repository.traversers Dla każdej zdefiniowanej nazwy przemierzania podaj parametr z parametrami z tabeli powyżej i zastąpieniem t1 z nazwą przemierzającego. Spowoduje to utworzenie zestawu ankiet dla każdego zdefiniowanego przemierzania.

Punkty kontrolne

Punkt kontrolny jest przydatny do śledzenia stanu przemierzania przyrostowego.

Ustawienie Parametr
Katalog punktów kontrolnych connector.checkpointDirectory=/path/to/checkpoint

Określa ścieżkę do katalogu lokalnego, która ma być używana na potrzeby przyrostowych i pełnych punktów kontrolnych przemierzania.

Przesłane treści

Treść elementu jest przesyłana do Cloud Search razem z nim, gdy rozmiar treści nie przekracza określonego progu. Jeśli rozmiar treści przekroczy próg, treść zostanie przesłana niezależnie od metadanych i uporządkowanych danych.

Ustawienie Parametr
Próg treści api.contentUploadThresholdBytes=bytes

Próg dla treści, który określa, czy jest ona przesyłana „bezpośrednio” z produktu w porównaniu z osobnym przesyłaniem.

Wartość domyślna to 100000 (ok. 100 KB).

Kontenery

Pełny szablon oprogramowania sprzęgającego wykorzystuje algorytm uwzględniający koncepcję przełącznik kolejki źródła danych służący do wykrywania usuniętych rekordów w bazie danych. Oznacza to, że po każdym pełnym przemierzaniu pobrane rekordy, które znajdują się w nowa kolejka, zastąp wszystkie rekordy Cloud Search zindeksowane które znajdują się w starej kolejce.

Ustawienie Parametr
Tag nazwy kontenera traverse.queueTag=instance

Równoległe uruchamianie wielu instancji oprogramowania sprzęgającego w celu indeksowania wspólnych danych (w różnych repozytoriach danych lub osobnych częściach wspólnego repozytorium danych), bez ingerencji w siebie, przypisz osobny kontener tag nazwy przy każdym uruchomieniu oprogramowania sprzęgającego. Unikalny tag nazwy uniemożliwia oprogramowanie sprzęgającemu przed usunięciem rekordów innego użytkownika.

Tag nazwy jest dołączany do identyfikatora kolejki przełącznika pełnego przemierzania.

Wyłącz wykrywanie usuwania traverse.useQueues=true|false

Wskazuje, czy oprogramowanie sprzęgające używa logiki przełączania kolejki do wykrywania usuwania.

Wartością domyślną jest true, która określa, że kolejki powinny być .

Uwaga: ten parametr konfiguracji ma zastosowanie tylko do oprogramowania sprzęgającego zaimplementuję szablon FullTraversalConnector.

Zasada wsadowa

Pakiet SDK obsługuje zasady wsadowe, dzięki którym możesz: czynności:

  • Żądania zbiorcze
  • Określanie liczby żądań w kolejce wsadowej
  • Zarządzaj jednocześnie wykonywanymi wsadami
  • Opróżnianie żądań zbiorczych

Pakiet SDK grupuje żądania oprogramowania sprzęgającego, aby zwiększyć przepustowość przesłanych plików. Wyzwalacz SDK do przesyłania partii żądań jest liczby żądań lub limitu czasu, zależnie od tego, co nastąpi wcześniej. Na przykład, jeśli plik czas opóźnienia zbiorczego minął bez osiągnięcia rozmiaru wsadu lub jeśli liczba elementów w wsadzie zostanie osiągnięta przed upływem czasu opóźnienia, a następnie rozpocznie się przesyłanie zbiorcze.

Ustawienie Parametr
Żądania zbiorcze batch.batchSize=batchSize

Zbiorcze żądania. Wartością domyślną jest 10.

Liczba żądań w kolejce wsadowej batch.maxQueueLength=maxQueueLength

Maksymalna liczba żądań w kolejce wsadowej do wykonania. Wartość domyślna to 1000..

Równoczesne wykonywanie wsadów batch.maxActiveBatches=maxActiveBatches

Liczba dozwolonych równocześnie wykonywanych wsadów. Wartością domyślną jest 20.

Automatycznie opróżniaj żądania zbiorcze batch.maxBatchDelaySeconds=maxBatchDelay

Liczba sekund oczekiwania przed żądaniami grupowymi automatycznie opróżniono. wartość domyślna to 5.

Opróżnianie żądań zbiorczych przy wyłączaniu batch.flushOnShutdown=true|false

Opróżniaj żądania zbiorcze podczas wyłączania usługi. Wartość domyślna to true.

Moduły obsługi wyjątków

Parametry modułów obsługi wyjątków określają sposób, w jaki przemierza się po nim element napotka wyjątek.

Ustawienie Parametr
Instrukcja Traverser w przypadku błędu traverse.exceptionHandler=exceptions

Sposób, w jaki ma być wykonywane przemierzanie po zgłoszeniu wyjątku. Prawidłowe wartości to:

  • 0 – zawsze przerywaj przemierzanie po napotkaniu wyjątku
  • num_exceptions (na przykład 10) – przerwie po przemierzaniu napotyka określony element num_exceptions.

    Wartością domyślną jest 0 (zawsze przerywane w przypadku błędu).

  • ignore – zignoruj błąd.
Czas oczekiwania między wyjątkami abortExceptionHander.backoffMilliSeconds=backoff

Czas do ponowienia w milisekundach między wykrytymi wyjątkami modułu obsługi (zwykle używane podczas przemierzania repozytorium). Wartością domyślną jest 10.