Wdrażanie wtyczki Norconex HTTP Collector Indexer

Ten przewodnik jest przeznaczony dla kolektora HTTP kolektora HTTP Google Cloud Search administratorów wtyczek, czyli wszystkich osób odpowiedzialnych za pobieranie, wdrażanie, konfigurowanie i utrzymywanie wtyczki indeksującego. W przewodniku przyjęto, że które znasz, systemy operacyjne Linux, podstawy internetu indeksowanie, XML kolektor HTTP Norconex.

Ten przewodnik zawiera instrukcje wykonywania kluczowych zadań związanych z indeksatorem wdrożenie wtyczki:

  • Pobierz oprogramowanie wtyczki indeksującej
  • Konfigurowanie Google Cloud Search
  • Konfigurowanie kolektora HTTP i indeksowania sieci Norconex
  • Rozpoczynanie indeksowania internetu i przesyłanie treści

Informacje o zadaniach, które musi wykonać administrator Google Workspace wykonaj, aby zmapować Google Cloud Search na wtyczkę indeksującą Norconex HTTP Collector nie jest wymieniony w tym przewodniku. Informacje o tych zadaniach znajdziesz tutaj: Zarządzanie źródłami danych innych firm

Omówienie wtyczki indeksującego kolektor HTTP kolektora HTTP Cloud Search Norconex

Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail; Możesz przedłużyć zasięg Google Cloud Search, który obejmuje wyświetlanie użytkownikom treści internetowych wdrażanie wtyczki indeksującego dla kolektor HTTP Norconex, robota indeksującego witryny open source

Pliki właściwości konfiguracji

Aby umożliwić wtyczce indeksującej przeprowadzanie indeksowania sieci i przesyłanie treści do do interfejsu API indeksowania, jako administrator wtyczki indeksującej podaj określone informacji podczas konfiguracji opisanych w tym dokumencie w Etapy wdrażania.

Aby użyć wtyczki indeksującej, musisz ustawić właściwości w 2 plikach konfiguracji:

  • {gcs-crawl-config.xml} – zawiera ustawienia kolektora HTTP Norconex.
  • sdk-configuration.properties – zawiera ustawienia Google Cloud Search.

Właściwości w każdym pliku włączają wtyczkę indeksującego Google Cloud Search oraz Kolektor HTTP Norconex do komunikacji ze sobą.

Indeksowanie internetu i przesyłanie treści

Po zapełnieniu plików konfiguracji musisz podać ustawień, aby rozpocząć indeksowanie internetu. Indeksowanie kolektora HTTP Norconex wykrywaniem treści dokumentów związanych z ich konfiguracją i przesyła do chmury oryginalne binarne (lub tekstowe) wersje zawartości dokumentu Interfejs Search Indexing API, w którym jest on indeksowany i ostatecznie udostępniany użytkownikom.

Obsługiwany system operacyjny

Musisz zainstalować wtyczkę indeksującą kolektora indeksującego HTTP Norconex w Google Cloud Search w systemie Linux.

Obsługiwana wersja kolektora HTTP Norconex

Wtyczka indeksująca kolektor HTTP kolektora HTTP Google Cloud Search obsługuje wersję 2.8.0.

Obsługa list kontroli dostępu (ACL)

Wtyczka indeksująca obsługuje kontrolę dostępu do dokumentów w domeny Google Workspace przy użyciu list kontroli dostępu (ACL).

Jeśli domyślne listy kontroli dostępu są włączone w konfiguracji wtyczki Google Cloud Search (Parametr defaultAcl.mode został ustawiony na wartość inną niż none i skonfigurowano za pomocą: defaultAcl.*) wtyczka indeksującego najpierw próbuje utworzyć i zastosować domyślną listę kontroli dostępu (ACL).

Jeśli domyślne listy kontroli dostępu nie są włączone, wtyczka przywraca uprawnienia do odczytu. w całej domenie Google Workspace.

Szczegółowy opis parametrów konfiguracji listy kontroli dostępu (ACL) znajdziesz w sekcji Parametry oprogramowania sprzęgającego udostępnione przez Google.

Wymagania wstępne

Przed wdrożeniem wtyczki indeksującego upewnij się, że masz: wymagane komponenty:

  • Środowisko Java JRE 1.8 zainstalowane na komputerze, na którym działa wtyczka indeksująca
  • Informacje Google Workspace wymagane do nawiązania relacji między Cloud Search i kolektor HTTP Norconex:

    Zwykle administrator Google Workspace w domenie może udostępnić te funkcje dane logowania.

Etapy wdrażania

Aby wdrożyć wtyczkę indeksującą, wykonaj te czynności:

  1. Instalowanie oprogramowania Norconex HTTP Collector i wtyczki indeksującej
  2. Konfigurowanie Google Cloud Search
  3. Konfigurowanie kolektora HTTP Norconex
  4. Konfigurowanie indeksowania internetu
  5. Rozpoczynanie indeksowania internetu i przesyłanie treści

Krok 1. Zainstaluj oprogramowanie Norconex HTTP Collector i wtyczki indeksujące

  1. Pobierz oprogramowanie Norconex Commiter ze strony tej stronie.
  2. Rozpakuj pobrane oprogramowanie do folderu ~/norconex/
  3. Sklonuj wtyczkę zatwierdzającą z GitHuba. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git i potem cd norconex-committer-plugin
  4. Sprawdź żądaną wersję wtyczki zatwierdzającego i skompiluj plik ZIP: git checkout tags/v1-0.0.3 i mvn package (aby pominąć testy podczas tworzenia i łącznika, użyj mvn package -DskipTests).
  5. cd target
  6. Skopiuj plik jar wbudowanej wtyczki do katalogu lib norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Rozpakuj właśnie utworzony plik ZIP, a następnie rozpakuj go: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Uruchom skrypt instalacyjny, aby skopiować plik .jar wtyczki i wszystkie wymagane do katalogu kolektora HTTP:
    1. Zmień na wyodrębnioną wtyczkę zatwierdzającą, która została rozpakowana powyżej: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Wykonaj polecenie $ sh install.sh i podaj pełną ścieżkę do norconex/norconex-collector-http-{version}/lib jako wartość docelową katalogu, gdy pojawi się prośba.
    3. W przypadku znalezienia zduplikowanych plików jar wybierz opcję 1 (Kopiuj tylko źródłowy plik Jar) jeśli jest ona wyższa lub taka sama jak wersja docelowa Jar po zmianie nazwy elementu docelowego Jar).

Krok 2. Skonfiguruj Google Cloud Search

Aby wtyczka indeksującego mogła połączyć się z kolektorem HTTP Norconex i zindeksować odpowiednie treści, musisz utworzyć plik konfiguracji Cloud Search w sekcji Katalog Norconex z zainstalowanym kolektorem HTTP Norconex. Zalecenia Google nadanie nazwy plikowi konfiguracji Cloud Search, sdk-configuration.properties

Ten plik konfiguracyjny musi zawierać pary klucz-wartość definiujące parametr. Plik konfiguracji musi określać co najmniej te parametry, które to: niezbędne do uzyskania dostępu do źródła danych Cloud Search.

Ustawienie Parametr
Identyfikator źródła danych api.sourceId = 1234567890abcdef
Wymagane. Identyfikator źródła Cloud Search skonfigurowany przez administratora Google Workspace.
Konto usługi api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wymagane. Plik klucza konta usługi Cloud Search utworzony przez administratora Google Workspace na potrzeby ułatwień dostępu przez wtyczkę indeksującego.

Poniższy przykład zawiera plik sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Plik konfiguracji może też zawierać parametry konfiguracyjne dostarczone przez Google. Te parametry mogą mieć wpływ na to, jak ta wtyczka przekazuje dane do interfejsu Google Cloud Search API. Na przykład zbiór parametrów batch.* określa sposób łączenia żądań przez oprogramowanie sprzęgające.

Jeśli nie zdefiniujesz parametru w pliku konfiguracji, domyślną wartością będzie jeśli jest dostępny. Szczegółowy opis każdego parametru znajdziesz tutaj Parametry oprogramowania sprzęgającego udostępnione przez Google.

Możesz skonfigurować wtyczkę indeksującą tak, aby wypełniła metadane i uporządkowane dane dla indeksowanych treści. Wartości do wypełnienia w przypadku metadanych i uporządkowanych danych mogą być wyodrębniane z metatagów w indeksowanej treści HTML lub wartości domyślne można określić w pliku konfiguracji.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Domyślnie wtyczka używa HTML title jako tytułu indeksowanego dokumentu. Jeśli brakuje tytułu, zapoznaj się z artykułem atrybut metadanych, który zawiera wartość odpowiadającą tytułowi dokumentu lub ustawia wartość domyślną.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atrybut metadanych zawierający wartość sygnatury czasowej utworzenia dokumentu.
Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Atrybut metadanych zawierający wartość sygnatury czasowej ostatniej modyfikacji dokumentu.
Język dokumentów itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Język treści indeksowanych dokumentów.
Typ obiektu schematu itemMetadata.objectType=movie
Typ obiektu używany przez witrynę, zdefiniowany w definicje obiektów schematu źródła danych. Oprogramowanie sprzęgające nie zindeksuje żadnych uporządkowanych danych, jeśli ta właściwość nie jest określona.

Uwaga: ta właściwość konfiguracji wskazuje wartość, niż atrybut metadanych, a .field i sufiksy .defaultValue nie są obsługiwane.

Formaty daty i godziny

Formaty daty i godziny określają formaty, które powinny być stosowane w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, domyślne wartości to: . Ten parametr znajduje się w tabeli poniżej.

Ustawienie

Parametr

Dodatkowe wzorce daty i godziny

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Rozdzielana średnikami lista dodatkowych atrybutów java.time.format.DateTimeFormatter wzorów. Wzorce są używane podczas analizowania wartości ciągu znaków dla dowolnej daty lub daty i godziny w metadanych lub schemacie. Wartością domyślną jest pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Krok 3. Skonfiguruj kolektor HTTP Norconex

Archiwum ZIP norconex-committer-google-cloud-search-{version}.zipzawiera plik przykładowy plik konfiguracji minimum-config.xml.

Google zaleca rozpoczęcie konfiguracji od skopiowania przykładowego pliku:

  1. Przejdź do katalogu kolektora HTTP Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Skopiuj plik konfiguracji:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Zmodyfikuj nowo utworzony plik (w tym przykładzie gcs-crawl-config.xml) i dodaj lub zastąp istniejące węzły <committer> i <tagger> zgodnie z opisem w sekcji tabeli poniżej.
Ustawienie Parametr
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Wymagana. Aby włączyć wtyczkę, musisz dodać węzeł <committer> jako węzeł podrzędny węzła <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opcjonalne. Format, w którym wtyczka indeksującego przekazuje treść dokumentu do interfejsu API indeksującego Google Cloud Search. Prawidłowe wartości to:
  • raw: wtyczka indeksująca przekazuje oryginalną, nieprzekonwertowaną treść dokumentu.
  • text: wtyczka indeksująca przekazuje wyodrębnione treści tekstowe.
.
Wartość domyślna to raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Wymagane, jeśli wartość <UploadFormat> jest raw. W takim przypadku wtyczka indeksującego wymaga, aby w dokumencie było dostępne pole treści binarnej.

Węzeł BinaryContentTagger <tagger> musisz dodać jako element podrzędny węzła <importer> / <preParseHandlers>.

Przykład poniżej pokazuje wymagane modyfikacja do gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Krok 4. Skonfiguruj indeksowanie internetu

Przed rozpoczęciem indeksowania sieci musisz skonfigurować tak, aby obejmowało tylko zawiera informacje, które Twoja organizacja chce udostępnić w wyszukiwarce wyników. Najważniejsze ustawienia indeksowania sieci są częścią <crawler> węzłów i mogą obejmować:

  • Początkowe adresy URL
  • Maksymalna głębokość indeksowania
  • Liczba wątków

Zmień te wartości konfiguracji odpowiednio do swoich potrzeb. Więcej szczegółów informacje na temat konfigurowania indeksowania internetu oraz pełną listę dostępnych można zapoznać się z parametrami kolektora HTTP, Konfiguracja stronę.

Krok 5. Rozpocznij indeksowanie witryny i prześlij treści

Po zainstalowaniu i skonfigurowaniu wtyczki indeksującego możesz ją uruchomić w trybie lokalnym.

W tym przykładzie założono, że wymagane komponenty znajdują się w regionie w systemie Linux. Uruchom to polecenie:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitoruj robota za pomocą JEF Monitor

Norconex JEF (Job Execution Framework) Monitor to narzędzie graficzne do monitorowanie postępu procesów robota Norconex Web Crawler (HTTP Collector) i ofert pracy. Pełny samouczek dotyczący konfigurowania tego narzędzia znajduje się na stronie Monitoruj postępy robota za pomocą narzędzia JEF Monitor.