Wdrażanie wtyczki Norconex HTTP Collector Indexer

Ten przewodnik jest przeznaczony dla administratorów odpowiedzialnych za pobieranie, wdrażanie i utrzymywanie wtyczki indeksującej Google Cloud Search Norconex HTTP Collector. Musisz znać system Linux, podstawy indeksowania stron internetowych, XML i Norconex HTTP Collector.

W tym przewodniku znajdziesz instrukcje dotyczące:

  • Pobierz oprogramowanie wtyczki indeksującej.
  • Skonfiguruj Cloud Search.
  • Skonfiguruj Norconex HTTP Collector i indeksowanie stron internetowych.
  • Rozpocznij indeksowanie internetu i przesyłanie treści.

Informacje o zadaniach, które musi wykonać administrator Google Workspace, nie są zawarte w tym przewodniku. Więcej informacji o tych zadaniach znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.

Omówienie wtyczki indeksującej Norconex HTTP Collector

Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail. Możesz rozszerzyć to rozwiązanie o treści internetowe, wdrażając wtyczkę indeksującą dla Norconex HTTP Collector, czyli internetowego robota indeksującego typu open source.

Pliki właściwości konfiguracji

Aby wtyczka mogła indeksować i przesyłać treści, musisz podać określone informacje w 2 plikach konfiguracyjnych:

  • {gcs-crawl-config.xml}: ustawienia kolektora HTTP Norconex.
  • sdk-configuration.properties: ustawienia Cloud Search.

Przeszukiwanie internetu i przesyłanie treści

Po wypełnieniu plików konfiguracyjnych możesz rozpocząć indeksowanie sieci. Norconex HTTP Collector indeksuje internet i przesyła oryginalną zawartość dokumentów binarnych lub tekstowych do interfejsu Cloud Search Indexing API.

Wymagania systemowe

  • System operacyjny: tylko Linux.
  • Wersja Norconex: 2.8.0.
  • Oprogramowanie: Java JRE 1.8.

Obsługa ACL

Wtyczka indeksująca obsługuje listy kontroli dostępu (ACL), które umożliwiają kontrolowanie dostępu do dokumentów w domenie Google Workspace.

Jeśli włączysz domyślne listy ACL w konfiguracji wtyczki (defaultAcl.mode ustawione na wartość inną niż none), wtyczka zastosuje te ustawienia domyślne. W przeciwnym razie wtyczka przyznaje uprawnienia do odczytu całej domenie. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.

Wymagania wstępne

Zanim wdrożysz wtyczkę indeksującą, przygotuj te komponenty:

Etapy wdrażania

  1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki
  2. Konfigurowanie Cloud Search
  3. Konfigurowanie narzędzia Norconex HTTP Collector
  4. Konfigurowanie indeksowania internetu
  5. Rozpoczynanie indeksowania internetu i przesyłania treści

Krok 1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki

  1. Pobierz oprogramowanie Norconex committer ze strony pobierania Norconex.
  2. Wyodrębnij oprogramowanie do folderu ~/norconex/.
  3. Sklonuj wtyczkę zatwierdzającą:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Sprawdź wybraną wersję i skompiluj wtyczkę:

    git checkout tags/v1-0.0.3
    mvn package
    

    Aby pominąć testy, użyj mvn package -DskipTests.

  5. Skopiuj plik JAR do katalogu Norconex lib:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Wyodrębnij utworzony plik ZIP:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Uruchom skrypt instalacyjny i podaj pełną ścieżkę do katalogu Norconex lib:

    sh install.sh
    

    Jeśli pojawi się prośba o wybranie duplikatów plików, wybierz opcję 1.

Krok 2. Skonfiguruj Cloud Search

Utwórz plik sdk-configuration.properties w katalogu Norconex. Plik musi zawierać te parametry:

Ustawienie Parametr
Identyfikator źródła danych api.sourceId = 1234567890abcdef
Wymagane. Identyfikator źródła od administratora Google Workspace.
Konto usługi api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wymagane. Plik klucza konta usługi.

Przykładowy element sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Możesz też uwzględnić parametry takie jak batch.*, aby kontrolować sposób przesyłania danych przez wtyczkę. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.

Aby wypełnić metadane, skonfiguruj te opcjonalne parametry:

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
Typ obiektu schematu itemMetadata.objectType=movie

Krok 3. Skonfiguruj Norconex HTTP Collector

Wtyczka zawiera przykładowy plik minimum-config.xml.

  1. Przejdź do katalogu Norconex i skopiuj przykład:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Edytuj gcs-crawl-config.xml, aby dodać lub zastąpić węzły <committer><tagger>:

Ustawienie Parametr
<committer> węzeł <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Wymagane. Dodaj ten węzeł pod węzłem <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Opcjonalnie. raw lub text. Wartość domyślna to raw.

Przykładowy element gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Krok 4. Skonfiguruj indeksowanie sieci

Skonfiguruj węzły <crawler> zgodnie ze swoimi potrzebami, w tym:

  • Początkowe adresy URL
  • Maksymalna głębokość indeksowania
  • Liczba wątków

Zobacz stronę konfiguracji Norconex.

Krok 5. Rozpocznij indeksowanie witryny i przesyłanie treści

Uruchom kolektor w trybie lokalnym:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorowanie indeksowania za pomocą narzędzia JEF Monitor

Monitor Norconex JEF (Job Execution Framework) wyświetla graficzny widok postępu. Zobacz Monitorowanie indeksowania za pomocą narzędzia JEF Monitor.