Ten przewodnik jest przeznaczony dla administratorów odpowiedzialnych za pobieranie, wdrażanie i utrzymywanie wtyczki indeksującej Google Cloud Search Norconex HTTP Collector. Musisz znać system Linux, podstawy indeksowania stron internetowych, XML i Norconex HTTP Collector.
W tym przewodniku znajdziesz instrukcje dotyczące:
- Pobierz oprogramowanie wtyczki indeksującej.
- Skonfiguruj Cloud Search.
- Skonfiguruj Norconex HTTP Collector i indeksowanie stron internetowych.
- Rozpocznij indeksowanie internetu i przesyłanie treści.
Informacje o zadaniach, które musi wykonać administrator Google Workspace, nie są zawarte w tym przewodniku. Więcej informacji o tych zadaniach znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.
Omówienie wtyczki indeksującej Norconex HTTP Collector
Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail. Możesz rozszerzyć to rozwiązanie o treści internetowe, wdrażając wtyczkę indeksującą dla Norconex HTTP Collector, czyli internetowego robota indeksującego typu open source.
Pliki właściwości konfiguracji
Aby wtyczka mogła indeksować i przesyłać treści, musisz podać określone informacje w 2 plikach konfiguracyjnych:
{gcs-crawl-config.xml}: ustawienia kolektora HTTP Norconex.sdk-configuration.properties: ustawienia Cloud Search.
Przeszukiwanie internetu i przesyłanie treści
Po wypełnieniu plików konfiguracyjnych możesz rozpocząć indeksowanie sieci. Norconex HTTP Collector indeksuje internet i przesyła oryginalną zawartość dokumentów binarnych lub tekstowych do interfejsu Cloud Search Indexing API.
Wymagania systemowe
- System operacyjny: tylko Linux.
- Wersja Norconex: 2.8.0.
- Oprogramowanie: Java JRE 1.8.
Obsługa ACL
Wtyczka indeksująca obsługuje listy kontroli dostępu (ACL), które umożliwiają kontrolowanie dostępu do dokumentów w domenie Google Workspace.
Jeśli włączysz domyślne listy ACL w konfiguracji wtyczki (defaultAcl.mode ustawione na wartość inną niż none), wtyczka zastosuje te ustawienia domyślne. W przeciwnym razie wtyczka przyznaje uprawnienia do odczytu całej domenie. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.
Wymagania wstępne
Zanim wdrożysz wtyczkę indeksującą, przygotuj te komponenty:
- Klucz prywatny Google Workspace (zawierający identyfikator konta usługi). Zobacz Konfigurowanie dostępu do interfejsu Cloud Search API.
- Identyfikator źródła danych Google Workspace. Zobacz Zarządzanie zewnętrznymi źródłami danych.
Etapy wdrażania
- Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki
- Konfigurowanie Cloud Search
- Konfigurowanie narzędzia Norconex HTTP Collector
- Konfigurowanie indeksowania internetu
- Rozpoczynanie indeksowania internetu i przesyłania treści
Krok 1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki
- Pobierz oprogramowanie Norconex committer ze strony pobierania Norconex.
- Wyodrębnij oprogramowanie do folderu
~/norconex/. Sklonuj wtyczkę zatwierdzającą:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginSprawdź wybraną wersję i skompiluj wtyczkę:
git checkout tags/v1-0.0.3 mvn packageAby pominąć testy, użyj
mvn package -DskipTests.Skopiuj plik JAR do katalogu Norconex
lib:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libWyodrębnij utworzony plik ZIP:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Uruchom skrypt instalacyjny i podaj pełną ścieżkę do katalogu Norconex
lib:sh install.shJeśli pojawi się prośba o wybranie duplikatów plików, wybierz opcję
1.
Krok 2. Skonfiguruj Cloud Search
Utwórz plik sdk-configuration.properties w katalogu Norconex. Plik musi zawierać te parametry:
| Ustawienie | Parametr |
| Identyfikator źródła danych | api.sourceId = 1234567890abcdef
Wymagane. Identyfikator źródła od administratora Google Workspace. |
| Konto usługi | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wymagane. Plik klucza konta usługi. |
Przykładowy element sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Możesz też uwzględnić parametry takie jak batch.*, aby kontrolować sposób przesyłania danych przez wtyczkę. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.
Aby wypełnić metadane, skonfiguruj te opcjonalne parametry:
| Ustawienie | Parametr |
| Tytuł | itemMetadata.title.field=movieTitle |
| Typ obiektu schematu | itemMetadata.objectType=movie |
Krok 3. Skonfiguruj Norconex HTTP Collector
Wtyczka zawiera przykładowy plik minimum-config.xml.
Przejdź do katalogu Norconex i skopiuj przykład:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdytuj
gcs-crawl-config.xml, aby dodać lub zastąpić węzły<committer>i<tagger>:
| Ustawienie | Parametr |
<committer> węzeł |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Wymagane. Dodaj ten węzeł pod węzłem <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opcjonalnie. raw lub text. Wartość domyślna to raw. |
Przykładowy element gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Krok 4. Skonfiguruj indeksowanie sieci
Skonfiguruj węzły <crawler> zgodnie ze swoimi potrzebami, w tym:
- Początkowe adresy URL
- Maksymalna głębokość indeksowania
- Liczba wątków
Zobacz stronę konfiguracji Norconex.
Krok 5. Rozpocznij indeksowanie witryny i przesyłanie treści
Uruchom kolektor w trybie lokalnym:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorowanie indeksowania za pomocą narzędzia JEF Monitor
Monitor Norconex JEF (Job Execution Framework) wyświetla graficzny widok postępu. Zobacz Monitorowanie indeksowania za pomocą narzędzia JEF Monitor.