Эта страница переведена с помощью Cloud Translation API.

Развертывание плагина индексатора Apache Nutch

Внимание: эталонные коннекторы Cloud Search предоставляются «как есть» в виде примера кода для использования при создании ваших собственных рабочих коннекторов. Этот пример кода требует существенной настройки и тестирования перед использованием в экспериментальных или производственных средах. Для использования в производственных условиях мы настоятельно рекомендуем обратиться за помощью к одному из наших партнёров Cloud Search. Для получения дополнительной помощи в поиске подходящего партнёра Cloud Search обратитесь к своему менеджеру по работе с клиентами Google.

Вы можете настроить Google Cloud Search для предоставления веб-контента вашим пользователям, развернув плагин индексатора Google Cloud Search для Apache Nutch — веб-сканера с открытым исходным кодом.

При запуске сканирования веб-страниц Apache Nutch сканирует веб-страницы и использует плагин индексатора для загрузки исходных двоичных (или текстовых) версий содержимого документов в API индексирования Google Cloud Search. API индексирования индексирует контент и предоставляет результаты вашим пользователям.

Важные соображения

Системные требования

Системные требования
Операционная система	Только для Linux: Убунту Red Hat Enterprise Linux 5.0 SUSE Enterprise Linux 10 (64-разрядная версия)
Программное обеспечение	Apache Nutch версии 1.15. Программное обеспечение плагина индексатора включает эту версию Nutch. На компьютере, на котором будет работать плагин индексатора, установлена Java JRE 1.8.
Типы документов Apache Tika	Поддерживаемые форматы документов Apache Tika 1.18

Развертывание плагина индексатора

Следующие шаги описывают, как установить плагин индексатора и настроить его компоненты для сканирования указанных URL-адресов и возврата результатов в Cloud Search.

Предпосылки

Перед развертыванием плагина индексатора Cloud Search Apache Nutch соберите информацию, необходимую для подключения Google Cloud Search и источника данных:

Закрытый ключ Google Workspace (содержащий идентификатор учётной записи сервиса). Информацию о получении закрытого ключа см. в статье «Настройка доступа к API Google Cloud Search» .
Идентификатор источника данных Google Workspace. Информацию о получении идентификатора источника данных см. в статье Добавление источника данных для поиска .

Шаг 1: Сборка и установка программного обеспечения плагина и Apache Nutch

Клонируйте репозиторий плагина индексатора с GitHub.

$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git
$ cd apache-nutch-indexer-plugin

Проверьте желаемую версию плагина индексатора:
```
$ git checkout tags/v1-0.0.5
```
Создайте плагин индексатора.
```
$ mvn package
```
Чтобы пропустить тесты при сборке плагина индексатора, используйте mvn package -DskipTests .
Загрузите Apache Nutch 1.15 и следуйте инструкциям по установке Apache Nutch .
Распакуйте архив target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip (создан на шаге 2) в папку. Скопируйте папку plugins/indexer-google-cloudsearch в папку с плагинами установки Apache Nutch ( apache-nutch-1.15/plugins ).

Шаг 2: Настройте плагин индексатора

Чтобы настроить плагин Apache Nutch Indexer, создайте файл с именем plugin-configuration.properties .

В файле конфигурации должны быть указаны следующие параметры, необходимые для доступа к источнику данных Google Cloud Search.

Параметр	Параметр
Идентификатор источника данных	`api.sourceId = 1234567890abcdef` Обязательно. Идентификатор источника Google Cloud Search, который администратор Google Workspace настроил для плагина индексатора.
Учетная запись службы	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Обязательно. Файл ключа учётной записи службы Google Cloud Search, созданный администратором Google Workspace для обеспечения доступности плагина индексатора.

В следующем примере показан образец файла конфигурации с необходимыми параметрами.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Файл конфигурации также может содержать другие параметры, управляющие поведением плагина индексатора. Вы можете настроить, как плагин отправляет данные в API Cloud Search, defaultAcl.* и batch.* . Вы также можете настроить, как плагин индексатора заполняет метаданные и структурированные данные.

Описания этих параметров см. в разделе «Параметры соединителя, предоставленные Google» .

Шаг 3: Настройка Apache Nutch

Откройте conf/nutch-site.xml и добавьте следующие параметры:

Параметр Параметр

Плагин включает в себя

plugin.includes = text

Обязательно. Список используемых плагинов. Должен включать как минимум:

индекс-базовый
индекс-больше
индексатор-google-cloudsearch

conf/nutch-default.xml предоставляет значение по умолчанию для этого свойства, но вы также должны вручную добавить к нему indexer-google-cloudsearch .

Имена метатегов

metatags.names = text

Необязательно. Список тегов, разделенных запятыми, которые соответствуют свойствам в схеме соответствующего источника данных. Подробнее о настройке Apache Nutch для работы с метатегами см. в статье Nutch-parse metatags .

В следующем примере показаны необходимые изменения в nutch-site.xml :

<property>
  <name>plugin.includes</name>
  <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
</property>

Откройте conf/index-writers.xml и добавьте следующий раздел:

<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter">
  <parameters>
    <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/>
  </parameters>
  <mapping>
    <copy />
    <rename />
    <remove />
  </mapping>
</writer>

Раздел <writer> содержит следующие параметры:

Параметр Параметр

Путь к файлу конфигурации Google Cloud Search

gcs.config.file = path

Обязательно. Полный (абсолютный) путь к файлу конфигурации Google Cloud Search.

Формат загрузки

gcs.uploadFormat = text

Необязательный параметр. Формат, в котором плагин индексатора отправляет содержимое документа в API индексатора Google Cloud Search. Допустимые значения:

raw : плагин индексатора отправляет оригинальное, неконвертированное содержимое документа.
text : плагин индексатора отправляет извлеченный текстовый контент. Значение по умолчанию — raw .

Шаг 4: Настройка веб-сканирования

Перед запуском сканирования веб-страниц настройте его так, чтобы оно включало только ту информацию, которую ваша организация хочет видеть в результатах поиска. В этом разделе представлен обзор; для получения дополнительной информации о настройке сканирования веб-страниц см. руководство Nutch .

Настройте начальные URL-адреса.
Начальные URL-адреса определяют, с какой точки веб-сканер Apache Nutch начинает сканирование вашего контента. Они должны позволять веб-сканеру переходить по ссылкам ко всему контенту, который вы хотите включить в сканирование. Начальные URL-адреса обязательны для заполнения.
Чтобы настроить начальные URL-адреса:
1. Измените рабочий каталог на каталог установки nutch:
```
$ cd ~/nutch/apache-nutch-X.Y/
```
2. Создайте каталог для URL-адресов:
```
$ mkdir urls
```
3. Создайте файл с именем seed.txt и перечислите в нем URL-адреса (по одному URL на строку).
Установите правила следования и несоблюдения.
Правила следования URL определяют, какие URL-адреса сканируются и включаются в индекс Google Cloud Search. Веб-сканер проверяет URL-адреса на соответствие правилам следования URL-адресов. Сканируются и индексируются только URL-адреса, соответствующие этим правилам.
Правила «Не следовать» исключают сканирование URL-адресов и включение их в индекс Google Cloud Search. Если URL-адрес содержит шаблон «Не сканировать», веб-сканер его не сканирует.
Чтобы настроить правила следования и неследования URL-адресам:
1. Измените рабочий каталог на каталог установки nutch:
```
$ cd ~/nutch/apache-nutch-X.Y/
```
2. Отредактируйте conf/regex-urlfilter.txt , чтобы изменить правила «следовать/не следовать»: \
```
$ nano conf/regex-urlfilter.txt
```
3. Введите регулярные выражения с префиксом «+» или «-», чтобы следовать/не следовать шаблонам и расширениям URL, как показано в следующих примерах. Допускаются открытые выражения.
```
# skip file extensions
-\.(gif|GIF|jpg|JPG|png|PNG|ico)

# skip protocols (file: ftp: and mailto:)
    -^(file|ftp|mailto):

# allow urls starting with https://support.google.com/gsa/
+^https://support.google.com/gsa/

# accept anything else
# (commented out due to the single url-prefix allowed above)
#+.
```
Отредактируйте сценарий сканирования.
Если параметр gcs.uploadFormat отсутствует или имеет значение «raw», необходимо добавить аргументы « -addBinaryContent -base64 » для передачи команде nutch index . Эти аргументы указывают модулю индексирования Nutch включать двоичный контент в кодировке Base64 при вызове плагина индексирования. Скрипт ./bin/crawl по умолчанию не имеет этих аргументов.
1. Откройте скрипт crawl в apache-nutch-1.15/bin .
2. Добавьте в скрипт параметры -addBinaryContent -base64 , как в следующем примере:
```
      if $INDEXFLAG; then
          echo "Indexing $SEGMENT to index"
          __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT

          echo "Cleaning up index if possible"
          __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb
      else
          echo "Skipping indexing ..."
```

Шаг 5: Запуск сканирования веб-страниц и загрузки контента

После установки и настройки плагина индексатора вы можете запустить его автономно в локальном режиме. Используйте скрипты из ./bin для выполнения задания сканирования или отдельных команд Nutch.

В следующем примере предполагается, что необходимые компоненты находятся в локальном каталоге. Запустите Nutch из каталога apache-nutch-1.15 с помощью следующей команды:

$ bin/crawl -i -s urls/ crawl-test/ 5

Журналы сканирования доступны в стандартном выводе (терминал) или в каталоге logs/ . Чтобы настроить вывод журнала или сделать его более подробным, отредактируйте conf/log4j.properties .