Развертывание подключаемого модуля индексатора HTTP Collector Norconex

Данное руководство предназначено для администраторов, ответственных за загрузку, развертывание и обслуживание плагина индексатора Norconex HTTP Collector для Google Cloud Search. Вам необходимо быть знакомым с Linux, основами веб-сканирования, XML и Norconex HTTP Collector .

Данное руководство содержит инструкции по:

  • Загрузите программное обеспечение плагина индексатора.
  • Настройте облачный поиск.
  • Настройте сборщик HTTP-запросов Norconex и веб-краулинг.
  • Запустите сканирование веб-страниц и загрузите контент.

Информация о задачах, которые должен выполнять администратор Google Workspace, в этом руководстве отсутствует. Дополнительную информацию об этих задачах см. в разделе «Управление сторонними источниками данных» .

Обзор плагина индексатора Norconex HTTP Collector

По умолчанию Cloud Search может обнаруживать, индексировать и предоставлять контент из продуктов Google Workspace, таких как Google Docs и Gmail. Вы можете расширить эту возможность, включив в нее веб-контент, развернув плагин индексатора для Norconex HTTP Collector , веб-краулера с открытым исходным кодом для корпоративного использования.

файлы свойств конфигурации

Для того чтобы плагин мог сканировать и загружать контент, необходимо указать определенную информацию в двух конфигурационных файлах:

  • {gcs-crawl-config.xml} : настройки для Norconex HTTP Collector.
  • sdk-configuration.properties : настройки для Cloud Search.

Сканирование веб-сайтов и загрузка контента.

После заполнения конфигурационных файлов можно запустить веб-сканирование . Norconex HTTP Collector сканирует веб-сайты и загружает исходное двоичное или текстовое содержимое документов в API индексирования Cloud Search.

Системные требования

  • Операционная система : только Linux.
  • Версия Norconex : 2.8.0.
  • Программное обеспечение : Java JRE 1.8.

Поддержка ACL

Плагин индексатора поддерживает списки контроля доступа (ACL) для управления доступом к документам в домене Google Workspace.

Если вы включите списки контроля доступа (ACL) по умолчанию в конфигурации плагина ( defaultAcl.mode установить значение, отличное от none ), плагин будет применять эти значения по умолчанию. В противном случае плагин предоставит разрешение на чтение для всего домена. См. параметры коннектора, предоставленные Google .

Предварительные требования

Перед развертыванием плагина индексатора соберите следующие компоненты:

Этапы развертывания

  1. Установите Norconex HTTP Collector и плагин к нему.
  2. Настройка облачного поиска
  3. Настройка сборщика HTTP-запросов Norconex
  4. Настройка сканирования веб-страниц
  5. Запустить сканирование веб-страниц и загрузку контента.

Шаг 1: Установите Norconex HTTP Collector и плагин к нему.

  1. Загрузите программное обеспечение Norconex для управления транзакциями со страницы загрузок Norconex.
  2. Распакуйте программное обеспечение в папку ~/norconex/ .
  3. Клонируйте плагин для создания коммитов:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Выберите нужную вам версию и соберите плагин:

    git checkout tags/v1-0.0.3
    mvn package
    

    Чтобы пропустить тесты, используйте команду mvn package -DskipTests .`.

  5. Скопируйте JAR-файл в каталог lib компании Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Распакуйте созданный ZIP-файл:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Запустите скрипт установки и укажите полный путь к каталогу lib компании Norconex:

    sh install.sh
    

    Если появится запрос на поиск дубликатов файлов, выберите вариант 1 .

Шаг 2: Настройка облачного поиска

Создайте sdk-configuration.properties в каталоге Norconex. В файле должны быть указаны следующие параметры:

Параметр Параметр
Идентификатор источника данных api.sourceId = 1234567890abcdef
Обязательно. Идентификатор источника из административной панели вашего рабочего пространства Google.
Служебный аккаунт api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Обязательно. Файл ключа учетной записи службы.

Пример файла sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Вы также можете добавить параметры, например batch.* , чтобы контролировать способ передачи данных плагином. См. параметры коннектора, предоставленные Google .

Для заполнения метаданных настройте следующие необязательные параметры:

Параметр Параметр
Заголовок itemMetadata.title.field= movieTitle
Тип объекта схемы itemMetadata.objectType= movie

Шаг 3: Настройка сборщика HTTP-запросов Norconex

Плагин включает в себя пример файла minimum-config.xml .

  1. Перейдите в каталог Norconex и скопируйте образец:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Отредактируйте gcs-crawl-config.xml , чтобы добавить или заменить узлы <committer> и <tagger> :

Параметр Параметр
<committer> узел <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Обязательно. Добавьте это под узел <httpcollector> .
<uploadFormat> <uploadFormat>raw</uploadFormat>
Необязательно. raw или text . По умолчанию используется raw .

Пример файла gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Шаг 4: Настройка веб-сканирования

Настройте узлы <crawler> в соответствии с вашими потребностями, включая:

  • Начальные URL-адреса
  • Максимальная глубина ползания
  • Количество потоков

См. страницу настроек Norconex .

Шаг 5: Запустите сканирование веб-страниц и загрузку контента.

Запустите сборщик данных в локальном режиме:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Отслеживайте работу веб-краулера с помощью JEF Monitor.

Norconex JEF (Job Execution Framework) Monitor предоставляет графическое отображение хода выполнения. См. раздел «Мониторинг вашего веб-краулера с помощью JEF Monitor» .