Данное руководство предназначено для администраторов, ответственных за загрузку, развертывание и обслуживание плагина индексатора Norconex HTTP Collector для Google Cloud Search. Вам необходимо быть знакомым с Linux, основами веб-сканирования, XML и Norconex HTTP Collector .
Данное руководство содержит инструкции по:
- Загрузите программное обеспечение плагина индексатора.
- Настройте облачный поиск.
- Настройте сборщик HTTP-запросов Norconex и веб-краулинг.
- Запустите сканирование веб-страниц и загрузите контент.
Информация о задачах, которые должен выполнять администратор Google Workspace, в этом руководстве отсутствует. Дополнительную информацию об этих задачах см. в разделе «Управление сторонними источниками данных» .
Обзор плагина индексатора Norconex HTTP Collector
По умолчанию Cloud Search может обнаруживать, индексировать и предоставлять контент из продуктов Google Workspace, таких как Google Docs и Gmail. Вы можете расширить эту возможность, включив в нее веб-контент, развернув плагин индексатора для Norconex HTTP Collector , веб-краулера с открытым исходным кодом для корпоративного использования.
файлы свойств конфигурации
Для того чтобы плагин мог сканировать и загружать контент, необходимо указать определенную информацию в двух конфигурационных файлах:
-
{gcs-crawl-config.xml}: настройки для Norconex HTTP Collector. -
sdk-configuration.properties: настройки для Cloud Search.
Сканирование веб-сайтов и загрузка контента.
После заполнения конфигурационных файлов можно запустить веб-сканирование . Norconex HTTP Collector сканирует веб-сайты и загружает исходное двоичное или текстовое содержимое документов в API индексирования Cloud Search.
Системные требования
- Операционная система : только Linux.
- Версия Norconex : 2.8.0.
- Программное обеспечение : Java JRE 1.8.
Поддержка ACL
Плагин индексатора поддерживает списки контроля доступа (ACL) для управления доступом к документам в домене Google Workspace.
Если вы включите списки контроля доступа (ACL) по умолчанию в конфигурации плагина ( defaultAcl.mode установить значение, отличное от none ), плагин будет применять эти значения по умолчанию. В противном случае плагин предоставит разрешение на чтение для всего домена. См. параметры коннектора, предоставленные Google .
Предварительные требования
Перед развертыванием плагина индексатора соберите следующие компоненты:
- Закрытый ключ Google Workspace (содержащий идентификатор учетной записи службы). См. раздел «Настройка доступа к API Cloud Search» .
- Идентификатор источника данных Google Workspace. См. раздел «Управление сторонними источниками данных» .
Этапы развертывания
- Установите Norconex HTTP Collector и плагин к нему.
- Настройка облачного поиска
- Настройка сборщика HTTP-запросов Norconex
- Настройка сканирования веб-страниц
- Запустить сканирование веб-страниц и загрузку контента.
Шаг 1: Установите Norconex HTTP Collector и плагин к нему.
- Загрузите программное обеспечение Norconex для управления транзакциями со страницы загрузок Norconex.
- Распакуйте программное обеспечение в папку
~/norconex/. Клонируйте плагин для создания коммитов:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginВыберите нужную вам версию и соберите плагин:
git checkout tags/v1-0.0.3 mvn packageЧтобы пропустить тесты, используйте команду
mvn package -DskipTests.`.Скопируйте JAR-файл в каталог
libкомпании Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libРаспакуйте созданный ZIP-файл:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Запустите скрипт установки и укажите полный путь к каталогу
libкомпании Norconex:sh install.shЕсли появится запрос на поиск дубликатов файлов, выберите вариант
1.
Шаг 2: Настройка облачного поиска
Создайте sdk-configuration.properties в каталоге Norconex. В файле должны быть указаны следующие параметры:
| Параметр | Параметр |
| Идентификатор источника данных | api.sourceId = 1234567890abcdefОбязательно. Идентификатор источника из административной панели вашего рабочего пространства Google. |
| Служебный аккаунт | api.serviceAccountPrivateKeyFile = ./PrivateKey.jsonОбязательно. Файл ключа учетной записи службы. |
Пример файла sdk-configuration.properties :
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Вы также можете добавить параметры, например batch.* , чтобы контролировать способ передачи данных плагином. См. параметры коннектора, предоставленные Google .
Для заполнения метаданных настройте следующие необязательные параметры:
| Параметр | Параметр |
| Заголовок | itemMetadata.title.field= movieTitle |
| Тип объекта схемы | itemMetadata.objectType= movie |
Шаг 3: Настройка сборщика HTTP-запросов Norconex
Плагин включает в себя пример файла minimum-config.xml .
Перейдите в каталог Norconex и скопируйте образец:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlОтредактируйте
gcs-crawl-config.xml, чтобы добавить или заменить узлы<committer>и<tagger>:
| Параметр | Параметр |
<committer> узел | <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">Обязательно. Добавьте это под узел <httpcollector> . |
<uploadFormat> | <uploadFormat>raw</uploadFormat>Необязательно. raw или text . По умолчанию используется raw . |
Пример файла gcs-crawl-config.xml :
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Шаг 4: Настройка веб-сканирования
Настройте узлы <crawler> в соответствии с вашими потребностями, включая:
- Начальные URL-адреса
- Максимальная глубина ползания
- Количество потоков
См. страницу настроек Norconex .
Шаг 5: Запустите сканирование веб-страниц и загрузку контента.
Запустите сборщик данных в локальном режиме:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Отслеживайте работу веб-краулера с помощью JEF Monitor.
Norconex JEF (Job Execution Framework) Monitor предоставляет графическое отображение хода выполнения. См. раздел «Мониторинг вашего веб-краулера с помощью JEF Monitor» .