Norconex HTTP Collector インデクサ プラグインをデプロイする

このガイドは、Google Cloud Search Norconex HTTP Collector インデクサ プラグインのダウンロード、デプロイ、保守を担当する管理者を対象としています。Linux、ウェブクロールの基礎、XML、Norconex HTTP Collector に精通している必要があります。

このガイドには、次の手順が記載されています。

  • インデクサ プラグイン ソフトウェアをダウンロードします。
  • Cloud Search を構成します。
  • Norconex HTTP Collector とウェブクロールを構成します。
  • ウェブクロールを開始してコンテンツをアップロードします。

Google Workspace 管理者が行う必要があるタスクについては、このガイドでは説明しません。これらのタスクについては、サードパーティのデータソースを管理するをご覧ください。

Norconex HTTP Collector インデクサ プラグインの概要

Cloud Search はデフォルトで、Google ドキュメントや Gmail などの Google Workspace プロダクトからコンテンツを検出し、インデックスに登録して提供できます。オープンソースのエンタープライズ ウェブクローラである Norconex HTTP Collector 用のインデクサ プラグインをデプロイすると、ウェブ コンテンツも対象に含めることができます。

構成プロパティ ファイル

プラグインがコンテンツをクロールしてアップロードできるようにするには、次の 2 つの構成ファイルで特定の情報を指定する必要があります。

  • {gcs-crawl-config.xml}: Norconex HTTP Collector の設定。
  • sdk-configuration.properties: Cloud Search の設定。

ウェブクロールとコンテンツのアップロード

構成ファイルを設定すると、ウェブクロールを開始できます。Norconex HTTP Collector はウェブをクロールし、元のバイナリまたはテキストのドキュメント コンテンツを Cloud Search インデックス API にアップロードします。

システム要件

  • オペレーティング システム: Linux のみ。
  • Norconex のバージョン: バージョン 2.8.0。
  • ソフトウェア: Java JRE 1.8。

ACL のサポート

インデクサ プラグインは、アクセス制御リスト(ACL)をサポートして、Google Workspace ドメイン内のドキュメントへのアクセスを制御します。

プラグイン構成でデフォルトの ACL を有効にすると(defaultAcl.modenone 以外に設定されている場合)、プラグインはこれらのデフォルトを適用します。それ以外の場合、プラグインはドメイン全体に対する読み取り権限を付与します。Google 提供のコネクタ パラメータをご覧ください。

前提条件

インデクサ プラグインをデプロイする前に、次のコンポーネントを収集します。

デプロイ手順を実行する

  1. Norconex HTTP Collector とプラグイン ソフトウェアをインストールする
  2. Cloud Search を構成する
  3. Norconex HTTP Collector を構成する
  4. ウェブクロールを構成する
  5. ウェブクロールとコンテンツのアップロードを開始する

ステップ 1: Norconex HTTP Collector とプラグイン ソフトウェアをインストールする

  1. Norconex のダウンロード ページから Norconex コミッター ソフトウェアをダウンロードします。
  2. ソフトウェアを ~/norconex/ に解凍します。
  3. コミッター プラグインのクローンを作成します。

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. 選択したバージョンをチェックアウトして、プラグインをビルドします。

    git checkout tags/v1-0.0.3
    mvn package
    

    テストをスキップするには、mvn package -DskipTests を使用します。

  5. JAR ファイルを Norconex の lib ディレクトリにコピーします。

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. ビルドした ZIP ファイルを抽出します。

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. インストール スクリプトを実行し、Norconex lib ディレクトリへのフルパスを指定します。

    sh install.sh
    

    重複ファイルに関するメッセージが表示されたら、オプション 1 を選択します。

ステップ 2: Cloud Search を構成する

Norconex ディレクトリに sdk-configuration.properties を作成します。ファイルで次のパラメータを指定する必要があります。

設定 パラメータ
データソース ID api.sourceId = 1234567890abcdef
必須。Google Workspace 管理者から提供されたソース ID。
サービス アカウント api.serviceAccountPrivateKeyFile = ./PrivateKey.json
必須。サービス アカウント キー ファイル。

sdk-configuration.properties の例:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

batch.* などのパラメータを含めて、プラグインがデータをプッシュする方法を制御することもできます。Google 提供のコネクタ パラメータをご覧ください。

メタデータを入力するには、次のオプション パラメータを構成します。

設定 パラメータ
タイトル itemMetadata.title.field=movieTitle
スキーマ オブジェクト タイプ itemMetadata.objectType=movie

ステップ 3: Norconex HTTP Collector を構成する

このプラグインには、サンプル ファイル minimum-config.xml が含まれています。

  1. Norconex ディレクトリに移動して、サンプルをコピーします。

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. gcs-crawl-config.xml を編集して、<committer> ノードと <tagger> ノードを追加または置換します。

設定 パラメータ
<committer> ノード <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
必須。これを <httpcollector> ノードの下に追加します。
<uploadFormat> <uploadFormat>raw</uploadFormat>
省略可。raw または text。デフォルトは raw です。

gcs-crawl-config.xml の例:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ステップ 4: ウェブクロールを構成する

次のように、ニーズに合わせて <crawler> ノードを構成します。

  • 開始 URL
  • クロールの最大深度
  • スレッド数

Norconex の構成ページをご覧ください。

ステップ 5: ウェブクロールとコンテンツのアップロードを開始する

ローカルモードでコレクタを実行します。

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor でクローラをモニタリングする

Norconex JEF(Job Execution Framework)Monitor は、進行状況のグラフィカル ビューを提供します。JEF Monitor でクローラをモニタリングするをご覧ください。