このガイドは、Google Cloud Search Norconex HTTP Collector インデクサ プラグインのダウンロード、デプロイ、保守を担当する管理者を対象としています。Linux、ウェブクロールの基礎、XML、Norconex HTTP Collector に精通している必要があります。
このガイドには、次の手順が記載されています。
- インデクサ プラグイン ソフトウェアをダウンロードします。
- Cloud Search を構成します。
- Norconex HTTP Collector とウェブクロールを構成します。
- ウェブクロールを開始してコンテンツをアップロードします。
Google Workspace 管理者が行う必要があるタスクについては、このガイドでは説明しません。これらのタスクについては、サードパーティのデータソースを管理するをご覧ください。
Norconex HTTP Collector インデクサ プラグインの概要
Cloud Search はデフォルトで、Google ドキュメントや Gmail などの Google Workspace プロダクトからコンテンツを検出し、インデックスに登録して提供できます。オープンソースのエンタープライズ ウェブクローラである Norconex HTTP Collector 用のインデクサ プラグインをデプロイすると、ウェブ コンテンツも対象に含めることができます。
構成プロパティ ファイル
プラグインがコンテンツをクロールしてアップロードできるようにするには、次の 2 つの構成ファイルで特定の情報を指定する必要があります。
{gcs-crawl-config.xml}: Norconex HTTP Collector の設定。sdk-configuration.properties: Cloud Search の設定。
ウェブクロールとコンテンツのアップロード
構成ファイルを設定すると、ウェブクロールを開始できます。Norconex HTTP Collector はウェブをクロールし、元のバイナリまたはテキストのドキュメント コンテンツを Cloud Search インデックス API にアップロードします。
システム要件
- オペレーティング システム: Linux のみ。
- Norconex のバージョン: バージョン 2.8.0。
- ソフトウェア: Java JRE 1.8。
ACL のサポート
インデクサ プラグインは、アクセス制御リスト(ACL)をサポートして、Google Workspace ドメイン内のドキュメントへのアクセスを制御します。
プラグイン構成でデフォルトの ACL を有効にすると(defaultAcl.mode が none 以外に設定されている場合)、プラグインはこれらのデフォルトを適用します。それ以外の場合、プラグインはドメイン全体に対する読み取り権限を付与します。Google 提供のコネクタ パラメータをご覧ください。
前提条件
インデクサ プラグインをデプロイする前に、次のコンポーネントを収集します。
- Google Workspace の秘密鍵(サービス アカウント ID を含む)。Cloud Search API へのアクセスを構成するをご覧ください。
- Google Workspace データソース ID。サードパーティのデータソースを管理するをご覧ください。
デプロイ手順を実行する
- Norconex HTTP Collector とプラグイン ソフトウェアをインストールする
- Cloud Search を構成する
- Norconex HTTP Collector を構成する
- ウェブクロールを構成する
- ウェブクロールとコンテンツのアップロードを開始する
ステップ 1: Norconex HTTP Collector とプラグイン ソフトウェアをインストールする
- Norconex のダウンロード ページから Norconex コミッター ソフトウェアをダウンロードします。
- ソフトウェアを
~/norconex/に解凍します。 コミッター プラグインのクローンを作成します。
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-plugin選択したバージョンをチェックアウトして、プラグインをビルドします。
git checkout tags/v1-0.0.3 mvn packageテストをスキップするには、
mvn package -DskipTestsを使用します。JAR ファイルを Norconex の
libディレクトリにコピーします。cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libビルドした ZIP ファイルを抽出します。
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3インストール スクリプトを実行し、Norconex
libディレクトリへのフルパスを指定します。sh install.sh重複ファイルに関するメッセージが表示されたら、オプション
1を選択します。
ステップ 2: Cloud Search を構成する
Norconex ディレクトリに sdk-configuration.properties を作成します。ファイルで次のパラメータを指定する必要があります。
| 設定 | パラメータ |
| データソース ID | api.sourceId = 1234567890abcdef
必須。Google Workspace 管理者から提供されたソース ID。 |
| サービス アカウント | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
必須。サービス アカウント キー ファイル。 |
sdk-configuration.properties の例:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
batch.* などのパラメータを含めて、プラグインがデータをプッシュする方法を制御することもできます。Google 提供のコネクタ パラメータをご覧ください。
メタデータを入力するには、次のオプション パラメータを構成します。
| 設定 | パラメータ |
| タイトル | itemMetadata.title.field=movieTitle |
| スキーマ オブジェクト タイプ | itemMetadata.objectType=movie |
ステップ 3: Norconex HTTP Collector を構成する
このプラグインには、サンプル ファイル minimum-config.xml が含まれています。
Norconex ディレクトリに移動して、サンプルをコピーします。
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlgcs-crawl-config.xmlを編集して、<committer>ノードと<tagger>ノードを追加または置換します。
| 設定 | パラメータ |
<committer> ノード |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
必須。これを <httpcollector> ノードの下に追加します。 |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
省略可。 raw または text。デフォルトは raw です。 |
gcs-crawl-config.xml の例:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ステップ 4: ウェブクロールを構成する
次のように、ニーズに合わせて <crawler> ノードを構成します。
- 開始 URL
- クロールの最大深度
- スレッド数
Norconex の構成ページをご覧ください。
ステップ 5: ウェブクロールとコンテンツのアップロードを開始する
ローカルモードでコレクタを実行します。
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor でクローラをモニタリングする
Norconex JEF(Job Execution Framework)Monitor は、進行状況のグラフィカル ビューを提供します。JEF Monitor でクローラをモニタリングするをご覧ください。