本指南適用對象為 Google Cloud Search Norconex HTTP Collector 索引器外掛程式管理員,也就是負責下載、部署、設定及維護索引器外掛程式的人員。本指南假設您已熟悉 Linux 作業系統、網頁檢索、XML 和 Norconex HTTP Collector 的基本概念。
本指南提供執行索引器外掛程式部署作業相關重要任務的操作說明:
- 下載索引器外掛程式軟體
- 設定 Google Cloud Search
- 設定 Norconex HTTP Collector 和網頁檢索
- 開始網頁檢索並上傳內容
本指南未說明 Google Workspace 管理員必須執行哪些工作,才能將 Google Cloud Search 對應至 Norconex HTTP Collector 索引器外掛程式。如要瞭解這些工作,請參閱「管理第三方資料來源」。
Cloud Search Norconex HTTP Collector 索引器外掛程式的總覽
根據預設,Cloud Search 可探索、建立索引並提供 Google Workspace 產品 (例如 Google 文件和 Gmail) 中的內容。您可以部署 Norconex HTTP Collector (開放原始碼企業級網頁檢索器) 的索引器外掛程式,擴大 Google Cloud Search 的觸及範圍,以便為使用者提供網路內容。
設定屬性檔案
如要讓索引器外掛程式執行網頁檢索,並將內容上傳至索引 API,您必須在本文件的部署步驟中所述的設定步驟中,以索引器外掛程式管理員身分提供特定資訊。
如要使用索引器外掛程式,您必須在兩個設定檔中設定屬性:
{gcs-crawl-config.xml}
:包含 Norconex HTTP Collector 的設定。sdk-configuration.properties
:包含 Google Cloud Search 的設定。
每個檔案中的屬性可讓 Google Cloud Search 索引器外掛程式和 Norconex HTTP Collector 互相通訊。
網頁檢索和內容上傳
填入設定檔後,您就擁有開始網頁檢索所需的設定。Norconex HTTP Collector 會檢索網際網路,找出與其設定相關的文件內容,並將原始二進位檔 (或文字) 版本的文件內容上傳至 Cloud Search 索引 API,以便進行索引,並最終提供給使用者。
支援的作業系統
必須在 Linux 上安裝 Google Cloud Search Norconex HTTP Collector 索引器外掛程式。
支援的 Norconex HTTP Collector 版本
Google Cloud Search Norconex HTTP Collector 索引器外掛程式支援 2.8.0 版。
支援 ACL
索引器外掛程式可透過存取控制清單 (ACL) 控管 Google Workspace 網域中文件的存取權。
如果在 Google Cloud Search 外掛程式設定中啟用預設 ACL (defaultAcl.mode
設為 none
以外的值,並使用 defaultAcl.*
進行設定),索引器外掛程式會先嘗試建立並套用預設 ACL。
如果未啟用預設 ACL,外掛程式會改為將讀取權限授予整個 Google Workspace 網域。
如需 ACL 設定參數的詳細說明,請參閱 Google 提供的連接器參數。
必要條件
部署索引器外掛程式前,請確認您具備下列必要元件:
- 在執行索引器外掛程式的電腦上安裝 Java JRE 1.8
在 Cloud Search 和 Norconex HTTP Collector 之間建立關係時,需要使用下列 Google Workspace 資訊:
- Google Workspace 私密金鑰 (包含服務帳戶 ID)
- Google Workspace 資料來源 ID
通常,網域的 Google Workspace 管理員可以為您提供這些憑證。
部署步驟
如要部署索引器外掛程式,請按照下列步驟操作:
- 安裝 Norconex HTTP Collector 和索引器外掛程式軟體
- 設定 Google Cloud Search
- 設定 Norconex HTTP 收集器
- 設定網頁檢索
- 開始網頁檢索和內容上傳作業
步驟 1:安裝 Norconex HTTP Collector 和索引器外掛程式軟體
- 請前往這個頁面下載 Norconex 提交軟體。
- 將下載的軟體解壓縮至
~/norconex/
資料夾 - 從 GitHub 複製 Commiter 外掛程式。
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
和cd norconex-committer-plugin
- 檢查所需版本的 commiter 外掛程式,並建構 ZIP 檔案:
git checkout tags/v1-0.0.3
和mvn package
(如要在建構連接器時略過測試,請使用mvn package -DskipTests
)。 cd target
- 將已建構的外掛程式 JAR 檔案複製到 norconex lib 目錄。
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- 解壓縮剛建立的 ZIP 檔案:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- 執行安裝指令碼,將外掛程式的 .jar 和所有必要的程式庫複製到 HTTP 收集器的目錄中:
- 變更為上述解壓縮的提交者外掛程式:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- 執行
$ sh install.sh
,並在系統提示時,提供norconex/norconex-collector-http-{version}/lib
的完整路徑做為目標目錄。 - 如果發現重複的 JAR 檔案,請選取
1
選項 (僅當重新命名目標 JAR 後,來源 JAR 的版本高於或等於目標 JAR 時,才會複製來源 JAR)。
- 變更為上述解壓縮的提交者外掛程式:
步驟 2:設定 Google Cloud Search
如要讓索引器外掛程式連線至 Norconex HTTP Collector,並為相關內容建立索引,您必須在 Norconex HTTP Collector 安裝的 Norconex 目錄中建立 Cloud Search 設定檔。Google 建議您將 Cloud Search 設定檔命名為 sdk-configuration.properties
。
這個設定檔必須包含定義參數的鍵/值組合。設定檔至少必須指定下列參數,才能存取 Cloud Search 資料來源。
設定 | 參數 |
資料來源 ID | api.sourceId = 1234567890abcdef
這是必要欄位。Google Workspace 管理員設定的 Cloud Search 來源 ID。 |
服務帳戶 | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
這是必要欄位。Google Workspace 管理員為索引器外掛程式存取權所建立的 Cloud Search 服務帳戶金鑰檔案。 |
以下範例顯示 sdk-configuration.properties
檔案。
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
設定檔也可能包含 Google 提供的設定參數。這些參數可能會影響這個外掛程式將資料推送至 Google Cloud Search API 的方式。舉例來說,batch.*
參數組合會指出連接器如何合併要求。
如果您未在設定檔中定義參數,系統會使用預設值 (如有)。如需各個參數的詳細說明,請參閱「Google 提供的連接器參數」。
您可以設定索引器外掛程式,為要索引的內容填入中繼資料和結構化資料。系統可從要編入索引的 HTML 內容中,擷取中繼資料和結構化資料欄位的值,也可以在設定檔中指定預設值。
設定 | 參數 |
標題 | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
根據預設,外掛程式會使用 HTML title 做為要建立索引的文件標題。如果缺少標題,您可以參考含有與文件標題相對應值的中繼資料屬性,或設定預設值。 |
建立時間戳記 | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
中繼資料屬性,包含文件建立時間戳記的值。 |
上次修改時間 | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
中繼資料屬性,包含文件上次修改時間戳記的值。 |
文件語言 | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
要建立索引的文件內容語言。 |
結構定義物件類型 | itemMetadata.objectType=movie
網站使用的物件類型,如 資料來源結構定義物件定義所定義。如果未指定此屬性,連接器就不會為任何結構化資料建立索引。
注意:這個設定屬性會指向值,而非中繼資料屬性,且不支援 |
日期時間格式
日期時間格式會指定中繼資料屬性中預期的格式。如果設定檔案未包含這個參數,系統會使用預設值。下表列出這個參數。
設定
參數
其他日期時間格式模式
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
以分號分隔的清單,列出其他 java.time.format.DateTimeFormatter 模式。剖析中繼資料或結構定義中任何日期或日期時間欄位的字串值時,會使用這些模式。預設值為空白清單,但系統一律支援 RFC 3339 和 RFC 1123 格式。
步驟 3:設定 Norconex HTTP Collector
ZIP 壓縮檔 norconex-committer-google-cloud-search-{version}.zip
包含範例設定檔 minimum-config.xml
。
Google 建議您先複製範例檔案,再開始設定:
- 變更至 Norconex HTTP Collector 目錄:
$ cd ~/norconex/norconex-collector-http-{version}/
- 複製設定檔:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- 編輯新建立的檔案 (在本例中為
gcs-crawl-config.xml
),並按照下表所述新增或取代現有的<committer>
和<tagger>
節點。
設定 | 參數 |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
必填。如要啟用外掛程式,您必須將 <committer> 節點新增為根層級 <httpcollector> 節點的子項。 |
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
選填。索引器外掛程式將文件內容推送至 Google Cloud Search 索引器 API 的格式。有效值如下:
預設值為 raw 。
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
如果 <UploadFormat> 的值為 raw ,則為必填項目。在這種情況下,索引器外掛程式需要文件的二進位內容欄位。您必須將 BinaryContentTagger <tagger> 節點新增為 <importer> / <preParseHandlers> 節點的子項。 |
以下範例顯示對 gcs-crawl-config.xml
所需的修改。
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
步驟 4:設定網頁檢索
開始檢索網頁前,您必須設定檢索作業,讓檢索作業只包含貴機構希望在搜尋結果中提供的資訊。網頁檢索最重要的設定位於 <crawler>
節點,包括:
- 起始網址
- 檢索的深度上限
- 執行緒數
請根據您的需求變更這些設定值。如要進一步瞭解如何設定網頁檢索,以及可用的設定參數完整清單,請參閱 HTTP 收集器的「Configuration」頁面。
步驟 5:開始網頁檢索和內容上傳作業
安裝並設定索引器外掛程式後,您可以在本機模式下自行執行。
以下範例假設所需元件位於 Linux 系統的本機目錄中。執行下列指令:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
使用 JEF Monitor 監控檢索器
Norconex JEF (工作執行架構) 監控器是一種圖形工具,可用於監控 Norconex 網路檢索器 (HTTP 收集器) 程序和工作進度。如需設定這項實用工具的完整教學課程,請參閱「使用 JEF Monitor 監控檢索器的進度」一文。