部署 Norconex HTTP 收集器索引工具外掛程式

本指南適用於 Google Cloud Search Norconex HTTP 收集器索引器外掛程式管理員,也就是負責下載、部署、設定和維護索引工具外掛程式的使用者。本指南假設您熟悉 Linux 作業系統、網頁檢索的基礎知識、XML 和 Norconex HTTP Collector

本指南說明如何執行與索引器外掛程式部署相關的重要工作:

  • 下載索引工具外掛程式軟體
  • 設定 Google Cloud Search
  • 設定 Norconex HTTP 收集器和網路檢索
  • 開始檢索及上傳內容

本指南中不會顯示 Google Workspace 管理員將 Google Cloud Search 對應至 Norconex HTTP 收集器索引器外掛程式所需的工作相關資訊。如要瞭解這些工作,請參閱「管理第三方資料來源」。

Cloud Search Norconex HTTP 收集器索引器外掛程式總覽

根據預設,Cloud Search 可以探索 Google Workspace 產品 (例如 Google 文件和 Gmail) 的內容,並為這些內容建立索引。您可以部署開放原始碼企業網路檢索器 Norconex HTTP Collector 的索引器外掛程式,擴大 Google Cloud Search 的應用範圍,包括向使用者提供網頁內容。

設定屬性檔案

如要啟用索引工具外掛程式執行網路檢索,並將內容上傳至 indexing API,您 (索引工具外掛程式管理員) 必須在本文所述的部署步驟中提供具體資訊。

如要使用索引工具外掛程式,您必須在兩個設定檔中設定屬性:

  • {gcs-crawl-config.xml}:包含 Norconex HTTP 收集器的設定。
  • sdk-configuration.properties:包含 Google Cloud Search 的設定。

每個檔案中的屬性可讓 Google Cloud Search 索引器外掛程式與 Norconex HTTP Collector 相互通訊。

網頁檢索與內容上傳

填入設定檔後,您將具有啟動網路檢索的必要設定。Norconex HTTP Collector 會檢索網路,找出與設定相關的文件內容,並將文件內容的原始二進位 (或文字) 版本上傳至 Cloud Search 索引 API,並透過該 API 建立索引,最後提供給使用者使用。

支援的作業系統

您必須在 Linux 上安裝 Google Cloud Search Norconex HTTP Collector 索引器外掛程式。

支援的 Norconex HTTP 收集器版本

Google Cloud Search Norconex HTTP Collector 索引器外掛程式支援 2.8.0 版。

ACL 支援

索引器外掛程式支援使用存取控制清單 (ACL),控管 Google Workspace 網域中的文件存取權。

如果 Google Cloud Search 外掛程式設定中啟用預設 ACL (設為 none 以外的 defaultAcl.mode,並以 defaultAcl.* 設定),索引工具外掛程式會先嘗試建立和套用預設 ACL。

如未啟用預設 ACL,外掛程式會改回將讀取權限授予整個 Google Workspace 網域。

如需 ACL 設定參數的詳細說明,請參閱 Google 提供的連接器參數

必要條件

在部署索引工具外掛程式之前,請確認您具備下列必要元件:

  • 已在執行索引工具外掛程式的電腦上安裝 Java JRE 1.8
  • 建立 Cloud Search 與 Norconex HTTP 收集器之間的關係所需的 Google Workspace 資訊:

    一般來說,網域的 Google Workspace 管理員可以為您提供這些憑證。

部署步驟

如要部署索引工具外掛程式,請按照下列步驟操作:

  1. 安裝 Norconex HTTP Collector 和索引器外掛程式軟體
  2. 設定 Google Cloud Search
  3. 設定 Norconex HTTP 收集器
  4. 設定網路檢索
  5. 開始檢索網頁和上傳內容

步驟 1:安裝 Norconex HTTP 收集器和索引器外掛程式軟體

  1. 這個頁面下載 Norconex 修訂工具軟體。
  2. 將下載的軟體解壓縮至 ~/norconex/ 資料夾
  3. 從 GitHub 複製修訂版本工具外掛程式。git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git,之後是 cd norconex-committer-plugin
  4. 查看所需的修訂版本工具外掛程式版本,並建構 ZIP 檔案:git checkout tags/v1-0.0.3mvn package (如要在建構連接器時略過測試,請使用 mvn package -DskipTests)。
  5. cd target
  6. 將建構的外掛程式 jar 檔案複製到 norconex lib 目錄中。 cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. 擷取剛建構的 ZIP 檔案,然後解壓縮檔案:unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. 執行安裝指令碼,將外掛程式的 .jar 和所有必要的程式庫複製到 http 收集器的目錄中:
    1. 變更為從上述步驟解壓縮的已擷取修訂版本工具外掛程式:cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. 出現提示時,請執行 $ sh install.sh,並提供指向 norconex/norconex-collector-http-{version}/lib完整路徑做為目標目錄。
    3. 找到重複的 jar 檔案時,請選取選項 1 (重新命名目標 Jar 之後,如果目標 Jar 版本大於或等於目標 Jar,才需複製來源 Jar)。

步驟 2:設定 Google Cloud Search

如要讓索引器外掛程式連線至 Norconex HTTP 收集器,並為相關內容建立索引,您必須在安裝 Norconex HTTP Collector 的 Norconex 目錄中建立 Cloud Search 設定檔。Google 建議您將 Cloud Search 設定檔命名為 sdk-configuration.properties

這個設定檔必須包含定義參數的鍵/值組合。設定檔至少必須指定下列參數,這是存取 Cloud Search 資料來源的必要參數。

設定 參數
資料來源 ID api.sourceId = 1234567890abcdef
這是必要欄位。Google Workspace 管理員設定的 Cloud Search 來源 ID。
服務帳戶 api.serviceAccountPrivateKeyFile = ./PrivateKey.json
這是必要欄位。Google Workspace 管理員為索引器外掛程式無障礙功能建立的 Cloud Search 服務帳戶金鑰檔案。

以下範例為 sdk-configuration.properties 檔案。

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

設定檔中也可以包含 Google 提供的設定參數。這些參數會影響這個外掛程式將資料推送至 Google Cloud Search API 的方式。例如,batch.* 參數組合可識別連接器合併要求的方式。

如果您未在設定檔中定義參數,系統會使用預設值 (如有)。如需每個參數的詳細說明,請參閱 Google 提供的連接器參數

您可以設定索引工具外掛程式,為要建立索引的內容填入中繼資料和結構化資料。您可以從已建立索引的 HTML 內容中繼標記中擷取要填入中繼資料和結構化資料欄位的值,或是在設定檔中指定預設值。

設定 參數
標題 itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
根據預設,外掛程式會使用 HTML title 做為已建立索引的文件標題。如果缺少標題,您可以參照包含文件標題對應值的中繼資料屬性,或是設定預設值。
建立的時間戳記 itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
包含文件建立時間戳記值的中繼資料屬性。
上次修改時間 itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
包含文件上次修改時間戳記值的中繼資料屬性。
文件語言 itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
已建立索引文件的內容語言。
結構定義物件類型 itemMetadata.objectType=movie
網站使用的物件類型,如 資料來源結構定義物件定義所定義。如未指定這項屬性,連接器就不會為任何結構化資料建立索引。

注意:這項設定屬性指向值而非中繼資料屬性,且不支援 .field.defaultValue 後置字串。

日期時間格式

日期時間格式會指定中繼資料屬性中預期的格式。如果設定檔中不含此參數,系統會使用預設值。下表顯示此參數。

設定

參數

其他日期時間模式

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

其他 java.time.format.DateTimeFormatter 模式的清單 (以半形分號分隔)。剖析中繼資料或結構定義中任何日期或日期時間欄位的字串值時,系統會使用這些模式。預設值為空白清單,但系統一律會支援 RFC 3339 和 RFC 1123 格式。

步驟 3:設定 Norconex HTTP 收集器

ZIP 封存檔 norconex-committer-google-cloud-search-{version}.zip 內含範例設定檔 minimum-config.xml

Google 建議您透過複製範例檔案開始設定:

  1. 變更為 Norconex HTTP Collector 目錄:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. 複製設定檔:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. 編輯新建立的檔案 (在此範例中為 gcs-crawl-config.xml),並新增或取代現有的 <committer><tagger> 節點,如下表所述。
設定 參數
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

必填。如要啟用這個外掛程式,您必須將 <committer> 節點新增為根 <httpcollector> 節點的子項。
<UploadFormat> <uploadFormat>raw</uploadFormat>
選用。索引工具外掛程式將文件內容推送至 Google Cloud Search indexer API 的格式。有效值如下:
  • raw:索引工具外掛程式會推送未轉換的原始文件內容。
  • text:索引工具外掛程式會推送擷取的文字內容。

預設值為 raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
如果 <UploadFormat> 的值為 raw,則為必要欄位。在這種情況下,索引工具外掛程式需要文件的二進位內容欄位才能存取。

您必須新增 BinaryContentTagger <tagger> 節點做為 <importer> / <preParseHandlers> 節點的子元素。

以下範例顯示需要修改為 gcs-crawl-config.xml 的內容。

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

步驟 4:設定網頁檢索

啟動網路檢索之前,您必須先設定檢索,限制檢索只包含貴機構希望在搜尋結果中顯示的資訊。最重要的網路檢索設定屬於 <crawler> 節點,可能包含:

  • 起始網址
  • 檢索深度上限
  • 執行緒數量

請視需求變更這些設定值。如需更多有關設定網路檢索的資訊,以及可用的設定參數完整清單,請參閱 HTTP 收集器的設定頁面。

步驟 5:開始檢索網頁及上傳內容

安裝並設定索引器外掛程式後,即可在本機模式中自行執行該外掛程式。

以下範例假設必要的元件位於 Linux 系統的本機目錄中。執行下列指令:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

使用 JEF Monitor 監控檢索器

Norconex JEF (工作執行架構) 監控是監控 Norconex 網路檢索器 (HTTP 收集器) 程序和工作進度的圖形工具。如需設定這個公用程式的完整教學課程,請參閱使用 JEF Monitor 監控檢索器進度