ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบที่รับผิดชอบในการดาวน์โหลด การติดตั้งใช้งาน และ การบำรุงรักษาปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search คุณควรมีความรู้พื้นฐานเกี่ยวกับ Linux, การ Crawl เว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีวิธีการต่อไปนี้

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
  • กำหนดค่า Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการ Crawl เว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องทำจะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่จัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector

โดยค่าเริ่มต้น Cloud Search จะค้นหา จัดทำดัชนี และแสดงเนื้อหา จากผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail คุณขยายการทำงานนี้ให้รวมเนื้อหาเว็บได้โดยการติดตั้งปลั๊กอิน Indexer สำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรม Crawl เว็บขององค์กรแบบโอเพนซอร์ส

ไฟล์พร็อพเพอร์ตี้การกำหนดค่า

หากต้องการให้ปลั๊กอินทำการ Crawl และอัปโหลดเนื้อหา คุณต้องระบุข้อมูลที่เฉพาะเจาะจง ในไฟล์กำหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml}: การตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties: การตั้งค่าสำหรับ Cloud Search

การ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลในไฟล์การกำหนดค่าแล้ว คุณจะเริ่มการ Crawl เว็บได้ Norconex HTTP Collector จะทำการ Crawl เว็บและอัปโหลดเนื้อหาเอกสารไบนารีหรือข้อความต้นฉบับไปยัง Cloud Search Indexing API

ข้อกำหนดของระบบ

  • ระบบปฏิบัติการ: Linux เท่านั้น
  • เวอร์ชัน Norconex: เวอร์ชัน 2.8.0
  • ซอฟต์แวร์: Java JRE 1.8

การรองรับ ACL

ปลั๊กอิน Indexer รองรับรายการควบคุมการเข้าถึง (ACL) เพื่อควบคุมการเข้าถึง เอกสารในโดเมน Google Workspace

หากคุณเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none) ปลั๊กอินจะใช้ค่าเริ่มต้นเหล่านี้ ไม่เช่นนั้น ปลั๊กอินจะ ให้สิทธิ์อ่านแก่ทั้งโดเมน ดูพารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google จัดหาให้

ข้อกำหนดเบื้องต้น

โปรดรวบรวมคอมโพเนนต์ต่อไปนี้ก่อนที่จะติดตั้งใช้งานปลั๊กอินเครื่องจัดทำดัชนี

ขั้นตอนการติดตั้งใช้งาน

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
  2. กำหนดค่า Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการ Crawl เว็บ
  5. เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน

  1. ดาวน์โหลดซอฟต์แวร์ Committer ของ Norconex จากหน้าดาวน์โหลดของ Norconex
  2. แตกไฟล์ซอฟต์แวร์ไปยัง ~/norconex/
  3. โคลนปลั๊กอิน Committer

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. ตรวจสอบเวอร์ชันที่คุณเลือกและสร้างปลั๊กอินโดยทำดังนี้

    git checkout tags/v1-0.0.3
    mvn package
    

    หากต้องการข้ามการทดสอบ ให้ใช้ mvn package -DskipTests

  5. คัดลอกไฟล์ JAR ไปยังไดเรกทอรี lib ของ Norconex

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. แตกไฟล์ ZIP ที่สร้างขึ้น

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. เรียกใช้สคริปต์การติดตั้งและระบุเส้นทางแบบเต็มไปยังไดเรกทอรี lib Norconex ดังนี้

    sh install.sh
    

    หากระบบแจ้งให้เลือกไฟล์ที่ซ้ำกัน ให้เลือกตัวเลือก 1

ขั้นตอนที่ 2: กำหนดค่า Cloud Search

สร้าง sdk-configuration.properties ในไดเรกทอรี Norconex ไฟล์ต้อง ระบุพารามิเตอร์ต่อไปนี้

การตั้งค่า พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาจากผู้ดูแลระบบ Google Workspace
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ

ตัวอย่าง sdk-configuration.properties

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

นอกจากนี้ คุณยังใส่พารามิเตอร์ เช่น batch.* เพื่อควบคุมวิธีที่ปลั๊กอินพุช ข้อมูลได้ด้วย ดูพารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google จัดหาให้

หากต้องการป้อนข้อมูลเมตา ให้กำหนดค่าพารามิเตอร์ที่ไม่บังคับต่อไปนี้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie

ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector

ปลั๊กอินมีไฟล์ตัวอย่าง minimum-config.xml

  1. เปลี่ยนไปที่ไดเรกทอรี Norconex แล้วคัดลอกตัวอย่าง

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. แก้ไข gcs-crawl-config.xml เพื่อเพิ่มหรือแทนที่โหนด <committer> และ <tagger>

การตั้งค่า พารามิเตอร์
<committer> โหนด <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ต้องระบุ เพิ่มรายการนี้ภายใต้โหนด <httpcollector>
<uploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ raw หรือ text ค่าเริ่มต้นคือ raw

ตัวอย่าง gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

กำหนดค่าโหนด <crawler> ตามความต้องการของคุณ ซึ่งรวมถึง

  • URL เริ่มต้น
  • ความลึกในการ Crawl สูงสุด
  • จำนวนเธรด

ดูหน้าการกำหนดค่า Norconex

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

เรียกใช้ตัวรวบรวมในโหมดภายในเครื่อง

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor แสดงมุมมองแบบกราฟิกของ ความคืบหน้า ดูหัวข้อ ตรวจสอบ Crawler ด้วย JEF Monitor