คู่มือนี้มีไว้สำหรับผู้ดูแลระบบที่รับผิดชอบในการดาวน์โหลด การติดตั้งใช้งาน และ การบำรุงรักษาปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search คุณควรมีความรู้พื้นฐานเกี่ยวกับ Linux, การ Crawl เว็บ, XML และ Norconex HTTP Collector
คู่มือนี้มีวิธีการต่อไปนี้
- ดาวน์โหลดซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
- กำหนดค่า Cloud Search
- กำหนดค่า Norconex HTTP Collector และการ Crawl เว็บ
- เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา
ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องทำจะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่จัดการแหล่งข้อมูลของบุคคลที่สาม
ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector
โดยค่าเริ่มต้น Cloud Search จะค้นหา จัดทำดัชนี และแสดงเนื้อหา จากผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail คุณขยายการทำงานนี้ให้รวมเนื้อหาเว็บได้โดยการติดตั้งปลั๊กอิน Indexer สำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรม Crawl เว็บขององค์กรแบบโอเพนซอร์ส
ไฟล์พร็อพเพอร์ตี้การกำหนดค่า
หากต้องการให้ปลั๊กอินทำการ Crawl และอัปโหลดเนื้อหา คุณต้องระบุข้อมูลที่เฉพาะเจาะจง ในไฟล์กำหนดค่า 2 ไฟล์ ดังนี้
{gcs-crawl-config.xml}: การตั้งค่าสำหรับ Norconex HTTP Collectorsdk-configuration.properties: การตั้งค่าสำหรับ Cloud Search
การ Crawl เว็บและการอัปโหลดเนื้อหา
หลังจากป้อนข้อมูลในไฟล์การกำหนดค่าแล้ว คุณจะเริ่มการ Crawl เว็บได้ Norconex HTTP Collector จะทำการ Crawl เว็บและอัปโหลดเนื้อหาเอกสารไบนารีหรือข้อความต้นฉบับไปยัง Cloud Search Indexing API
ข้อกำหนดของระบบ
- ระบบปฏิบัติการ: Linux เท่านั้น
- เวอร์ชัน Norconex: เวอร์ชัน 2.8.0
- ซอฟต์แวร์: Java JRE 1.8
การรองรับ ACL
ปลั๊กอิน Indexer รองรับรายการควบคุมการเข้าถึง (ACL) เพื่อควบคุมการเข้าถึง เอกสารในโดเมน Google Workspace
หากคุณเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none) ปลั๊กอินจะใช้ค่าเริ่มต้นเหล่านี้ ไม่เช่นนั้น ปลั๊กอินจะ
ให้สิทธิ์อ่านแก่ทั้งโดเมน ดูพารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google จัดหาให้
ข้อกำหนดเบื้องต้น
โปรดรวบรวมคอมโพเนนต์ต่อไปนี้ก่อนที่จะติดตั้งใช้งานปลั๊กอินเครื่องจัดทำดัชนี
- คีย์ส่วนตัวของ Google Workspace (มีรหัสบัญชีบริการ) ดู กำหนดค่าการเข้าถึง Cloud Search API
- รหัสแหล่งข้อมูล Google Workspace ดูจัดการแหล่งข้อมูลของบุคคลที่สาม
ขั้นตอนการติดตั้งใช้งาน
- ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
- กำหนดค่า Cloud Search
- กำหนดค่า Norconex HTTP Collector
- กำหนดค่าการ Crawl เว็บ
- เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา
ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
- ดาวน์โหลดซอฟต์แวร์ Committer ของ Norconex จากหน้าดาวน์โหลดของ Norconex
- แตกไฟล์ซอฟต์แวร์ไปยัง
~/norconex/ โคลนปลั๊กอิน Committer
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginตรวจสอบเวอร์ชันที่คุณเลือกและสร้างปลั๊กอินโดยทำดังนี้
git checkout tags/v1-0.0.3 mvn packageหากต้องการข้ามการทดสอบ ให้ใช้
mvn package -DskipTestsคัดลอกไฟล์ JAR ไปยังไดเรกทอรี
libของ Norconexcp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libแตกไฟล์ ZIP ที่สร้างขึ้น
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3เรียกใช้สคริปต์การติดตั้งและระบุเส้นทางแบบเต็มไปยังไดเรกทอรี
libNorconex ดังนี้sh install.shหากระบบแจ้งให้เลือกไฟล์ที่ซ้ำกัน ให้เลือกตัวเลือก
1
ขั้นตอนที่ 2: กำหนดค่า Cloud Search
สร้าง sdk-configuration.properties ในไดเรกทอรี Norconex ไฟล์ต้อง
ระบุพารามิเตอร์ต่อไปนี้
| การตั้งค่า | พารามิเตอร์ |
| รหัสแหล่งข้อมูล | api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาจากผู้ดูแลระบบ Google Workspace |
| บัญชีบริการ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ |
ตัวอย่าง sdk-configuration.properties
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
นอกจากนี้ คุณยังใส่พารามิเตอร์ เช่น batch.* เพื่อควบคุมวิธีที่ปลั๊กอินพุช
ข้อมูลได้ด้วย ดูพารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google จัดหาให้
หากต้องการป้อนข้อมูลเมตา ให้กำหนดค่าพารามิเตอร์ที่ไม่บังคับต่อไปนี้
| การตั้งค่า | พารามิเตอร์ |
| ชื่อ | itemMetadata.title.field=movieTitle |
| ประเภทออบเจ็กต์สคีมา | itemMetadata.objectType=movie |
ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector
ปลั๊กอินมีไฟล์ตัวอย่าง minimum-config.xml
เปลี่ยนไปที่ไดเรกทอรี Norconex แล้วคัดลอกตัวอย่าง
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlแก้ไข
gcs-crawl-config.xmlเพื่อเพิ่มหรือแทนที่โหนด<committer>และ<tagger>
| การตั้งค่า | พารามิเตอร์ |
<committer> โหนด |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ต้องระบุ เพิ่มรายการนี้ภายใต้โหนด <httpcollector> |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
ไม่บังคับ raw หรือ text ค่าเริ่มต้นคือ
raw |
ตัวอย่าง gcs-crawl-config.xml
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ
กำหนดค่าโหนด <crawler> ตามความต้องการของคุณ ซึ่งรวมถึง
- URL เริ่มต้น
- ความลึกในการ Crawl สูงสุด
- จำนวนเธรด
ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา
เรียกใช้ตัวรวบรวมในโหมดภายในเครื่อง
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
ตรวจสอบ Crawler ด้วย JEF Monitor
Norconex JEF (Job Execution Framework) Monitor แสดงมุมมองแบบกราฟิกของ ความคืบหน้า ดูหัวข้อ ตรวจสอบ Crawler ด้วย JEF Monitor