คู่มือนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search กล่าวคือ ผู้ที่มีหน้าที่รับผิดชอบในการดาวน์โหลด ติดตั้งใช้งาน กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้ถือว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการ Crawl เว็บ, XML และ Norconex HTTP Collector
คู่มือนี้มีวิธีการทํางานสําคัญที่เกี่ยวข้องกับการติดตั้งใช้งานตัวจัดทําดัชนีและปลั๊กอิน
- ดาวน์โหลดซอฟต์แวร์ของปลั๊กอินเครื่องมือจัดทำดัชนี
- กำหนดค่า Google Cloud Search
- กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex และการ Crawl เว็บ
- เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา
ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector จะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่หัวข้อจัดการแหล่งข้อมูลของบุคคลที่สาม
ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Cloud Search
โดยค่าเริ่มต้น Cloud Search จะค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยายการเข้าถึงของ Google Cloud Search ให้รวมการแสดงเนื้อหาเว็บต่อผู้ใช้ด้วยการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็น Crawler เว็บโอเพนซอร์สสำหรับองค์กร
ไฟล์พร็อพเพอร์ตี้การกําหนดค่า
หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง Indexing API คุณต้องระบุข้อมูลเฉพาะในระหว่างขั้นตอนการกําหนดค่าที่อธิบายไว้ในเอกสารนี้ในส่วนขั้นตอนการทําให้ใช้งานได้ในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี
หากต้องการใช้ปลั๊กอินเครื่องมือจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกําหนดค่า 2 ไฟล์ ดังนี้
{gcs-crawl-config.xml}
-- มีการตั้งค่าสําหรับเครื่องมือรวบรวมข้อมูล HTTP ของ Norconexsdk-configuration.properties
-- มีการตั้งค่าสําหรับ Google Cloud Search
พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินเครื่องมือจัดทำดัชนีของ Google Cloud Search และเครื่องมือรวบรวม HTTP ของ Norconex สื่อสารกันได้
การ Crawl เว็บและการอัปโหลดเนื้อหา
หลังจากป้อนข้อมูลไฟล์การกําหนดค่าแล้ว คุณจะมีการตั้งค่าที่จําเป็นเพื่อเริ่มการ Crawl เว็บ Norconex HTTP Collector จะทำการ Crawl เว็บเพื่อค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกําหนดค่า และอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง Cloud Search Indexing API ซึ่งจะได้รับการจัดทำดัชนีและแสดงต่อผู้ใช้ในท้ายที่สุด
ระบบปฏิบัติการที่รองรับ
คุณต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search ใน Linux
เวอร์ชันเครื่องมือรวบรวม HTTP ของ Norconex ที่รองรับ
ปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search รองรับเวอร์ชัน 2.8.0
การรองรับ ACL
ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)
หากเปิดใช้ ACL เริ่มต้นในการกําหนดค่าปลั๊กอิน Google Cloud Search (defaultAcl.mode
ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none
และกําหนดค่าด้วย defaultAcl.*
) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน
หากไม่ได้เปิดใช้ ACL เริ่มต้น ปลั๊กอินจะเปลี่ยนกลับไปให้สิทธิ์อ่านแก่โดเมน Google Workspace ทั้งหมด
ดูคำอธิบายโดยละเอียดของพารามิเตอร์การกำหนดค่า ACL ได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้
ข้อกำหนดเบื้องต้น
ก่อนทำให้พลิแกนตัวจัดทําดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จําเป็นต่อไปนี้
- Java JRE 1.8 ที่ติดตั้งในคอมพิวเตอร์ที่ใช้ปลั๊กอินเครื่องมือจัดทำดัชนี
ข้อมูล Google Workspace ที่จําเป็นสําหรับการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector
- คีย์ส่วนตัวของ Google Workspace (ซึ่งมีรหัสบัญชีบริการ)
- รหัสแหล่งข้อมูล Google Workspace
โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะระบุข้อมูลเข้าสู่ระบบเหล่านี้ให้คุณได้
ขั้นตอนการทำให้ใช้งานได้
หากต้องการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้
- ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
- กำหนดค่า Google Cloud Search
- กําหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
- กําหนดค่าการ Crawl เว็บ
- เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา
ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
- ดาวน์โหลดซอฟต์แวร์คอมมิต Norconex จากหน้านี้
- แตกไฟล์ซอฟต์แวร์ที่ดาวน์โหลดมาลงในโฟลเดอร์
~/norconex/
- โคลนปลั๊กอิน Commiter จาก GitHub
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
และ จากนั้นcd norconex-committer-plugin
- ตรวจสอบปลั๊กอิน Commiter เวอร์ชันที่ต้องการและสร้างไฟล์ ZIP โดยทำดังนี้
git checkout tags/v1-0.0.3
และmvn package
(หากต้องการข้ามการทดสอบเมื่อสร้างตัวเชื่อมต่อ ให้ใช้mvn package -DskipTests
) cd target
- คัดลอกไฟล์ jar ของปลั๊กอินที่คอมไพล์แล้วไปยังไดเรกทอรี norconex lib
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง แล้วแตกไฟล์
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอกไฟล์ .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดไปยังไดเรกทอรีของเครื่องมือรวบรวมข้อมูล HTTP โดยทำดังนี้
- เปลี่ยนปลั๊กอิน Commiter ที่แตกไฟล์ด้านบน
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- เรียกใช้
$ sh install.sh
และระบุเส้นทางแบบเต็มไปยังnorconex/norconex-collector-http-{version}/lib
เป็นไดเรกทอรีเป้าหมายเมื่อได้รับข้อความแจ้ง - หากพบไฟล์ jar ซ้ำ ให้เลือกตัวเลือก
1
(คัดลอกไฟล์ jar ต้นทางเท่านั้น หากเวอร์ชันสูงกว่าหรือเท่ากับไฟล์ jar เป้าหมายหลังจากเปลี่ยนชื่อไฟล์ jar เป้าหมาย)
- เปลี่ยนปลั๊กอิน Commiter ที่แตกไฟล์ด้านบน
ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search
หากต้องการให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกําหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่ติดตั้ง Norconex HTTP Collector Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search เป็นsdk-configuration.properties
ไฟล์การกําหนดค่านี้ต้องมีคู่คีย์/ค่าที่กําหนดพารามิเตอร์ ไฟล์การกําหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้เป็นอย่างน้อย ซึ่งจําเป็นสําหรับการเข้าถึงแหล่งข้อมูล Cloud Search
การตั้งค่า | พารามิเตอร์ |
รหัสแหล่งข้อมูล | api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าไว้ |
บัญชีบริการ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นเพื่อให้เข้าถึงพลิแกนตัวจัดทําดัชนีได้ |
ตัวอย่างต่อไปนี้แสดงsdk-configuration.properties
ไฟล์
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
ไฟล์การกําหนดค่าอาจมีพารามิเตอร์การกําหนดค่าที่ Google ระบุไว้ด้วย
พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้ส่งข้อมูลไปยัง Google Cloud Search API เช่น ชุดพารามิเตอร์ batch.*
จะระบุวิธีที่ตัวเชื่อมต่อรวมคําขอ
หากคุณไม่ได้กําหนดพารามิเตอร์ในไฟล์การกําหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้
คุณสามารถกําหนดค่าปลั๊กอินเครื่องมือจัดทำดัชนีให้ป้อนข้อมูลเมตาและ Structured Data สำหรับเนื้อหาที่จัดทำดัชนีได้ ระบบจะดึงค่าที่จะป้อนสำหรับช่องข้อมูลเมตาและ Structured Data ได้จากเมตาแท็กในเนื้อหา HTML ที่จัดทําดัชนี หรือจะระบุค่าเริ่มต้นในไฟล์การกําหนดค่าก็ได้
การตั้งค่า | พารามิเตอร์ |
ชื่อ | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อของเอกสารที่จะได้รับการจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณสามารถอ้างอิงแอตทริบิวต์ข้อมูลเมตาซึ่งมีค่าที่สอดคล้องกับชื่อเอกสาร หรือตั้งค่าเริ่มต้นก็ได้
|
การประทับเวลาที่สร้าง | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าการประทับเวลาการสร้างเอกสาร |
เวลาที่แก้ไขล่าสุด | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร |
ภาษาของเอกสาร | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสําหรับเอกสารที่จัดทําดัชนี |
ประเภทออบเจ็กต์สคีมา | itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้
หมายเหตุ: พร็อพเพอร์ตี้การกําหนดค่านี้จะชี้ไปยังค่าแทนแอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับส่วนต่อท้าย |
รูปแบบเวลาและวันที่
รูปแบบวันที่และเวลาจะระบุรูปแบบที่คาดไว้ในแอตทริบิวต์ข้อมูลเมตา หากไฟล์การกําหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้
การตั้งค่า
พารามิเตอร์
รูปแบบวันที่และเวลาเพิ่มเติม
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเซมิโคลอน ระบบจะใช้รูปแบบเมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่าง แต่ระบบจะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ
ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip
มีไฟล์การกำหนดค่าตัวอย่าง minimum-config.xml
Google ขอแนะนำให้คุณเริ่มการกําหนดค่าโดยการคัดลอกไฟล์ตัวอย่าง ดังนี้
- การเปลี่ยนแปลงในไดเรกทอรีเครื่องมือรวบรวม HTTP ของ Norconex:
$ cd ~/norconex/norconex-collector-http-{version}/
- คัดลอกไฟล์การกําหนดค่า
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ
gcs-crawl-config.xml
) และเพิ่มหรือแทนที่โหนด<committer>
และ<tagger>
ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้
การตั้งค่า | พารามิเตอร์ |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนดรูท <httpcollector>
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทําดัชนีส่งเนื้อหาเอกสารไปยัง API เครื่องมือจัดทําดัชนีของ Google Cloud Search ค่าที่ใช้ได้มีดังนี้
ค่าเริ่มต้นคือ raw
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ พารามิเตอร์การจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร
โดยคุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>
|
ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นสำหรับ
gcs-crawl-config.xml
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ
ก่อนเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้รวมเฉพาะข้อมูลที่องค์กรต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สําคัญที่สุดสำหรับการ Crawl เว็บเป็นส่วนหนึ่งของ<crawler>
โหนดและอาจรวมถึงสิ่งต่อไปนี้
- URL เริ่มต้น
- ความลึกสูงสุดของการ Crawl
- จำนวนเธรด
เปลี่ยนค่าการกําหนดค่าเหล่านี้ตามต้องการ ดูรายละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการ Crawl เว็บ รวมถึงรายการพารามิเตอร์การกําหนดค่าทั้งหมดที่ใช้ได้ได้ที่หน้าการกําหนดค่าของ HTTP Collector
ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา
หลังจากติดตั้งและตั้งค่าปลั๊กอินเครื่องมือจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวในโหมดในเครื่องได้
ตัวอย่างต่อไปนี้จะถือว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีในเครื่องบนระบบ Linux เรียกใช้คำสั่งต่อไปนี้
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
ตรวจสอบ Crawler ด้วย JEF Monitor
Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือแบบกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำฉบับเต็มเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่หัวข้อตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor