คำแนะนำนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex กล่าวคือ ผู้ที่มีหน้าที่ดาวน์โหลด ทำให้ใช้งานได้ กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้จะสมมติว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการรวบรวมข้อมูลเว็บ, XML และ Norconex HTTP Collector
คำแนะนำนี้ประกอบด้วยวิธีทำงานสำคัญที่เกี่ยวข้องกับการทำให้ปลั๊กอินตัวจัดทำดัชนีใช้งานได้
- ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
- กำหนดค่า Google Cloud Search
- กำหนดค่า Norconex HTTP Collector และการรวบรวมข้อมูลเว็บ
- เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา
ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Norconex จะไม่ปรากฏในคู่มือนี้ ดูรายละเอียดเกี่ยวกับงานเหล่านี้ได้ที่หัวข้อจัดการแหล่งข้อมูลของบุคคลที่สาม
ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Cloud Search Norconex
โดยค่าเริ่มต้น Cloud Search จะค้นหา จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ของ Google Workspace ได้ เช่น Google เอกสารและ Gmail คุณสามารถขยายการเข้าถึง Google Cloud Search ให้ครอบคลุมการแสดงเนื้อหาเว็บแก่ผู้ใช้โดยการทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีใช้งานได้สำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บแบบโอเพนซอร์สสำหรับองค์กร
ไฟล์คุณสมบัติการกำหนดค่า
หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง API การจัดทำดัชนี คุณในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนีจะต้องระบุข้อมูลที่เจาะจงในระหว่างขั้นตอนการกำหนดค่าตามที่อธิบายไว้ในเอกสารนี้ในขั้นตอนการทำให้ใช้งานได้
หากต้องการใช้ปลั๊กอินตัวจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้
{gcs-crawl-config.xml}
มีการตั้งค่าสำหรับ Norconex HTTP Collectorsdk-configuration.properties
-- มีการตั้งค่าสำหรับ Google Cloud Search
พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินตัวจัดทำดัชนีของ Google Cloud Search และ Norconex HTTP Collector สื่อสารกันได้
การรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา
หลังจากที่ป้อนข้อมูลไฟล์การกำหนดค่าแล้ว คุณจะมีการตั้งค่าที่จำเป็นในการเริ่มต้นการ Crawl เว็บ Norconex HTTP Collector จะรวบรวมข้อมูลเว็บโดยค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกำหนดค่าและอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง API การจัดทำดัชนีของ Cloud Search ซึ่งได้รับการจัดทำดัชนีและนำไปแสดงแก่ผู้ใช้ในท้ายที่สุด
ระบบปฏิบัติการที่รองรับ
ต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex บน Linux
เวอร์ชัน Norconex HTTP Collector ที่สนับสนุน
ปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex รองรับเวอร์ชัน 2.8.0
การรองรับ ACL
ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)
หากเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน Google Cloud Search
(ตั้งค่า defaultAcl.mode
เป็นอย่างอื่นที่ไม่ใช่ none
และกำหนดค่าด้วย defaultAcl.*
) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน
หากไม่ได้เปิดใช้ ACL ที่เป็นค่าเริ่มต้น ปลั๊กอินจะกลับไปให้สิทธิ์อ่านแก่ทั้งโดเมน Google Workspace
ดูคำอธิบายโดยละเอียดเกี่ยวกับพารามิเตอร์การกำหนดค่า ACL ได้ที่พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้
สิ่งที่ต้องดำเนินการก่อน
ก่อนที่จะทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จำเป็นต่อไปนี้
- Java JRE 1.8 ที่ติดตั้งบนคอมพิวเตอร์ที่เรียกใช้ปลั๊กอินตัวจัดทำดัชนี
ข้อมูลของ Google Workspace ที่จำเป็นในการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector
- คีย์ส่วนตัวของ Google Workspace (ซึ่งมีรหัสบัญชีบริการ)
- รหัสแหล่งข้อมูล Google Workspace
โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะให้ข้อมูลเข้าสู่ระบบเหล่านี้แก่คุณได้
ขั้นตอนการทำให้ใช้งานได้
หากต้องการใช้งานปลั๊กอินตัวจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้
- ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
- กำหนดค่า Google Cloud Search
- กำหนดค่า Norconex HTTP Collector
- กำหนดค่าการ Crawl เว็บ
- เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา
ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
- ดาวน์โหลดซอฟต์แวร์คอมมิต Norconex จาก หน้านี้
- แตกไฟล์ ZIP ของซอฟต์แวร์ที่ดาวน์โหลดลงในโฟลเดอร์
~/norconex/
- โคลนปลั๊กอินคอมมิตจาก GitHub
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
จากนั้นจ่ายcd norconex-committer-plugin
- ตรวจสอบเวอร์ชันปลั๊กอิน Comer ที่ต้องการและสร้างไฟล์ ZIP:
git checkout tags/v1-0.0.3
และmvn package
(หากต้องการข้ามการทดสอบเมื่อสร้างเครื่องมือเชื่อมต่อ ให้ใช้mvn package -DskipTests
) cd target
- คัดลอกไฟล์ Jar ของปลั๊กอินที่สร้างแล้วลงในไดเรกทอรี Norconex lib
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง จากนั้นแตกไฟล์:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอก .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดลงในไดเรกทอรีของตัวรวบรวม HTTP ดังนี้
- เปลี่ยนเป็นปลั๊กอินสำหรับคอมมิตที่ดึงข้อมูลมาซึ่งคลายการบีบอัดด้านบน:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- เรียกใช้
$ sh install.sh
และระบุเส้นทางแบบเต็มไปยังnorconex/norconex-collector-http-{version}/lib
เป็นไดเรกทอรีเป้าหมายเมื่อระบบแจ้ง - หากพบไฟล์ Jar ที่ซ้ำกัน ให้เลือกตัวเลือก
1
(คัดลอก Jar ต้นทางเฉพาะเมื่อเวอร์ชันสูงกว่าหรือเหมือนกับ Jar เป้าหมายหลังจากเปลี่ยนชื่อ Jar เป้าหมาย)
- เปลี่ยนเป็นปลั๊กอินสำหรับคอมมิตที่ดึงข้อมูลมาซึ่งคลายการบีบอัดด้านบน:
ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search
เพื่อให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกำหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่มีการติดตั้ง Norconex HTTP Collector ไว้ Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search เป็น sdk-configuration.properties
ไฟล์การกำหนดค่านี้ต้องมีคู่คีย์/ค่าที่กำหนดพารามิเตอร์ ไฟล์การกำหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้อย่างน้อย พารามิเตอร์ที่จำเป็นสำหรับการเข้าถึงแหล่งข้อมูล Cloud Search
การเกริ่นนำ | พารามิเตอร์ |
รหัสแหล่งข้อมูล | api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace เป็นผู้ตั้งค่า |
บัญชีบริการ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นสำหรับการช่วยเหลือพิเศษของปลั๊กอินตัวจัดทำดัชนี |
ตัวอย่างต่อไปนี้จะแสดง sdk-configuration.properties
ไฟล์
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
นอกจากนี้ ไฟล์การกำหนดค่าอาจมีพารามิเตอร์การกำหนดค่าที่ Google มีให้
พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้พุชข้อมูลไปยัง Google Cloud Search API ตัวอย่างเช่น ชุดพารามิเตอร์ batch.*
จะระบุวิธีที่เครื่องมือเชื่อมต่อรวมคำขอ
ถ้าคุณไม่กำหนดพารามิเตอร์ในไฟล์การกำหนดค่า ระบบจะใช้ค่าเริ่มต้น หากมี ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้
คุณกำหนดค่าปลั๊กอินตัวจัดทำดัชนีเพื่อเติมข้อมูลเมตาและข้อมูลที่มีโครงสร้างสำหรับเนื้อหาที่กำลังจัดทำดัชนีได้ ค่าที่จะเติมให้กับช่องข้อมูลเมตาและช่องข้อมูลที่มีโครงสร้างจะดึงมาจากเมตาแท็กในเนื้อหา HTML ที่จัดทำดัชนีอยู่ หรือจะระบุค่าเริ่มต้นในไฟล์การกำหนดค่าก็ได้
การตั้งค่า | พารามิเตอร์ |
ชื่อ | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อเอกสารที่กำลังจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณอาจอ้างอิงแอตทริบิวต์ข้อมูลเมตาที่มีค่าที่สอดคล้องกับชื่อเอกสารหรือตั้งค่าเริ่มต้นก็ได้
|
การประทับเวลาที่สร้าง | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการสร้างเอกสาร |
เวลาที่แก้ไขล่าสุด | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร |
ภาษาในเอกสาร | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่จะจัดทำดัชนี |
ประเภทออบเจ็กต์สคีมา | itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความของออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้
หมายเหตุ: พร็อพเพอร์ตี้การกำหนดค่านี้จะชี้ไปยังค่าแทนที่จะเป็นแอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับคำต่อท้าย |
รูปแบบวันที่และเวลา
รูปแบบวันที่และเวลาจะระบุรูปแบบที่ควรอยู่ในแอตทริบิวต์ของข้อมูลเมตา ถ้าไฟล์การกำหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้
การตั้งค่า
พารามิเตอร์
รูปแบบวันที่และเวลาเพิ่มเติม
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเครื่องหมายอัฒภาค โดยจะใช้รูปแบบนี้เมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่างเปล่า แต่จะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ
ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวม HTTP ของ Norconex
ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip
จะมีตัวอย่างไฟล์การกำหนดค่า minimum-config.xml
Google ขอแนะนำให้คุณเริ่มการกำหนดค่าโดยคัดลอกไฟล์ตัวอย่าง ดังนี้
- เปลี่ยนเป็นไดเรกทอรี HTTP Collector ของ Norconex:
$ cd ~/norconex/norconex-collector-http-{version}/
- คัดลอกไฟล์การกำหนดค่า:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ
gcs-crawl-config.xml
) และเพิ่มหรือแทนที่โหนด<committer>
และ<tagger>
ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้
การเกริ่นนำ | พารามิเตอร์ |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนด <httpcollector> ระดับรูท
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทำดัชนีพุชเนื้อหาเอกสารไปยัง API เครื่องมือจัดทำดัชนีของ Google Cloud Search ค่าที่ถูกต้องคือ:
ค่าเริ่มต้นคือ raw
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ ปลั๊กอินตัวจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร
คุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>
|
ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นใน gcs-crawl-config.xml
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ
ก่อนที่จะเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้มีเฉพาะข้อมูลที่องค์กรของคุณต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สำคัญที่สุดสำหรับการรวบรวมข้อมูลเว็บเป็นส่วนหนึ่งของ <crawler>
โหนด และอาจรวมสิ่งต่อไปนี้
- URL เริ่มต้น
- ความลึกสูงสุดของการ Crawl
- จำนวนชุดข้อความ
เปลี่ยนค่าการกำหนดค่าเหล่านี้ตามความต้องการของคุณ สำหรับข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการรวบรวมข้อมูลเว็บ และรายการพารามิเตอร์การกำหนดค่าที่ใช้ได้ทั้งหมด โปรดดูหน้าการกำหนดค่าของเครื่องมือรวบรวม HTTP
ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา
หลังจากที่ติดตั้งและตั้งค่าปลั๊กอินตัวจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวด้วยตัวเองในโหมดภายในได้
ตัวอย่างต่อไปนี้จะสมมติว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีในเครื่องในระบบ Linux เรียกใช้คำสั่งต่อไปนี้
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
ตรวจสอบ Crawler ด้วย JEF Monitor
Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือแบบกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำทั้งหมดเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่ ตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor