ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คำแนะนำนี้มีไว้สำหรับผู้จัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex ผู้ดูแลระบบปลั๊กอิน ซึ่งก็คือใครก็ตามที่รับผิดชอบในการดาวน์โหลด การปรับใช้ การกำหนดค่า และดูแลรักษาปลั๊กอินตัวจัดทำดัชนี คู่มือจะถือว่า ที่คุณคุ้นเคย ระบบปฏิบัติการ Linux พื้นฐานเว็บ การรวบรวมข้อมูล, XML และ Norconex HTTP Collector

คำแนะนำนี้ประกอบด้วยวิธีทำงานสำคัญที่เกี่ยวข้องกับตัวจัดทำดัชนี การติดตั้งใช้งานปลั๊กอิน

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  • กำหนดค่า Google Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการรวบรวมข้อมูลเว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้อง ดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Norconex จะไม่ปรากฏในคู่มือนี้ สำหรับข้อมูลเกี่ยวกับงานดังกล่าว โปรดดู จัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Cloud Search Norconex

โดยค่าเริ่มต้น Cloud Search จะสามารถค้นพบ จัดทำดัชนี และแสดงเนื้อหาจาก ผลิตภัณฑ์ของ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยาย ของ Google Cloud Search รวมถึงการแสดงเนื้อหาเว็บแก่ผู้ใช้โดย การทำให้ปลั๊กอินตัวจัดทำดัชนีใช้งานได้สำหรับ Norconex HTTP Collector เป็นโปรแกรมรวบรวมข้อมูลเว็บแบบโอเพนซอร์สสำหรับองค์กร

ไฟล์คุณสมบัติการกำหนดค่า

หากต้องการเปิดใช้งานปลั๊กอินตัวจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง API การจัดทำดัชนี ในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนีได้ระบุ ในระหว่างขั้นตอนการกำหนดค่า ซึ่งอธิบายไว้ในเอกสารนี้ใน ขั้นตอนการทำให้ใช้งานได้

หากต้องการใช้ปลั๊กอินตัวจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml} มีการตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties-- มีการตั้งค่าสำหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์จะเปิดใช้ปลั๊กอินตัวจัดทำดัชนีของ Google Cloud Search และ Norconex HTTP Collector เพื่อสื่อสารระหว่างกัน

การรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลไฟล์การกำหนดค่าแล้ว คุณจะมีรายการ การตั้งค่าเพื่อเริ่มต้นการ Crawl เว็บ การรวบรวมข้อมูลของ Norconex HTTP Collector พบเนื้อหาเอกสารที่เกี่ยวข้องกับการกำหนดค่า และ จะอัปโหลดเนื้อหาเอกสารในเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยังระบบคลาวด์ ค้นหา API การจัดทำดัชนีที่จัดทำดัชนีไว้และให้บริการแก่ผู้ใช้ของคุณในท้ายที่สุด

ระบบปฏิบัติการที่รองรับ

ต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex บน Linux

เวอร์ชัน Norconex HTTP Collector ที่สนับสนุน

ปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex รองรับเวอร์ชัน 2.8.0.

การรองรับ ACL

ปลั๊กอินตัวจัดทำดัชนีสนับสนุนการควบคุมการเข้าถึงเอกสารใน โดเมน Google Workspace โดยใช้ Access Control List (ACL)

หากเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน Google Cloud Search (ตั้งค่า defaultAcl.mode เป็นอื่นที่ไม่ใช่ none และกำหนดค่าด้วย defaultAcl.*) ปลั๊กอินโปรแกรมจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

ถ้าไม่ได้เปิดใช้ ACL ที่เป็นค่าเริ่มต้น ปลั๊กอินจะกลับไปให้สิทธิ์การอ่าน กับทั้งโดเมน Google Workspace

สำหรับคำอธิบายโดยละเอียดเกี่ยวกับพารามิเตอร์การกำหนดค่า ACL โปรดดู พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้

ข้อกำหนดเบื้องต้น

ก่อนทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีรายการต่อไปนี้ คอมโพเนนต์ที่จำเป็น

  • Java JRE 1.8 ที่ติดตั้งบนคอมพิวเตอร์ที่เรียกใช้ปลั๊กอินตัวจัดทำดัชนี
  • ข้อมูล Google Workspace ที่จำเป็นในการสร้างความสัมพันธ์ระหว่าง Cloud Search และ Norconex HTTP Collector:

    โดยทั่วไป ผู้ดูแลระบบ Google Workspace ของโดเมนสามารถจัดหาข้อมูลต่อไปนี้ ของคุณ

ขั้นตอนการทำให้ใช้งานได้

หากต้องการใช้งานปลั๊กอินตัวจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  2. กำหนดค่า Google Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการ Crawl เว็บ
  5. เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี

  1. ดาวน์โหลดซอฟต์แวร์ Commer ของ Norconex จาก นี้
  2. แตกไฟล์ ZIP ของซอฟต์แวร์ที่ดาวน์โหลดลงในโฟลเดอร์ ~/norconex/
  3. โคลนปลั๊กอินคอมมิตจาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git และ จากนั้นจ่าย cd norconex-committer-plugin
  4. ตรวจสอบเวอร์ชันปลั๊กอิน Comer ที่ต้องการและสร้างไฟล์ ZIP git checkout tags/v1-0.0.3 และ mvn package (เพื่อข้ามการทดสอบเมื่อสร้าง เครื่องมือเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
  5. cd target
  6. คัดลอกไฟล์ jar ของปลั๊กอินที่สร้างไว้ในไดเรกทอรี Norconex lib cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง จากนั้นแตกไฟล์: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอก .jar ของปลั๊กอินและไฟล์ที่จำเป็นทั้งหมด ไลบรารีลงในไดเรกทอรีของตัวรวบรวม http:
    1. เปลี่ยนเป็นปลั๊กอินสำหรับคอมมิตที่ดึงข้อมูลมาซึ่งคลายการบีบอัดด้านบน: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. เรียกใช้ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง เป้าหมายเป็น norconex/norconex-collector-http-{version}/lib เมื่อได้รับข้อความแจ้ง
    3. หากพบไฟล์ Jar ที่ซ้ำกัน ให้เลือกตัวเลือก 1 (คัดลอก Jar ต้นทางเท่านั้น หากสูงกว่าหรือเวอร์ชันเดียวกับ Jar เป้าหมายหลังจากเปลี่ยนชื่อ Jar เป้าหมาย)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

เพื่อให้ปลั๊กอินตัวจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนี ที่เกี่ยวข้องได้ คุณต้องสร้างไฟล์การกำหนดค่า Cloud Search ใน ไดเรกทอรี Norconex ที่มีการติดตั้ง Norconex HTTP Collector รายการแนะนำจาก Google ที่คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search sdk-configuration.properties

ไฟล์การกำหนดค่านี้ต้องมีคู่คีย์/ค่าที่กำหนดพารามิเตอร์ ไฟล์การกำหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้อย่างน้อย ที่จำเป็นต่อการเข้าถึงแหล่งข้อมูลของ Cloud Search

การตั้งค่า พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace เป็นผู้ตั้งค่า
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นสำหรับการช่วยเหลือพิเศษของปลั๊กอินตัวจัดทำดัชนี

ตัวอย่างต่อไปนี้จะแสดง sdk-configuration.properties ไฟล์

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

นอกจากนี้ ไฟล์การกำหนดค่าอาจมีพารามิเตอร์การกำหนดค่าที่ Google มีให้ พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้พุชข้อมูลไปยัง Google Cloud Search API ตัวอย่างเช่น ชุดพารามิเตอร์ batch.* ระบุวิธีที่เครื่องมือเชื่อมต่อรวมคำขอ

หากไม่กำหนดพารามิเตอร์ในไฟล์การกำหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) สำหรับคำอธิบายโดยละเอียดของแต่ละพารามิเตอร์ โปรดดู พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้

คุณสามารถกำหนดค่าปลั๊กอินตัวจัดทำดัชนีเพื่อเติมข้อมูลเมตาและข้อมูลที่มีโครงสร้างสำหรับ เนื้อหาที่จัดทำดัชนี ค่าที่จะเติมสำหรับข้อมูลเมตาและข้อมูลที่มีโครงสร้าง สามารถดึงข้อมูลจากเมตาแท็กในเนื้อหา HTML ที่กำลังจัดทำดัชนี หรือ สามารถระบุค่าเริ่มต้นในไฟล์การกำหนดค่าได้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อเอกสารที่กำลังจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณสามารถอ้างอิง แอตทริบิวต์ข้อมูลเมตาที่มีค่าที่สอดคล้องกับชื่อเอกสารหรือตั้งค่าเริ่มต้น
การประทับเวลาที่สร้าง itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขครั้งล่าสุดของเอกสาร
ภาษาในเอกสาร itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่จะจัดทำดัชนี
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความของออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนีใดๆ Structured Data หากไม่มีการระบุพร็อพเพอร์ตี้นี้

หมายเหตุ: พร็อพเพอร์ตี้การกำหนดค่านี้จะชี้ไปยังค่า แทนที่จะเป็น แอตทริบิวต์ข้อมูลเมตา และ .field ระบบไม่รองรับส่วนต่อท้ายและ .defaultValue

รูปแบบวันที่และเวลา

รูปแบบวันที่และเวลาจะระบุรูปแบบที่ควรอยู่ในแอตทริบิวต์ของข้อมูลเมตา ถ้าไฟล์การกำหนดค่าไม่มีพารามิเตอร์นี้ ค่าเริ่มต้นจะเป็น ตารางต่อไปนี้แสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการที่คั่นด้วยเครื่องหมายอัฒภาคของ java.time.format.DateTimeFormatter เพิ่มเติม รูปแบบ ระบบจะใช้รูปแบบนี้เมื่อแยกวิเคราะห์ค่าสตริงสำหรับวันที่หรือวันที่และเวลา ในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นจะเป็นรายการที่ว่างเปล่า แต่รองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวม HTTP ของ Norconex

ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip จะมีไฟล์ ตัวอย่างไฟล์การกำหนดค่า minimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกำหนดค่าโดยคัดลอกไฟล์ตัวอย่าง ดังนี้

  1. เปลี่ยนเป็นไดเรกทอรี HTTP Collector ของ Norconex:
    วันที่ $ cd ~/norconex/norconex-collector-http-{version}/
  2. คัดลอกไฟล์การกำหนดค่า:
    วันที่ $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และ เพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ใน ตารางต่อไปนี้
การตั้งค่า พารามิเตอร์
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนด <httpcollector> ระดับรูท
<UploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทำดัชนีพุชเนื้อหาเอกสารไปยัง API เครื่องมือจัดทำดัชนีของ Google Cloud Search ค่าที่ถูกต้องคือ:
  • raw: ปลั๊กอินตัวจัดทำดัชนีจะพุชเนื้อหาของเอกสารต้นฉบับที่ไม่ได้แปลง
  • text: ปลั๊กอินตัวจัดทำดัชนีจะพุชเนื้อหาที่เป็นข้อความที่ดึงมา
วันที่
ค่าเริ่มต้นคือ raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ ปลั๊กอินตัวจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร

คุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>

ตัวอย่างต่อไปนี้แสดง แก้ไขเป็น gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนที่จะเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้มีเฉพาะ มีข้อมูลที่องค์กรของคุณต้องการให้ปรากฏในการค้นหา ผลลัพธ์ การตั้งค่าที่สำคัญที่สุดสำหรับการรวบรวมข้อมูลเว็บเป็นส่วนหนึ่งของ <crawler> โหนดของคุณ และอาจรวมถึงสิ่งต่อไปนี้

  • URL เริ่มต้น
  • ความลึกสูงสุดของการ Crawl
  • จำนวนชุดข้อความ

เปลี่ยนค่าการกำหนดค่าเหล่านี้ตามความต้องการของคุณ หากต้องการทราบรายละเอียดเพิ่มเติม ข้อมูลเกี่ยวกับการตั้งค่าการ Crawl เว็บและรายการ โปรดดูพารามิเตอร์การกำหนดค่า HTTP การกำหนดค่า

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

หลังจากที่คุณติดตั้งและตั้งค่าปลั๊กอินตัวจัดทำดัชนีแล้ว คุณสามารถเรียกใช้ปลั๊กอินดังกล่าวได้บน ของตัวเองในโหมดภายใน

ตัวอย่างต่อไปนี้จะสมมติว่าคอมโพเนนต์ที่จำเป็นแสดงอยู่ในระบบ บนระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor คือเครื่องมือด้านกราฟิกสำหรับ การตรวจสอบความคืบหน้าของกระบวนการของ Norconex Web Crawler (HTTP Collector) และงานต่างๆ สำหรับบทแนะนำทั้งหมดเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ โปรดไปที่ ตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor