Norconex एचटीटीपी कलेक्टर इंडेक्सर प्लगिन डिप्लॉय करें

यह गाइड, Google Cloud Search Norconex एचटीटीपी कलेक्टर इंडेक्सर के लिए है प्लगिन एडमिन, यानी ऐसे कोई भी व्यक्ति जो डाउनलोड करने के लिए ज़िम्मेदार है, इंडेक्स करने वाले प्लगिन को डिप्लॉय करना, कॉन्फ़िगर करना, और उनका रखरखाव करना. गाइड का मानना है कि Linux ऑपरेटिंग सिस्टम, वेब की बुनियादी बातों के बारे में आपको जानकारी है एक्सएमएल और Norconex एचटीटीपी कलेक्टर.

इस गाइड में इंडेक्सर से जुड़े मुख्य काम करने के निर्देश दिए गए हैं प्लगिन डिप्लॉयमेंट:

  • इंडेक्सर प्लगिन सॉफ़्टवेयर डाउनलोड करें
  • Google Cloud Search कॉन्फ़िगर करना
  • Norconex एचटीटीपी कलेक्टर और वेब क्रॉलिंग को कॉन्फ़िगर करें
  • वेब क्रॉल शुरू करना और कॉन्टेंट अपलोड करना

उन टास्क के बारे में जानकारी जो Google Workspace एडमिन को ज़रूरी हैं Google Cloud Search को Norconex HTTP Collector इंडेक्सर प्लगिन से मैप करने के लिए परफ़ॉर्म करें इस गाइड में मौजूद नहीं है. उन टास्क के बारे में जानकारी पाने के लिए देखें तीसरे पक्ष के डेटा सोर्स मैनेज करें.

Cloud Search Norconex एचटीटीपी Collector इंडेक्सर प्लगिन की खास जानकारी

डिफ़ॉल्ट रूप से, Cloud Search Google Workspace के प्रॉडक्ट, जैसे कि Google Docs और Gmail. आप Google Cloud Search की पहुंच इंडेक्स करने के लिए, Norconex एचटीटीपी कलेक्टर, एक ओपन सोर्स एंटरप्राइज़ वेब क्रॉलर.

कॉन्फ़िगरेशन प्रॉपर्टी की फ़ाइलें

वेब क्रॉल करने और इंडेक्स करने वाले एपीआई के लिए, आप इंडेक्सर प्लगिन एडमिन के तौर पर, कॉन्फ़िगरेशन चरणों के दौरान जानकारी, जो इस दस्तावेज़ में बताई गई है डिप्लॉयमेंट के चरण.

इंडेक्सर प्लगिन का इस्तेमाल करने के लिए, आपको दो कॉन्फ़िगरेशन फ़ाइलों में प्रॉपर्टी सेट करनी होंगी:

  • {gcs-crawl-config.xml}-- इसमें Norconex HTTP Collector की सेटिंग शामिल है.
  • sdk-configuration.properties-- इसमें Google Cloud Search की सेटिंग शामिल हैं.

हर फ़ाइल में मौजूद प्रॉपर्टी, Google Cloud Search के इंडेक्स करने वाले प्लगिन को चालू करती हैं और एक-दूसरे से बातचीत करने के लिए Norconex एचटीटीपी कलेक्टर.

वेब क्रॉल और कॉन्टेंट अपलोड

कॉन्फ़िगरेशन फ़ाइलें पॉप्युलेट करने के बाद, आपके पास वेब क्रॉल शुरू करने की सेटिंग. Norconex HTTP Collector क्रॉल वेब पर, उसके कॉन्फ़िगरेशन से संबंधित दस्तावेज़ की सामग्री खोजने के लिए और दस्तावेज़ के कॉन्टेंट के ओरिजनल बाइनरी (या टेक्स्ट) वर्शन को क्लाउड पर अपलोड करता है Search इंडेक्स करने वाला एपीआई, जहां यह इंडेक्स हो जाता है और आपके उपयोगकर्ताओं के लिए उपलब्ध हो जाता है.

इसके साथ काम करने वाला ऑपरेटिंग सिस्टम

Google Cloud Search Norconex एचटीटीपी Collector इंडेक्सर प्लगिन इंस्टॉल करना ज़रूरी है पर जाएं.

काम करने वाले Norconex एचटीटीपी Collector वर्शन

Google Cloud Search Norconex एचटीटीपी Collector इंडेक्सर प्लगिन, इस वर्शन के साथ काम करता है 2.8.0.

ACL सहायता

इंडेक्सर प्लगिन, इसमें मौजूद दस्तावेज़ों का ऐक्सेस कंट्रोल करने की सुविधा देता है ऐक्सेस कंट्रोल लिस्ट (एसीएल) का इस्तेमाल करके Google Workspace डोमेन.

अगर Google Cloud Search प्लगिन कॉन्फ़िगरेशन में डिफ़ॉल्ट ACL चालू हैं (defaultAcl.mode को none के अलावा किसी दूसरी पर सेट किया गया है और defaultAcl.* के साथ कॉन्फ़िगर किया गया है), इंडेक्स करने वाला प्लगिन सबसे पहले, डिफ़ॉल्ट ACL बनाने और लागू करने की कोशिश करता है.

अगर डिफ़ॉल्ट ACL चालू नहीं हैं, तो प्लगिन फिर से पढ़ने की अनुमति देता है पर अपडेट करने की सुविधा मिलती है.

ACL कॉन्फ़िगरेशन पैरामीटर के बारे में ज़्यादा जानने के लिए, यहां देखें Google की ओर से दिए गए कनेक्टर पैरामीटर.

ज़रूरी शर्तें

इंडेक्सर प्लगिन को डिप्लॉय करने से पहले, पक्का करें कि आपके पास ये चीज़ें हों ज़रूरी कॉम्पोनेंट:

  • इंडेक्सर प्लगिन को चलाने वाले कंप्यूटर पर, Java JRE 1.8 इंस्टॉल किया गया
  • अलग-अलग प्लैटफ़ॉर्म के बीच संबंध बनाने के लिए, Google Workspace की जानकारी देना ज़रूरी है Cloud Search और Norconex एचटीटीपी कलेक्टर:

    आम तौर पर, डोमेन का Google Workspace एडमिन इन चीज़ों की सप्लाई कर सकता है साइन इन करना होगा.

डिप्लॉयमेंट के चरण

इंडेक्सर प्लगिन को डिप्लॉय करने के लिए, यह तरीका अपनाएं:

  1. Norconex HTTP Collector और इंडेक्सर प्लगिन सॉफ़्टवेयर इंस्टॉल करें
  2. Google Cloud Search को कॉन्फ़िगर करना
  3. Norconex एचटीटीपी कलेक्टर को कॉन्फ़िगर करना
  4. वेब क्रॉल कॉन्फ़िगर करना
  5. वेब क्रॉल और कॉन्टेंट अपलोड शुरू करना

पहला चरण: Norconex एचटीटीपी Collector और इंडेक्सर प्लगिन सॉफ़्टवेयर इंस्टॉल करें

  1. यहां से Norconex कमिटर सॉफ़्टवेयर डाउनलोड करें यह पेज.
  2. डाउनलोड किए गए सॉफ़्टवेयर को ~/norconex/ फ़ोल्डर में अनज़िप करें
  3. GitHub से कमिटर प्लगिन का क्लोन बनाएं. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git और इसके बाद, cd norconex-committer-plugin चुकाएं
  4. कमिटर प्लगिन का मनचाहा वर्शन देखें और ZIP फ़ाइल बनाएं: git checkout tags/v1-0.0.3 और mvn package (बिल बनाते समय, टेस्ट को स्किप करने के लिए तो mvn package -DskipTests का इस्तेमाल करें.)
  5. cd target
  6. बिल्ट-इन प्लगिन जार फ़ाइल को Norconex lib डायरेक्ट्री में कॉपी करें. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. आपने अभी-अभी जो ZIP फ़ाइल बनाई है उसे निकालें और फिर इस फ़ाइल को अनज़िप करें: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. प्लगिन के .Jर और सभी ज़रूरी एलिमेंट को कॉपी करने के लिए, इंस्टॉल स्क्रिप्ट चलाएं लाइब्रेरी को एचटीटीपी कलेक्टर की डायरेक्ट्री में ट्रांसफ़र कर सकता है:
    1. ऊपर एक्सट्रैक्ट किए गए कमिटर प्लगिन में बदलाव को अनज़िप किया गया: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh लागू करें और इसके लिए पूरा पाथ उपलब्ध कराएं टारगेट के तौर पर norconex/norconex-collector-http-{version}/lib निर्देशिका दिखाई देती है.
    3. अगर डुप्लीकेट जार फ़ाइलें मिलती हैं, तो 1 विकल्प चुनें (सिर्फ़ सोर्स जार कॉपी करें अगर टारगेट Jar का नाम बदलने के बाद, यह वर्शन टारगेट Jar से बड़ा या उसके जैसा ही है).

दूसरा चरण: Google Cloud Search को कॉन्फ़िगर करना

Norconex HTTP Collector से कनेक्ट करने और इंडेक्स करने के लिए तो आपको Cloud Search की कॉन्फ़िगरेशन फ़ाइल Norconex डायरेक्ट्री, जहां Norconex एचटीटीपी Collector इंस्टॉल है. Google के सुझाव जिसे आपने Cloud Search कॉन्फ़िगरेशन फ़ाइल का नाम दिया है sdk-configuration.properties.

इस कॉन्फ़िगरेशन फ़ाइल में, पैरामीटर तय करने वाले कुंजी/वैल्यू पेयर शामिल होने चाहिए. कॉन्फ़िगरेशन फ़ाइल में कम से कम ये पैरामीटर ज़रूर होने चाहिए, जो Cloud Search डेटा सोर्स को ऐक्सेस करने के लिए ज़रूरी है.

सेटिंग पैरामीटर
डेटा सोर्स का आईडी api.sourceId = 1234567890abcdef
ज़रूरी है. Cloud Search का सोर्स आईडी, जिसे Google Workspace एडमिन ने सेट अप किया है.
सेवा खाता api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ज़रूरी है. Cloud Search सेवा खाते की कुंजी फ़ाइल, जिसे Google Workspace एडमिन ने इंडेक्सर प्लगिन की सुलभता के लिए बनाया था.

यहां दिए गए उदाहरण में, sdk-configuration.propertiesफ़ाइल दी गई है.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

कॉन्फ़िगरेशन फ़ाइल में Google के दिए गए कॉन्फ़िगरेशन पैरामीटर भी शामिल हो सकते हैं. यह प्लगिन, Google Cloud Search API में डेटा को कैसे पुश करता है, इन पैरामीटर की मदद से ऐसा हो सकता है. उदाहरण के लिए, पैरामीटर का batch.* सेट यह पहचान करता है कि कनेक्टर, अनुरोधों को कैसे जोड़ता है.

अगर आप कॉन्फ़िगरेशन फ़ाइल में कोई पैरामीटर निर्धारित नहीं करते है, तो डिफ़ॉल्ट मान, अगर उपलब्ध हो, तो उसका इस्तेमाल किया जाता है. हर पैरामीटर की पूरी जानकारी पाने के लिए, यह पढ़ें Google की ओर से दिए गए कनेक्टर पैरामीटर.

इंडेक्स करने वाले प्लगिन को कॉन्फ़िगर करें, ताकि मेटाडेटा और स्ट्रक्चर्ड डेटा में कॉन्टेंट को इंडेक्स किया जा रहा हो. मेटाडेटा और स्ट्रक्चर्ड डेटा के लिए, अपने-आप भरी जाने वाली वैल्यू फ़ील्ड को, इंडेक्स किए जा रहे एचटीएमएल कॉन्टेंट के मेटा टैग से एक्सट्रैक्ट किया जा सकता है या डिफ़ॉल्ट वैल्यू, कॉन्फ़िगरेशन फ़ाइल में दी जा सकती हैं.

सेटिंग पैरामीटर
शीर्षक itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
डिफ़ॉल्ट रूप से, प्लगिन, इंडेक्स किए जा रहे दस्तावेज़ के टाइटल के तौर पर HTML title का इस्तेमाल करता है. अगर टाइटल मौजूद नहीं है, तो मेटाडेटा एट्रिब्यूट जिसमें दस्तावेज़ के टाइटल से मिलती-जुलती वैल्यू शामिल हो या कोई डिफ़ॉल्ट वैल्यू सेट की गई हो.
बनाए जाने का टाइमस्टैंप itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
मेटाडेटा एट्रिब्यूट जिसमें दस्तावेज़ बनाने के टाइमस्टैंप की वैल्यू शामिल होती है.
अंतिम संशोधित समय itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
मेटाडेटा एट्रिब्यूट जिसमें दस्तावेज़ में हुए आखिरी बदलाव के टाइमस्टैंप की वैल्यू शामिल होती है.
दस्तावेज़ की भाषा itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
इंडेक्स किए जा रहे दस्तावेज़ों के कॉन्टेंट की भाषा.
स्कीमा ऑब्जेक्ट का टाइप itemMetadata.objectType=movie
साइट के लिए इस्तेमाल किया गया ऑब्जेक्ट टाइप, जैसा कि डेटा सोर्स के स्कीमा ऑब्जेक्ट की परिभाषाएं. कनेक्टर किसी भी डेटा को इंडेक्स नहीं करेगा स्ट्रक्चर्ड डेटा सबमिट करें.

ध्यान दें: यह कॉन्फ़िगरेशन प्रॉपर्टी, किसी वैल्यू पर ले जाती है एक मेटाडेटा एट्रिब्यूट से शामिल किया जाता है और .field और .defaultValue प्रत्यय समर्थित नहीं हैं.

तारीख और समय के फ़ॉर्मैट

तारीख और समय के फ़ॉर्मैट, मेटाडेटा एट्रिब्यूट में शामिल होने वाले फ़ॉर्मैट के बारे में बताते हैं. अगर कॉन्फ़िगरेशन फ़ाइल में यह पैरामीटर शामिल नहीं है, तो डिफ़ॉल्ट मान ये हैं इस्तेमाल किया गया. नीचे दी गई टेबल में यह पैरामीटर दिखाया गया है.

सेटिंग

पैरामीटर

तारीख और समय के अतिरिक्त पैटर्न

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

अतिरिक्त java.time.format.DateTimeFormatter की सेमीकॉलन से अलग की गई सूची पैटर्न. इन पैटर्न का इस्तेमाल, किसी भी तारीख या तारीख की वैल्यू को पार्स करते समय किया जाता है फ़ील्ड की जानकारी देनी होगी. डिफ़ॉल्ट वैल्यू एक खाली सूची होती है. हालांकि, आरएफ़सी 3339 और आरएफ़सी 1123 फ़ॉर्मैट हमेशा इस्तेमाल किए जा सकते हैं.

तीसरा चरण: Norconex एचटीटीपी कलेक्टर को कॉन्फ़िगर करें

ज़िप संग्रह में norconex-committer-google-cloud-search-{version}.zipएक कॉन्फ़िगरेशन फ़ाइल का सैंपल, minimum-config.xml.

Google का सुझाव है कि आप सैंपल फ़ाइल को कॉपी करके कॉन्फ़िगरेशन शुरू करें:

  1. Norconex एचटीटीपी कलेक्टर डायरेक्ट्री में बदलें:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. कॉन्फ़िगरेशन फ़ाइल कॉपी करें:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. नई बनाई गई फ़ाइल में बदलाव करें (इस उदाहरण में, gcs-crawl-config.xml) और मौजूदा <committer> और <tagger> नोड जोड़ें या बदलें यहां दी गई टेबल में बताया गया है.
सेटिंग पैरामीटर
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ज़रूरी है. प्लग इन चालू करने के लिए, आपको रूट <httpcollector> नोड के चाइल्ड के रूप में <committer> नोड जोड़ना होगा.
<UploadFormat> <uploadFormat>raw</uploadFormat>
ज़रूरी नहीं. वह फ़ॉर्मैट जिसमें इंडेक्सर प्लगिन, दस्तावेज़ के कॉन्टेंट को Google Cloud Search इंडेक्स करने वाले एपीआई में भेजता है. मान्य मान हैं:
  • raw: इंडेक्सर प्लगिन, दस्तावेज़ के ऐसे कॉन्टेंट को पुश करता है जिसमें बदलाव नहीं किया गया है.
  • text: इंडेक्सर प्लगिन, टेक्स्ट के निकाले गए कॉन्टेंट को पुश करता है.

डिफ़ॉल्ट वैल्यू raw है.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
अगर <UploadFormat> की वैल्यू raw है, तो इसका इस्तेमाल करना ज़रूरी है. इस स्थिति में, इंडेक्सर प्लगिन के लिए दस्तावेज़ का बाइनरी कॉन्टेंट फ़ील्ड उपलब्ध होना ज़रूरी है.

आपको BinaryContentTagger <tagger> नोड को <importer> / <preParseHandlers> नोड के चाइल्ड एलिमेंट के रूप में जोड़ना होगा.

नीचे दिए गए उदाहरण में, विज्ञापन देने वालों के लिए में संशोधन gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

चौथा चरण: वेब क्रॉल कॉन्फ़िगर करना

वेब क्रॉल शुरू करने से पहले, आपको क्रॉल को कॉन्फ़िगर करना होगा, ताकि यह सिर्फ़ इसमें वह जानकारी शामिल होती है जिसे आपका संगठन खोज नतीजों में उपलब्ध कराना चाहता है नतीजे. वेब क्रॉल के लिए सबसे अहम सेटिंग, <crawler> का हिस्सा हैं नोड और उनमें शामिल हो सकते हैं:

  • शुरू करने के लिए यूआरएल
  • क्रॉल किए जाने से जुड़ी ज़्यादा से ज़्यादा गहराई
  • थ्रेड की संख्या

इन कॉन्फ़िगरेशन वैल्यू को अपनी ज़रूरत के हिसाब से बदलें. ज़्यादा जानकारी के लिए वेब क्रॉल सेट अप करने के बारे में जानकारी और उपलब्ध विकल्पों की पूरी सूची कॉन्फ़िगरेशन पैरामीटर के लिए, एचटीटीपी कलेक्टर देखें कॉन्फ़िगरेशन करें.

पांचवां चरण: वेब क्रॉल और कॉन्टेंट अपलोड करना शुरू करना

इंडेक्सर प्लगिन को इंस्टॉल और सेट अप करने के बाद, उसे वह भी लोकल मोड में हो.

नीचे दिए गए उदाहरण में माना गया है कि ज़रूरी कॉम्पोनेंट, डायरेक्ट्री पर क्लिक करें. नीचे दिया गया निर्देश चलाएं:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor की मदद से, क्रॉलर को मॉनिटर करें

Norconex JEF (जॉब एक्ज़ीक्यूशन फ़्रेमवर्क) मॉनिटर, Norconex वेब क्रॉलर (एचटीटीपी कलेक्टर) की प्रोसेस की प्रोग्रेस को मॉनिटर करना और नौकरियां. इस यूटिलिटी को सेट अप करने का तरीका सिखाने वाला ट्यूटोरियल देखने के लिए, यहां जाएं JEF Monitor की मदद से, अपने क्रॉलर की प्रोग्रेस पर नज़र रखें.