একটি Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন স্থাপন করুন

এই নির্দেশিকাটি গুগল ক্লাউড সার্চ নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইন ডাউনলোড, স্থাপন এবং রক্ষণাবেক্ষণের জন্য দায়ী প্রশাসকদের জন্য। আপনার লিনাক্স, ওয়েব ক্রলিং ফান্ডামেন্টাল, XML এবং নরকোনেক্স HTTP কালেক্টরের সাথে পরিচিত হওয়া উচিত।

এই নির্দেশিকাটিতে নিম্নলিখিত বিষয়গুলির জন্য নির্দেশাবলী অন্তর্ভুক্ত রয়েছে:

  • ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন।
  • ক্লাউড অনুসন্ধান কনফিগার করুন।
  • নরকোনেক্স HTTP কালেক্টর এবং ওয়েব ক্রলিং কনফিগার করুন।
  • ওয়েব ক্রল শুরু করুন এবং কন্টেন্ট আপলোড করুন।

Google Workspace অ্যাডমিনিস্ট্রেটরকে যে কাজগুলি করতে হবে সে সম্পর্কে তথ্য এই নির্দেশিকায় নেই। সেই কাজগুলি সম্পর্কে তথ্যের জন্য, তৃতীয় পক্ষের ডেটা সোর্স পরিচালনা করুন দেখুন।

নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইনের সংক্ষিপ্ত বিবরণ

ডিফল্টরূপে, ক্লাউড সার্চ গুগল ডক্স এবং জিমেইলের মতো গুগল ওয়ার্কস্পেস পণ্য থেকে কন্টেন্ট আবিষ্কার, ইন্ডেক্স এবং পরিবেশন করতে পারে। আপনি নরকোনেক্স HTTP কালেক্টর , একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলারের জন্য ইনডেক্সার প্লাগইন স্থাপন করে ওয়েব কন্টেন্ট অন্তর্ভুক্ত করার জন্য এটি প্রসারিত করতে পারেন।

কনফিগারেশন বৈশিষ্ট্য ফাইল

প্লাগইনটি ক্রল এবং কন্টেন্ট আপলোড করার জন্য, আপনাকে দুটি কনফিগারেশন ফাইলে নির্দিষ্ট তথ্য প্রদান করতে হবে:

  • {gcs-crawl-config.xml} : নরকোনেক্স HTTP কালেক্টরের জন্য সেটিংস।
  • sdk-configuration.properties : ক্লাউড সার্চের জন্য সেটিংস।

ওয়েব ক্রল এবং কন্টেন্ট আপলোড

কনফিগারেশন ফাইলগুলি পূরণ করার পরে, আপনি ওয়েব ক্রল শুরু করতে পারেন। নরকোনেক্স HTTP কালেক্টর ওয়েব ক্রল করে এবং ক্লাউড অনুসন্ধান ইনডেক্সিং API-তে মূল বাইনারি বা টেক্সট ডকুমেন্ট সামগ্রী আপলোড করে।

সিস্টেমের জন্য আবশ্যক

  • অপারেটিং সিস্টেম : শুধুমাত্র লিনাক্স।
  • নরকোনেক্স সংস্করণ : সংস্করণ 2.8.0।
  • সফটওয়্যার : জাভা জেআরই ১.৮।

ACL সাপোর্ট

ইনডেক্সার প্লাগইনটি গুগল ওয়ার্কস্পেস ডোমেনে ডকুমেন্টগুলিতে অ্যাক্সেস নিয়ন্ত্রণ করতে অ্যাক্সেস কন্ট্রোল লিস্ট (ACL) সমর্থন করে।

যদি আপনি প্লাগইন কনফিগারেশনে ডিফল্ট ACL গুলি সক্ষম করেন ( defaultAcl.mode other than none তে সেট করা থাকে), তাহলে প্লাগইনটি এই ডিফল্টগুলি প্রয়োগ করবে। অন্যথায়, প্লাগইনটি সমগ্র ডোমেনকে পড়ার অনুমতি দেবে। Google-সরবরাহকৃত সংযোগকারী পরামিতিগুলি দেখুন।

পূর্বশর্ত

ইনডেক্সার প্লাগইন স্থাপনের আগে, এই উপাদানগুলি সংগ্রহ করুন:

স্থাপনের ধাপ

  1. নরকোনেক্স HTTP কালেক্টর এবং প্লাগইন সফটওয়্যার ইনস্টল করুন
  2. ক্লাউড সার্চ কনফিগার করুন
  3. নরকোনেক্স HTTP কালেক্টর কনফিগার করুন
  4. ওয়েব ক্রল কনফিগার করুন
  5. একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

ধাপ ১: নরকোনেক্স HTTP কালেক্টর এবং প্লাগইন সফটওয়্যার ইনস্টল করুন

  1. নরকোনেক্স ডাউনলোড পৃষ্ঠা থেকে নরকোনেক্স কমিটর সফটওয়্যারটি ডাউনলোড করুন।
  2. সফটওয়্যারটি ~/norconex/ এ এক্সট্র্যাক্ট করুন।
  3. কমিটর প্লাগইনটি ক্লোন করুন:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. আপনার নির্বাচিত সংস্করণটি দেখুন এবং প্লাগইনটি তৈরি করুন:

    git checkout tags/v1-0.0.3
    mvn package
    

    পরীক্ষা এড়িয়ে যেতে, mvn package -DskipTests ব্যবহার করুন।

  5. JAR ফাইলটি Norconex lib ডিরেক্টরিতে কপি করুন:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. বিল্ট জিপ ফাইলটি এক্সট্র্যাক্ট করুন:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. ইনস্টল স্ক্রিপ্টটি চালান এবং Norconex lib ডিরেক্টরিতে সম্পূর্ণ পথ প্রদান করুন:

    sh install.sh
    

    যদি ডুপ্লিকেট ফাইলের জন্য অনুরোধ করা হয়, তাহলে বিকল্প 1 নির্বাচন করুন।

ধাপ ২: ক্লাউড অনুসন্ধান কনফিগার করুন

Norconex ডিরেক্টরিতে sdk-configuration.properties তৈরি করুন। ফাইলটিতে এই পরামিতিগুলি নির্দিষ্ট করতে হবে:

বিন্যাস প্যারামিটার
ডেটা সোর্স আইডি api.sourceId = 1234567890abcdef
প্রয়োজন। আপনার Google Workspace অ্যাডমিনিস্ট্রেটরের সোর্স আইডি।
পরিষেবা অ্যাকাউন্ট api.serviceAccountPrivateKeyFile = ./PrivateKey.json
প্রয়োজনীয়। পরিষেবা অ্যাকাউন্ট কী ফাইল।

উদাহরণ sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

প্লাগইন কীভাবে ডেটা পুশ করে তা নিয়ন্ত্রণ করতে আপনি batch.* Google-সরবরাহকৃত সংযোগকারী প্যারামিটারগুলি দেখুন।

মেটাডেটা পূরণ করতে, এই ঐচ্ছিক প্যারামিটারগুলি কনফিগার করুন:

বিন্যাস প্যারামিটার
শিরোনাম itemMetadata.title.field= movieTitle
স্কিমা অবজেক্টের ধরণ itemMetadata.objectType= movie

ধাপ ৩: নরকোনেক্স HTTP কালেক্টর কনফিগার করুন

প্লাগইনটিতে একটি নমুনা ফাইল রয়েছে, minimum-config.xml

  1. Norconex ডিরেক্টরিতে যান এবং নমুনাটি অনুলিপি করুন:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. <committer> এবং <tagger> নোড যোগ বা প্রতিস্থাপন করতে gcs-crawl-config.xml সম্পাদনা করুন:

বিন্যাস প্যারামিটার
<committer> নোড <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
প্রয়োজন। <httpcollector> নোডের অধীনে এটি যোগ করুন।
<uploadFormat> <uploadFormat>raw</uploadFormat>
ঐচ্ছিক। raw অথবা text । ডিফল্ট হল raw

উদাহরণ gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ধাপ ৪: ওয়েব ক্রল কনফিগার করুন

আপনার প্রয়োজন অনুসারে <crawler> নোডগুলি কনফিগার করুন, যার মধ্যে রয়েছে:

  • শুরুর URL গুলি
  • সর্বোচ্চ ক্রল গভীরতা
  • থ্রেডের সংখ্যা

নরকোনেক্স কনফিগারেশন পৃষ্ঠাটি দেখুন।

ধাপ ৫: একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

স্থানীয় মোডে সংগ্রাহক চালান:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF মনিটর দিয়ে ক্রলারটি পর্যবেক্ষণ করুন

নরকোনেক্স জেইএফ (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর অগ্রগতির একটি গ্রাফিক্যাল ভিউ প্রদান করে। জেইএফ মনিটর দিয়ে আপনার ক্রলার মনিটর করুন দেখুন।