একটি Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন স্থাপন করুন

এই নির্দেশিকাটি Google ক্লাউড সার্চ Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন অ্যাডমিনিস্ট্রেটরদের জন্য তৈরি করা হয়েছে, অর্থাৎ যে কেউ ইনডেক্সার প্লাগইন ডাউনলোড, স্থাপন, কনফিগার এবং রক্ষণাবেক্ষণের জন্য দায়ী। গাইড অনুমান করে যে আপনি লিনাক্স অপারেটিং সিস্টেম, ওয়েব ক্রলিংয়ের মৌলিক বিষয়, XML এবং Norconex HTTP কালেক্টরের সাথে পরিচিত।

এই নির্দেশিকায় ইনডেক্সার প্লাগইন স্থাপনার সাথে সম্পর্কিত মূল কাজগুলি সম্পাদনের জন্য নির্দেশাবলী অন্তর্ভুক্ত রয়েছে:

  • ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন
  • Google ক্লাউড অনুসন্ধান কনফিগার করুন
  • Norconex HTTP সংগ্রাহক এবং ওয়েব ক্রলিং কনফিগার করুন
  • ওয়েব ক্রল শুরু করুন এবং সামগ্রী আপলোড করুন

Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন-এ Google ক্লাউড সার্চ ম্যাপ করার জন্য Google Workspace অ্যাডমিনিস্ট্রেটরকে যে কাজগুলি করতে হবে সে সম্পর্কে তথ্য এই নির্দেশিকায় নেই। এই কাজগুলির তথ্যের জন্য, তৃতীয় পক্ষের ডেটা উত্সগুলি পরিচালনা করুন দেখুন৷

ক্লাউড সার্চ Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইনের ওভারভিউ

ডিফল্টরূপে, ক্লাউড সার্চ Google Docs এবং Gmail-এর মতো Google Workspace প্রোডাক্ট থেকে কন্টেন্ট আবিষ্কার, ইন্ডেক্স এবং পরিবেশন করতে পারে। Norconex HTTP কালেক্টর , একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলারের জন্য ইনডেক্সার প্লাগইন স্থাপন করে আপনার ব্যবহারকারীদের কাছে ওয়েব সামগ্রী পরিবেশন করা অন্তর্ভুক্ত করতে আপনি Google ক্লাউড অনুসন্ধানের নাগাল প্রসারিত করতে পারেন৷

কনফিগারেশন বৈশিষ্ট্য ফাইল

ইন্ডেক্সার প্লাগইনকে ওয়েব ক্রল করতে এবং ইন্ডেক্সিং এপিআই-তে কন্টেন্ট আপলোড করতে সক্ষম করতে, আপনি, ইনডেক্সার প্লাগইন অ্যাডমিনিস্ট্রেটর হিসেবে, ডিপ্লয়মেন্ট ধাপে এই নথিতে বর্ণিত কনফিগারেশন ধাপের সময় নির্দিষ্ট তথ্য প্রদান করেন।

ইনডেক্সার প্লাগইন ব্যবহার করতে, আপনাকে অবশ্যই দুটি কনফিগারেশন ফাইলে বৈশিষ্ট্য সেট করতে হবে:

  • {gcs-crawl-config.xml} -- Norconex HTTP সংগ্রাহকের সেটিংস রয়েছে৷
  • sdk-configuration.properties ---এ Google ক্লাউড অনুসন্ধানের সেটিংস রয়েছে৷

প্রতিটি ফাইলের বৈশিষ্ট্যগুলি একে অপরের সাথে যোগাযোগ করতে Google ক্লাউড অনুসন্ধান সূচক প্লাগইন এবং Norconex HTTP সংগ্রাহককে সক্ষম করে৷

ওয়েব ক্রল এবং কন্টেন্ট আপলোড

আপনি কনফিগারেশন ফাইলগুলি পূরণ করার পরে, ওয়েব ক্রল শুরু করার জন্য আপনার কাছে প্রয়োজনীয় সেটিংস রয়েছে। Norconex HTTP সংগ্রাহক ওয়েব ক্রল করে, ডকুমেন্ট সামগ্রী আবিষ্কার করে যা এর কনফিগারেশনের সাথে সম্পর্কিত এবং ক্লাউড সার্চ ইন্ডেক্সিং API-এ নথি সামগ্রীর মূল বাইনারি (বা পাঠ্য) সংস্করণ আপলোড করে যেখানে এটি সূচীভুক্ত হয় এবং শেষ পর্যন্ত আপনার ব্যবহারকারীদের কাছে পরিবেশন করা হয়।

সমর্থিত অপারেটিং সিস্টেম

Google ক্লাউড সার্চ Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন অবশ্যই Linux-এ ইনস্টল করতে হবে।

সমর্থিত Norconex HTTP কালেক্টর সংস্করণ

Google ক্লাউড সার্চ Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন সংস্করণ 2.8.0 সমর্থন করে।

ACL সমর্থন

ইনডেক্সার প্লাগইন অ্যাক্সেস কন্ট্রোল লিস্ট (ACLs) ব্যবহার করে Google Workspace ডোমেনে ডকুমেন্টে অ্যাক্সেস নিয়ন্ত্রণ করতে সহায়তা করে।

যদি Google ক্লাউড সার্চ প্লাগইন কনফিগারেশনে ডিফল্ট ACL সক্রিয় করা থাকে ( defaultAcl.mode none ছাড়া অন্য তে সেট করা থাকে এবং defaultAcl.* এর সাথে কনফিগার করা থাকে), ইনডেক্সার প্লাগইন প্রথমে একটি ডিফল্ট ACL তৈরি এবং প্রয়োগ করার চেষ্টা করে।

ডিফল্ট ACL চালু না থাকলে, প্লাগইন সম্পূর্ণ Google Workspace ডোমেনে পড়ার অনুমতি দেয়।

ACL কনফিগারেশন প্যারামিটারের বিশদ বিবরণের জন্য, Google-এর সরবরাহকৃত সংযোগকারী পরামিতিগুলি দেখুন।

পূর্বশর্ত

আপনি ইনডেক্সার প্লাগইন স্থাপন করার আগে, নিশ্চিত করুন যে আপনার কাছে নিম্নলিখিত প্রয়োজনীয় উপাদান রয়েছে:

  • Java JRE 1.8 একটি কম্পিউটারে ইনস্টল করা যা ইনডেক্সার প্লাগইন চালায়
  • ক্লাউড সার্চ এবং Norconex HTTP সংগ্রাহকের মধ্যে সম্পর্ক স্থাপনের জন্য প্রয়োজনীয় Google Workspace তথ্য:

    সাধারণত, ডোমেনের জন্য Google Workspace অ্যাডমিনিস্ট্রেটর আপনার জন্য এই ক্রেডেনশিয়ালগুলি সরবরাহ করতে পারে।

স্থাপনার পদক্ষেপ

ইনডেক্সার প্লাগইন স্থাপন করতে, এই পদক্ষেপগুলি অনুসরণ করুন:

  1. Norconex HTTP কালেক্টর এবং indexer প্লাগইন সফ্টওয়্যার ইনস্টল করুন
  2. Google ক্লাউড অনুসন্ধান কনফিগার করুন
  3. Norconex HTTP সংগ্রাহক কনফিগার করুন
  4. ওয়েব ক্রল কনফিগার করুন
  5. একটি ওয়েব ক্রল এবং সামগ্রী আপলোড শুরু করুন৷

ধাপ 1: Norconex HTTP সংগ্রাহক এবং indexer প্লাগইন সফ্টওয়্যার ইনস্টল করুন

  1. এই পেজ থেকে Norconex কমিটর সফটওয়্যারটি ডাউনলোড করুন।
  2. ডাউনলোড করা সফটওয়্যারটিকে ~/norconex/ ফোল্ডারে আনজিপ করুন
  3. GitHub থেকে কমিটর প্লাগইন ক্লোন করুন। git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git এবং তারপরে cd norconex-committer-plugin
  4. কমিটর প্লাগইনের পছন্দসই সংস্করণটি দেখুন এবং জিপ ফাইলটি তৈরি করুন: git checkout tags/v1-0.0.3 এবং mvn package (সংযোগকারী তৈরি করার সময় পরীক্ষাগুলি এড়িয়ে যেতে, mvn package -DskipTests ব্যবহার করুন।)
  5. cd target
  6. norconex lib ডিরেক্টরিতে নির্মিত প্লাগইন জার ফাইলটি অনুলিপি করুন। cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. আপনার তৈরি করা জিপ ফাইলটি বের করুন তারপর ফাইলটি আনজিপ করুন: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. প্লাগইনের .jar এবং সমস্ত প্রয়োজনীয় লাইব্রেরিগুলি http সংগ্রাহকের ডিরেক্টরিতে অনুলিপি করতে ইনস্টল স্ক্রিপ্টটি চালান:
    1. উপরে আনজিপ করা এক্সট্র্যাক্ট করা কমিটর প্লাগইনে পরিবর্তন করুন: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh এক্সিকিউট করুন এবং প্রম্পট করা হলে norconex/norconex-collector-http-{version}/lib এ টার্গেট ডিরেক্টরি হিসেবে সম্পূর্ণ পাথ প্রদান করুন।
    3. যদি ডুপ্লিকেট জার ফাইল পাওয়া যায়, তাহলে বিকল্প 1 নির্বাচন করুন (উৎস জার কপি করুন শুধুমাত্র যদি বড় বা একই সংস্করণ টার্গেট জার নামকরণের পরে টার্গেট জার হিসাবে)।

ধাপ 2: Google ক্লাউড অনুসন্ধান কনফিগার করুন

Norconex HTTP সংগ্রাহকের সাথে সংযোগ করতে এবং প্রাসঙ্গিক বিষয়বস্তু সূচী করার জন্য indexer প্লাগইনের জন্য, আপনাকে Norconex ডিরেক্টরিতে ক্লাউড অনুসন্ধান কনফিগারেশন ফাইল তৈরি করতে হবে যেখানে Norconex HTTP কালেক্টর ইনস্টল করা আছে। Google সুপারিশ করে যে আপনি ক্লাউড অনুসন্ধান কনফিগারেশন ফাইলটির নাম sdk-configuration.properties

এই কনফিগারেশন ফাইলে অবশ্যই কী/মান জোড়া থাকতে হবে যা একটি প্যারামিটার সংজ্ঞায়িত করে। কনফিগারেশন ফাইলে অন্তত নিম্নলিখিত পরামিতিগুলি নির্দিষ্ট করতে হবে, যা ক্লাউড সার্চ ডেটা উৎস অ্যাক্সেস করার জন্য প্রয়োজনীয়৷

বিন্যাস প্যারামিটার
ডেটা সোর্স আইডি api.sourceId = 1234567890abcdef
প্রয়োজন। Cloud Search সোর্স আইডি Google Workspace অ্যাডমিনিস্ট্রেটর সেট-আপ করেছেন।
পরিষেবা অ্যাকাউন্ট api.serviceAccountPrivateKeyFile = ./PrivateKey.json
প্রয়োজন। ক্লাউড সার্চ পরিষেবা অ্যাকাউন্ট কী ফাইল যেটি Google Workspace অ্যাডমিনিস্ট্রেটর ইন্ডেক্সার প্লাগইন অ্যাক্সেসযোগ্যতার জন্য তৈরি করেছেন।

নিম্নলিখিত উদাহরণটি একটি sdk-configuration.properties ফাইল দেখায়।

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

কনফিগারেশন ফাইলটিতে Google-এর সরবরাহকৃত কনফিগারেশন প্যারামিটারও থাকতে পারে। এই প্যারামিটারগুলি কীভাবে এই প্লাগইনটি Google ক্লাউড অনুসন্ধান API-এ ডেটা পুশ করে তা প্রভাবিত করতে পারে৷ উদাহরণস্বরূপ, batch.* প্যারামিটারের সেটটি সনাক্ত করে কিভাবে সংযোগকারী অনুরোধগুলিকে একত্রিত করে।

আপনি যদি কনফিগারেশন ফাইলে একটি প্যারামিটার সংজ্ঞায়িত না করেন, ডিফল্ট মান, যদি উপলব্ধ থাকে, ব্যবহার করা হয়। প্রতিটি প্যারামিটারের বিশদ বিবরণের জন্য, Google-এর সরবরাহকৃত সংযোগকারী পরামিতিগুলি দেখুন।

আপনি মেটাডেটা এবং সূচীকৃত বিষয়বস্তুর জন্য স্ট্রাকচার্ড ডেটা পপুলেট করতে সূচক প্লাগইন কনফিগার করতে পারেন। মেটাডেটা এবং স্ট্রাকচার্ড ডেটা ফিল্ডের জন্য মানগুলিকে এইচটিএমএল কন্টেন্টের মেটা ট্যাগগুলি থেকে বের করা যেতে পারে যা ইন্ডেক্স করা হচ্ছে বা ডিফল্ট মানগুলি কনফিগারেশন ফাইলে নির্দিষ্ট করা যেতে পারে।

বিন্যাস প্যারামিটার
শিরোনাম itemMetadata.title.field= movieTitle
itemMetadata.title.defaultValue= Gone with the Wind
ডিফল্টরূপে, প্লাগইনটি HTML title ব্যবহার করে ডকুমেন্টের শিরোনাম হিসাবে ইন্ডেক্স করা হচ্ছে। অনুপস্থিত শিরোনামের ক্ষেত্রে, আপনি হয় মেটাডেটা বৈশিষ্ট্য উল্লেখ করতে পারেন যাতে নথির শিরোনামের সাথে সম্পর্কিত মান রয়েছে বা একটি ডিফল্ট মান সেট করতে পারেন।
টাইমস্ট্যাম্প তৈরি করা হয়েছে itemMetadata.createTime.field= releaseDate
itemMetadata.createTime.defaultValue= 1940-01-17
মেটাডেটা অ্যাট্রিবিউট যাতে ডকুমেন্ট তৈরির টাইমস্ট্যাম্পের মান থাকে।
শেষ পরিবর্তিত সময় itemMetadata.updateTime.field= releaseDate
itemMetadata.updateTime.defaultValue= 1940-01-17
মেটাডেটা অ্যাট্রিবিউট যাতে ডকুমেন্টের শেষ পরিবর্তনের টাইমস্ট্যাম্পের মান থাকে।
নথির ভাষা itemMetadata.contentLanguage.field= languageCode
itemMetadata.contentLanguage.defaultValue= en-US
সূচীকৃত নথিগুলির জন্য বিষয়বস্তুর ভাষা।
স্কিমা অবজেক্ট টাইপ itemMetadata.objectType= movie
সাইট দ্বারা ব্যবহৃত বস্তুর ধরন, যেমন ডেটা সোর্স স্কিমা অবজেক্টের সংজ্ঞায় সংজ্ঞায়িত করা হয়েছে। এই প্রপার্টি নির্দিষ্ট না হলে সংযোগকারী কোনো স্ট্রাকচার্ড ডেটা ইন্ডেক্স করবে না।

দ্রষ্টব্য : এই কনফিগারেশন বৈশিষ্ট্যটি একটি মেটাডেটা বৈশিষ্ট্যের পরিবর্তে একটি মান নির্দেশ করে এবং .field এবং .defaultValue প্রত্যয়গুলি সমর্থিত নয়৷

তারিখ সময় বিন্যাস

ডেটটাইম ফর্ম্যাটগুলি মেটাডেটা বৈশিষ্ট্যগুলিতে প্রত্যাশিত ফর্ম্যাটগুলি নির্দিষ্ট করে৷ কনফিগারেশন ফাইলে এই প্যারামিটার না থাকলে, ডিফল্ট মান ব্যবহার করা হয়। নিম্নলিখিত টেবিল এই পরামিতি দেখায়.

বিন্যাস

প্যারামিটার

অতিরিক্ত তারিখ সময় নিদর্শন

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

অতিরিক্ত java.time.format.DateTimeFormatter প্যাটার্নের একটি সেমিকোলন-বিচ্ছিন্ন তালিকা। মেটাডেটা বা স্কিমার কোনো তারিখ বা তারিখ-সময় ক্ষেত্রের জন্য স্ট্রিং মান পার্স করার সময় প্যাটার্ন ব্যবহার করা হয়। ডিফল্ট মান একটি খালি তালিকা, কিন্তু RFC 3339 এবং RFC 1123 বিন্যাস সর্বদা সমর্থিত।

ধাপ 3: Norconex HTTP সংগ্রাহক কনফিগার করুন

জিপ সংরক্ষণাগার norconex-committer-google-cloud-search-{version}.zip একটি নমুনা কনফিগারেশন ফাইল রয়েছে, minimum-config.xml

Google সুপারিশ করে যে আপনি নমুনা ফাইলটি অনুলিপি করে কনফিগারেশন শুরু করুন:

  1. Norconex HTTP কালেক্টর ডিরেক্টরিতে পরিবর্তন করুন:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. কনফিগারেশন ফাইলটি অনুলিপি করুন:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. সদ্য নির্মিত ফাইলটি সম্পাদনা করুন (এই উদাহরণে, gcs-crawl-config.xml ) এবং নিম্নলিখিত টেবিলে বর্ণিত বিদ্যমান <committer> এবং <tagger> নোডগুলি যোগ করুন বা প্রতিস্থাপন করুন।
বিন্যাস প্যারামিটার
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

প্রয়োজন। প্লাগইন সক্রিয় করতে, আপনাকে অবশ্যই একটি <committer> নোড যোগ করতে হবে রুট <httpcollector> নোডের চাইল্ড হিসেবে।
<UploadFormat> <uploadFormat>raw</uploadFormat>
ঐচ্ছিক। যে বিন্যাসে ইন্ডেক্সার প্লাগইন ডকুমেন্ট কন্টেন্টকে Google ক্লাউড সার্চ ইন্ডেক্সার API-এ পুশ করে। বৈধ মান হল:
  • raw : ইনডেক্সার প্লাগইন মূল, অপরিবর্তিত নথি বিষয়বস্তুকে পুশ করে।
  • text : ইনডেক্সার প্লাগইন এক্সট্রাক্ট করা পাঠ্য বিষয়বস্তুকে পুশ করে।

ডিফল্ট মান raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> এর মান raw হলে প্রয়োজন। এই ক্ষেত্রে, ইনডেক্সার প্লাগইনকে নথির বাইনারি বিষয়বস্তু ক্ষেত্রটি উপলব্ধ হতে হবে।

আপনাকে অবশ্যই BinaryContentTagger <tagger> নোডকে <importer> / <preParseHandlers> নোডের একটি চাইল্ড এলিমেন্ট হিসেবে যোগ করতে হবে।

নিম্নলিখিত উদাহরণটি gcs-crawl-config.xml এ প্রয়োজনীয় পরিবর্তন দেখায়।

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ধাপ 4: ওয়েব ক্রল কনফিগার করুন

একটি ওয়েব ক্রল শুরু করার আগে, আপনাকে অবশ্যই ক্রলটি কনফিগার করতে হবে যাতে এটি শুধুমাত্র সেই তথ্য অন্তর্ভুক্ত করে যা আপনার সংস্থা অনুসন্ধান ফলাফলে উপলব্ধ করতে চায়৷ ওয়েব ক্রলের জন্য সবচেয়ে গুরুত্বপূর্ণ সেটিংস হল <crawler> নোড(গুলি) এর অংশ এবং এতে অন্তর্ভুক্ত থাকতে পারে:

  • ইউআরএল শুরু করুন
  • ক্রল সর্বোচ্চ গভীরতা
  • থ্রেড সংখ্যা

আপনার প্রয়োজন অনুযায়ী এই কনফিগারেশন মান পরিবর্তন করুন. একটি ওয়েব ক্রল সেট আপ করার বিষয়ে আরও বিস্তারিত তথ্যের জন্য, সেইসাথে উপলব্ধ কনফিগারেশন প্যারামিটারগুলির একটি সম্পূর্ণ তালিকা, HTTP সংগ্রাহকের কনফিগারেশন পৃষ্ঠাটি দেখুন।

ধাপ 5: একটি ওয়েব ক্রল এবং সামগ্রী আপলোড শুরু করুন৷

আপনি ইনডেক্সার প্লাগইন ইনস্টল এবং সেট আপ করার পরে, আপনি স্থানীয় মোডে এটি নিজেই চালাতে পারেন।

নিম্নলিখিত উদাহরণটি অনুমান করে যে প্রয়োজনীয় উপাদানগুলি একটি Linux সিস্টেমের স্থানীয় ডিরেক্টরিতে অবস্থিত। নিম্নলিখিত কমান্ড চালান:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

জেইএফ মনিটর দিয়ে ক্রলার নিরীক্ষণ করুন

Norconex JEF (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর হল Norconex ওয়েব ক্রলার (HTTP কালেক্টর) প্রক্রিয়া এবং কাজের অগ্রগতি নিরীক্ষণের জন্য একটি গ্রাফিকাল টুল। কিভাবে এই ইউটিলিটি সেট আপ করতে হয় তার সম্পূর্ণ টিউটোরিয়ালের জন্য, JEF মনিটরের সাথে আপনার ক্রলারের অগ্রগতি পর্যবেক্ষণ করুন