এই নির্দেশিকাটি গুগল ক্লাউড সার্চ নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইন ডাউনলোড, স্থাপন এবং রক্ষণাবেক্ষণের জন্য দায়ী প্রশাসকদের জন্য। আপনার লিনাক্স, ওয়েব ক্রলিং ফান্ডামেন্টাল, XML এবং নরকোনেক্স HTTP কালেক্টরের সাথে পরিচিত হওয়া উচিত।
এই নির্দেশিকাটিতে নিম্নলিখিত বিষয়গুলির জন্য নির্দেশাবলী অন্তর্ভুক্ত রয়েছে:
- ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন।
- ক্লাউড অনুসন্ধান কনফিগার করুন।
- নরকোনেক্স HTTP কালেক্টর এবং ওয়েব ক্রলিং কনফিগার করুন।
- ওয়েব ক্রল শুরু করুন এবং কন্টেন্ট আপলোড করুন।
Google Workspace অ্যাডমিনিস্ট্রেটরকে যে কাজগুলি করতে হবে সে সম্পর্কে তথ্য এই নির্দেশিকায় নেই। সেই কাজগুলি সম্পর্কে তথ্যের জন্য, তৃতীয় পক্ষের ডেটা সোর্স পরিচালনা করুন দেখুন।
নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইনের সংক্ষিপ্ত বিবরণ
ডিফল্টরূপে, ক্লাউড সার্চ গুগল ডক্স এবং জিমেইলের মতো গুগল ওয়ার্কস্পেস পণ্য থেকে কন্টেন্ট আবিষ্কার, ইন্ডেক্স এবং পরিবেশন করতে পারে। আপনি নরকোনেক্স HTTP কালেক্টর , একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলারের জন্য ইনডেক্সার প্লাগইন স্থাপন করে ওয়েব কন্টেন্ট অন্তর্ভুক্ত করার জন্য এটি প্রসারিত করতে পারেন।
কনফিগারেশন বৈশিষ্ট্য ফাইল
প্লাগইনটি ক্রল এবং কন্টেন্ট আপলোড করার জন্য, আপনাকে দুটি কনফিগারেশন ফাইলে নির্দিষ্ট তথ্য প্রদান করতে হবে:
-
{gcs-crawl-config.xml}: নরকোনেক্স HTTP কালেক্টরের জন্য সেটিংস। -
sdk-configuration.properties: ক্লাউড সার্চের জন্য সেটিংস।
ওয়েব ক্রল এবং কন্টেন্ট আপলোড
কনফিগারেশন ফাইলগুলি পূরণ করার পরে, আপনি ওয়েব ক্রল শুরু করতে পারেন। নরকোনেক্স HTTP কালেক্টর ওয়েব ক্রল করে এবং ক্লাউড অনুসন্ধান ইনডেক্সিং API-তে মূল বাইনারি বা টেক্সট ডকুমেন্ট সামগ্রী আপলোড করে।
সিস্টেমের জন্য আবশ্যক
- অপারেটিং সিস্টেম : শুধুমাত্র লিনাক্স।
- নরকোনেক্স সংস্করণ : সংস্করণ 2.8.0।
- সফটওয়্যার : জাভা জেআরই ১.৮।
ACL সাপোর্ট
ইনডেক্সার প্লাগইনটি গুগল ওয়ার্কস্পেস ডোমেনে ডকুমেন্টগুলিতে অ্যাক্সেস নিয়ন্ত্রণ করতে অ্যাক্সেস কন্ট্রোল লিস্ট (ACL) সমর্থন করে।
যদি আপনি প্লাগইন কনফিগারেশনে ডিফল্ট ACL গুলি সক্ষম করেন ( defaultAcl.mode other than none তে সেট করা থাকে), তাহলে প্লাগইনটি এই ডিফল্টগুলি প্রয়োগ করবে। অন্যথায়, প্লাগইনটি সমগ্র ডোমেনকে পড়ার অনুমতি দেবে। Google-সরবরাহকৃত সংযোগকারী পরামিতিগুলি দেখুন।
পূর্বশর্ত
ইনডেক্সার প্লাগইন স্থাপনের আগে, এই উপাদানগুলি সংগ্রহ করুন:
- Google Workspace প্রাইভেট কী (পরিষেবা অ্যাকাউন্ট আইডি ধারণকারী)। ক্লাউড অনুসন্ধান API-তে অ্যাক্সেস কনফিগার করুন দেখুন।
- Google Workspace ডেটা সোর্স আইডি। তৃতীয় পক্ষের ডেটা সোর্স পরিচালনা করুন দেখুন।
স্থাপনের ধাপ
- নরকোনেক্স HTTP কালেক্টর এবং প্লাগইন সফটওয়্যার ইনস্টল করুন
- ক্লাউড সার্চ কনফিগার করুন
- নরকোনেক্স HTTP কালেক্টর কনফিগার করুন
- ওয়েব ক্রল কনফিগার করুন
- একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন
ধাপ ১: নরকোনেক্স HTTP কালেক্টর এবং প্লাগইন সফটওয়্যার ইনস্টল করুন
- নরকোনেক্স ডাউনলোড পৃষ্ঠা থেকে নরকোনেক্স কমিটর সফটওয়্যারটি ডাউনলোড করুন।
- সফটওয়্যারটি
~/norconex/এ এক্সট্র্যাক্ট করুন। কমিটর প্লাগইনটি ক্লোন করুন:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginআপনার নির্বাচিত সংস্করণটি দেখুন এবং প্লাগইনটি তৈরি করুন:
git checkout tags/v1-0.0.3 mvn packageপরীক্ষা এড়িয়ে যেতে,
mvn package -DskipTestsব্যবহার করুন।JAR ফাইলটি Norconex
libডিরেক্টরিতে কপি করুন:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libবিল্ট জিপ ফাইলটি এক্সট্র্যাক্ট করুন:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3ইনস্টল স্ক্রিপ্টটি চালান এবং Norconex
libডিরেক্টরিতে সম্পূর্ণ পথ প্রদান করুন:sh install.shযদি ডুপ্লিকেট ফাইলের জন্য অনুরোধ করা হয়, তাহলে বিকল্প
1নির্বাচন করুন।
ধাপ ২: ক্লাউড অনুসন্ধান কনফিগার করুন
Norconex ডিরেক্টরিতে sdk-configuration.properties তৈরি করুন। ফাইলটিতে এই পরামিতিগুলি নির্দিষ্ট করতে হবে:
| বিন্যাস | প্যারামিটার |
| ডেটা সোর্স আইডি | api.sourceId = 1234567890abcdefপ্রয়োজন। আপনার Google Workspace অ্যাডমিনিস্ট্রেটরের সোর্স আইডি। |
| পরিষেবা অ্যাকাউন্ট | api.serviceAccountPrivateKeyFile = ./PrivateKey.jsonপ্রয়োজনীয়। পরিষেবা অ্যাকাউন্ট কী ফাইল। |
উদাহরণ sdk-configuration.properties :
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
প্লাগইন কীভাবে ডেটা পুশ করে তা নিয়ন্ত্রণ করতে আপনি batch.* Google-সরবরাহকৃত সংযোগকারী প্যারামিটারগুলি দেখুন।
মেটাডেটা পূরণ করতে, এই ঐচ্ছিক প্যারামিটারগুলি কনফিগার করুন:
| বিন্যাস | প্যারামিটার |
| শিরোনাম | itemMetadata.title.field= movieTitle |
| স্কিমা অবজেক্টের ধরণ | itemMetadata.objectType= movie |
ধাপ ৩: নরকোনেক্স HTTP কালেক্টর কনফিগার করুন
প্লাগইনটিতে একটি নমুনা ফাইল রয়েছে, minimum-config.xml ।
Norconex ডিরেক্টরিতে যান এবং নমুনাটি অনুলিপি করুন:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml<committer>এবং<tagger>নোড যোগ বা প্রতিস্থাপন করতেgcs-crawl-config.xmlসম্পাদনা করুন:
| বিন্যাস | প্যারামিটার |
<committer> নোড | <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">প্রয়োজন। <httpcollector> নোডের অধীনে এটি যোগ করুন। |
<uploadFormat> | <uploadFormat>raw</uploadFormat>ঐচ্ছিক। raw অথবা text । ডিফল্ট হল raw । |
উদাহরণ gcs-crawl-config.xml :
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ধাপ ৪: ওয়েব ক্রল কনফিগার করুন
আপনার প্রয়োজন অনুসারে <crawler> নোডগুলি কনফিগার করুন, যার মধ্যে রয়েছে:
- শুরুর URL গুলি
- সর্বোচ্চ ক্রল গভীরতা
- থ্রেডের সংখ্যা
নরকোনেক্স কনফিগারেশন পৃষ্ঠাটি দেখুন।
ধাপ ৫: একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন
স্থানীয় মোডে সংগ্রাহক চালান:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF মনিটর দিয়ে ক্রলারটি পর্যবেক্ষণ করুন
নরকোনেক্স জেইএফ (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর অগ্রগতির একটি গ্রাফিক্যাল ভিউ প্রদান করে। জেইএফ মনিটর দিয়ে আপনার ক্রলার মনিটর করুন দেখুন।