আপনি ওপেন সোর্স ওয়েব ক্রলার অ্যাপাচি নাচের জন্য গুগল ক্লাউড সার্চ ইনডেক্সার প্লাগইন স্থাপন করে আপনার ব্যবহারকারীদের ওয়েব কন্টেন্ট পরিবেশন করার জন্য গুগল ক্লাউড সার্চ সেট আপ করতে পারেন।
যখন আপনি ওয়েব ক্রল শুরু করেন, তখন Apache Nutch ওয়েব ক্রল করে এবং ইনডেক্সার প্লাগইন ব্যবহার করে ডকুমেন্ট কন্টেন্টের মূল বাইনারি (অথবা টেক্সট) ভার্সন Google Cloud Search ইনডেক্সিং API-তে আপলোড করে। ইনডেক্সিং API কন্টেন্টকে ইনডেক্স করে এবং আপনার ব্যবহারকারীদের ফলাফল পরিবেশন করে।
গুরুত্বপূর্ণ বিবেচ্য বিষয়
সিস্টেমের জন্য আবশ্যক
সিস্টেমের জন্য আবশ্যক | |
---|---|
অপারেটিং সিস্টেম | শুধুমাত্র লিনাক্স:
|
সফটওয়্যার |
|
অ্যাপাচি টিকা ডকুমেন্টের ধরণ | অ্যাপাচি টিকা ১.১৮ সমর্থিত ডকুমেন্ট ফরম্যাট |
ইনডেক্সার প্লাগইন স্থাপন করুন
নিম্নলিখিত ধাপগুলি বর্ণনা করে কিভাবে ইনডেক্সার প্লাগইন ইনস্টল করতে হয় এবং নির্দিষ্ট URL গুলি ক্রল করার জন্য এর উপাদানগুলি কনফিগার করতে হয় এবং ফলাফলগুলি ক্লাউড অনুসন্ধানে ফিরিয়ে আনতে হয়।
পূর্বশর্ত
ক্লাউড সার্চ অ্যাপাচি নাচ ইনডেক্সার প্লাগইন স্থাপন করার আগে, গুগল ক্লাউড সার্চ এবং ডেটা সোর্স সংযোগ করার জন্য প্রয়োজনীয় তথ্য সংগ্রহ করুন:
- গুগল ওয়ার্কস্পেস প্রাইভেট কী (যার মধ্যে সার্ভিস অ্যাকাউন্ট আইডি থাকে)। প্রাইভেট কী পাওয়ার বিষয়ে তথ্যের জন্য, গুগল ক্লাউড সার্চ এপিআই-তে অ্যাক্সেস কনফিগার করুন -এ যান।
- গুগল ওয়ার্কস্পেস ডেটা সোর্স আইডি। ডেটা সোর্স আইডি পাওয়ার বিষয়ে তথ্যের জন্য, অনুসন্ধানে একটি ডেটা সোর্স যোগ করুন বিভাগে যান।
ধাপ ১: প্লাগইন সফটওয়্যার এবং অ্যাপাচি নাচ তৈরি এবং ইনস্টল করুন
GitHub থেকে ইনডেক্সার প্লাগইন রিপোজিটরি ক্লোন করুন।
$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git $ cd apache-nutch-indexer-plugin
ইনডেক্সার প্লাগইনের পছন্দসই সংস্করণটি দেখুন:
$ git checkout tags/v1-0.0.5
ইনডেক্সার প্লাগইন তৈরি করুন।
$ mvn package
ইনডেক্সার প্লাগইন তৈরি করার সময় পরীক্ষাগুলি এড়িয়ে যেতে,
mvn package -DskipTests
ব্যবহার করুন।Apache Nutch 1.15 ডাউনলোড করুন এবং Apache Nutch ইনস্টলেশন নির্দেশাবলী অনুসরণ করুন।
target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip
(ধাপ ২-এ বিল্ট-ইন) একটি ফোল্ডারে এক্সট্র্যাক্ট করুন।plugins/indexer-google-cloudsearch
ফোল্ডারটি Apache Nutch ইনস্টল প্লাগইন ফোল্ডারে (apache-nutch-1.15/plugins
) কপি করুন।
ধাপ ২: ইনডেক্সার প্লাগইন কনফিগার করুন
Apache Nutch Indexer প্লাগইন কনফিগার করতে, plugin-configuration.properties
নামে একটি ফাইল তৈরি করুন।
কনফিগারেশন ফাইলে নিম্নলিখিত প্যারামিটারগুলি নির্দিষ্ট করতে হবে, যা Google Cloud Search ডেটা সোর্স অ্যাক্সেস করার জন্য প্রয়োজনীয়।
বিন্যাস | প্যারামিটার |
ডেটা সোর্স আইডি | api.sourceId = 1234567890abcdef প্রয়োজন। Google Cloud Search সোর্স আইডি যা Google Workspace অ্যাডমিন ইনডেক্সার প্লাগইনের জন্য সেট আপ করেছেন। |
পরিষেবা অ্যাকাউন্ট | api.serviceAccountPrivateKeyFile = ./PrivateKey.json প্রয়োজন। Google Cloud Search পরিষেবা অ্যাকাউন্ট কী ফাইল যা Google Workspace অ্যাডমিন ইনডেক্সার প্লাগইন অ্যাক্সেসিবিলিটির জন্য তৈরি করেছেন। |
নিম্নলিখিত উদাহরণে প্রয়োজনীয় প্যারামিটার সহ একটি নমুনা কনফিগারেশন ফাইল দেখানো হয়েছে।
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
কনফিগারেশন ফাইলে অন্যান্য প্যারামিটারও থাকতে পারে যা ইনডেক্সার প্লাগইন আচরণ নিয়ন্ত্রণ করে। প্লাগইন কীভাবে ক্লাউড সার্চ এপিআই, defaultAcl.*
এবং batch.*
ডেটা পুশ করে তা আপনি কনফিগার করতে পারেন। ইনডেক্সার প্লাগইন কীভাবে মেটাডেটা এবং স্ট্রাকচার্ড ডেটা পূরণ করে তাও আপনি কনফিগার করতে পারেন।
এই প্যারামিটারগুলির বর্ণনার জন্য, Google-সরবরাহকৃত সংযোগকারী প্যারামিটারগুলিতে যান।
ধাপ ৩: অ্যাপাচি নাচ কনফিগার করুন
conf/nutch-site.xml
খুলুন এবং নিম্নলিখিত প্যারামিটারগুলি যোগ করুন:বিন্যাস প্যারামিটার প্লাগইন অন্তর্ভুক্ত plugin.includes = text
প্রয়োজনীয়। ব্যবহারের জন্য প্লাগইনগুলির তালিকা। এতে কমপক্ষে অন্তর্ভুক্ত থাকতে হবে:
- সূচক-মৌলিক
- সূচক-আরও
- ইনডেক্সার-গুগল-ক্লাউডসার্চ
conf/nutch-default.xml
এই প্রপার্টির জন্য একটি ডিফল্ট মান প্রদান করে, তবে আপনাকে ম্যানুয়ালি এতেindexer-google-cloudsearch
যোগ করতে হবে।মেটাট্যাগের নাম metatags.names = text
ঐচ্ছিক। কমা দ্বারা পৃথক ট্যাগের তালিকা যা সংশ্লিষ্ট ডেটা সোর্সের স্কিমার বৈশিষ্ট্যের সাথে ম্যাপ করে। মেটাট্যাগগুলির জন্য Apache Nutch কীভাবে সেট আপ করবেন সে সম্পর্কে আরও জানতে, Nutch-parse metatags এ যান।
নিম্নলিখিত উদাহরণে
nutch-site.xml
এ প্রয়োজনীয় পরিবর্তন দেখানো হয়েছে:<property> <name>plugin.includes</name> <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value> </property>
conf/index-writers.xml
খুলুন এবং নিম্নলিখিত বিভাগটি যোগ করুন:<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter"> <parameters> <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/> </parameters> <mapping> <copy /> <rename /> <remove /> </mapping> </writer>
<writer> বিভাগে নিম্নলিখিত পরামিতি রয়েছে:
বিন্যাস প্যারামিটার গুগল ক্লাউড সার্চ কনফিগারেশন ফাইলের পথ gcs.config.file = path
প্রয়োজনীয়। Google ক্লাউড অনুসন্ধান কনফিগারেশন ফাইলের সম্পূর্ণ (পরম) পথ।
আপলোড ফর্ম্যাট gcs.uploadFormat = text
ঐচ্ছিক। ইনডেক্সার প্লাগইন যে ফর্ম্যাটে ডকুমেন্ট কন্টেন্টকে Google Cloud Search ইনডেক্সার API-তে পুশ করে। বৈধ মানগুলি হল:
-
raw
: ইনডেক্সার প্লাগইনটি মূল, অপরিবর্তিত নথির বিষয়বস্তু পুশ করে। -
text
: ইনডেক্সার প্লাগইন এক্সট্র্যাক্ট করা টেক্সট পুশ করে। ডিফল্ট মান হলraw
।
-
ধাপ ৪: ওয়েব ক্রল কনফিগার করুন
ওয়েব ক্রল শুরু করার আগে, ক্রলটি এমনভাবে কনফিগার করুন যাতে এতে কেবল সেই তথ্যই অন্তর্ভুক্ত থাকে যা আপনার প্রতিষ্ঠান অনুসন্ধানের ফলাফলে উপলব্ধ করতে চায়। এই বিভাগটি একটি সারসংক্ষেপ প্রদান করে; ওয়েব ক্রল কীভাবে সেট আপ করবেন সে সম্পর্কে আরও তথ্যের জন্য, Nutch টিউটোরিয়ালে যান।
শুরুর URL গুলি সেট আপ করুন।
স্টার্ট ইউআরএলগুলি নিয়ন্ত্রণ করে যে অ্যাপাচি নাচ ওয়েব ক্রলার আপনার কন্টেন্ট কোথায় ক্রল করা শুরু করবে। স্টার্ট ইউআরএলগুলি ওয়েব ক্রলারকে লিঙ্কগুলি অনুসরণ করে একটি নির্দিষ্ট ক্রলে অন্তর্ভুক্ত করতে চান এমন সমস্ত কন্টেন্টে পৌঁছাতে সক্ষম করবে। স্টার্ট ইউআরএলগুলি প্রয়োজন।
স্টার্ট ইউআরএল সেট আপ করতে:
ওয়ার্কিং ডিরেক্টরিটি nutch ইনস্টলেশন ডিরেক্টরিতে পরিবর্তন করুন:
$ cd ~/nutch/apache-nutch-X.Y/
ইউআরএলগুলির জন্য একটি ডিরেক্টরি তৈরি করুন:
$ mkdir urls
seed.txt
নামে একটি ফাইল তৈরি করুন এবং এতে প্রতি লাইনে ১টি URL সহ URL তালিকাভুক্ত করুন।
অনুসরণ এবং অনুসরণ না করার নিয়ম সেট আপ করুন।
কোন URL গুলি ক্রল করা হবে এবং Google Cloud Search সূচীতে অন্তর্ভুক্ত করা হবে তা Follow URL নিয়ম দ্বারা নিয়ন্ত্রিত হয়। ওয়েব ক্রলার Follow URL নিয়মের সাথে URL গুলি পরীক্ষা করে। শুধুমাত্র এই নিয়মগুলির সাথে মেলে এমন URL গুলিই ক্রল এবং ইন্ডেক্স করা হয়।
'অনুসরণ করবেন না' নিয়মের কারণে URLগুলি ক্রল করা এবং Google Cloud Search সূচীতে অন্তর্ভুক্ত করা যাবে না। যদি কোনও URL-এ 'অনুসরণ করবেন না' প্যাটার্ন থাকে, তাহলে ওয়েব ক্রলার এটি ক্রল করবে না।
URL অনুসরণ এবং অনুসরণ না করার নিয়ম সেট আপ করতে:
ওয়ার্কিং ডিরেক্টরিটি nutch ইনস্টলেশন ডিরেক্টরিতে পরিবর্তন করুন:
$ cd ~/nutch/apache-nutch-X.Y/
অনুসরণ/অনুসরণ না করার নিয়ম পরিবর্তন করতে
conf/regex-urlfilter.txt
সম্পাদনা করুন: \$ nano conf/regex-urlfilter.txt
নিম্নলিখিত উদাহরণগুলিতে দেখানো হয়েছে, URL প্যাটার্ন এবং এক্সটেনশনগুলি অনুসরণ / অনুসরণ না করার জন্য "+" বা "-" উপসর্গ সহ নিয়মিত এক্সপ্রেশন লিখুন। ওপেন-এন্ডেড এক্সপ্রেশন অনুমোদিত।
# skip file extensions -\.(gif|GIF|jpg|JPG|png|PNG|ico) # skip protocols (file: ftp: and mailto:) -^(file|ftp|mailto): # allow urls starting with https://support.google.com/gsa/ +^https://support.google.com/gsa/ # accept anything else # (commented out due to the single url-prefix allowed above) #+.
ক্রল স্ক্রিপ্ট সম্পাদনা করুন।
যদি
gcs.uploadFormat
প্যারামিটারটি অনুপস্থিত থাকে অথবা "raw" তে সেট করা থাকে,nutch index
কমান্ডে পাস করার জন্য আপনাকে "-addBinaryContent -base64
" আর্গুমেন্ট যোগ করতে হবে। এই আর্গুমেন্টগুলি Nutch Indexer মডিউলকে indexer প্লাগইনটি চালু করার সময় Base64-এ বাইনারি কন্টেন্ট অন্তর্ভুক্ত করতে বলে। ./bin/crawl স্ক্রিপ্টে ডিফল্টরূপে এই আর্গুমেন্টগুলি থাকে না।-
apache-nutch-1.15/bin
এcrawl
স্ক্রিপ্ট খুলুন। নিচের উদাহরণের মতো স্ক্রিপ্টে
-addBinaryContent -base64
অপশনগুলি যোগ করুন:if $INDEXFLAG; then echo "Indexing $SEGMENT to index" __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT echo "Cleaning up index if possible" __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb else echo "Skipping indexing ..."
-
ধাপ ৫: একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন
ইনডেক্সার প্লাগইন ইনস্টল এবং সেট আপ করার পরে, আপনি এটি স্থানীয় মোডে নিজে থেকেই চালাতে পারবেন। ./bin
থেকে স্ক্রিপ্টগুলি ব্যবহার করে একটি ক্রলিং কাজ বা পৃথক Nutch কমান্ড কার্যকর করুন।
নিচের উদাহরণটি ধরে নিয়েছে যে প্রয়োজনীয় উপাদানগুলি স্থানীয় ডিরেক্টরিতে অবস্থিত। apache-nutch-1.15
ডিরেক্টরি থেকে নিম্নলিখিত কমান্ড ব্যবহার করে Nutch চালান:
$ bin/crawl -i -s urls/ crawl-test/ 5
ক্রল লগগুলি std আউটপুট (টার্মিনাল) অথবা logs/
ডিরেক্টরিতে পাওয়া যায়। লগিং আউটপুট নির্দেশ করতে অথবা আরও ভার্বোস লগিংয়ের জন্য, conf/log4j.properties
সম্পাদনা করুন।