এই পৃষ্ঠাটি বর্ণনা করে কিভাবে একটি XML টীকা ফাইল ব্যবহার করে আপনার সার্চ ইঞ্জিনের কভারেজ সংজ্ঞায়িত করতে হয়।
ওভারভিউ
আপনি যদি একটি বড় সার্চ ইঞ্জিন তৈরি করেন তবে সাইটের একটি বড় সংগ্রহ পরিচালনা করা ক্লান্তিকর হতে পারে। পরিবর্তে, আপনি একটি টীকা ফাইলে তালিকাবদ্ধ করে এবং এটি আপলোড করে অনেকগুলি সাইটকে যুক্ত করতে এবং পরিচালনা করতে পারেন৷ এছাড়াও, টীকা ফাইলগুলি আপনাকে অনুসন্ধান ফলাফলের র্যাঙ্কিংয়ের উপর অনেক বেশি নিয়ন্ত্রণ দেয়।
একটি টীকা ফাইল কেবল টীকাগুলির একটি তালিকা। প্রতিটি টীকাটির দুটি উপাদান রয়েছে: সাইট এবং এর সাথে সম্পর্কিত লেবেল। লেবেল প্রোগ্রামেবল সার্চ ইঞ্জিনকে বলে যে কিভাবে একটি সাইট পরিচালনা করতে হয়; যে, একটি সাইট অন্তর্ভুক্ত করা উচিত কিনা, বাদ দেওয়া, উন্নীত করা, বা অবনমিত. প্রসঙ্গ ফাইলে , আপনি লেবেল সংজ্ঞায়িত করেন; টীকা ফাইলে, আপনি উপযুক্ত লেবেল দিয়ে সাইট ট্যাগ করেন।
আপনি যখন আপনার টীকা ফাইল সম্পাদনা শুরু করেন, তখন অল্প সংখ্যক টীকা দিয়ে শুরু করুন। মুষ্টিমেয় টীকা দিয়ে আপনার সার্চ ইঞ্জিন পরীক্ষা করা এবং সমস্যা সমাধান করা সহজ। যখন আপনি আপনার প্রত্যাশার ফলাফল পান, ক্রমবর্ধমানভাবে আরো টীকা যোগ করুন।
আপনি কন্ট্রোল প্যানেলে টীকা ফাইল আপলোড করতে পারেন। ফাইলের সীমা সম্পর্কে বিস্তারিত জানার জন্য, টীকা সীমা বিভাগটি দেখুন।
প্রোগ্রামেবল সার্চ এক্সএমএল ফরম্যাট ব্যবহার করে
আপনি যদি প্রোগ্রামেবল সার্চ ইঞ্জিন কনফিগারেশন ফাইলে উপলব্ধ সমস্ত বৈশিষ্ট্যের সুবিধা নিতে চান, তাহলে XML হল পথ।
XML টীকা
নিচে XML টীকাগুলির একটি উদাহরণ। এই টীকা ফাইলটি প্রোগ্রামেবল সার্চ ইঞ্জিনকে www.webmd.com/hw/* এর অধীনে সবকিছু অন্তর্ভুক্ত করতে বলে কিন্তু www.webmd.com/hw/cancer/* এর অধীনে সবকিছু বাদ দিতে বলে।
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
টীকা ফাইলে নিম্নলিখিত অনুক্রমের চারটি উপাদান রয়েছে:
-
Annotations
(মূল উপাদান)-
Annotation
-
Label
-
Comment
(ঐচ্ছিক)
-
-
বাহ্যিক টীকা তৈরি করা
আপনি আপনার সার্চ ইঞ্জিন কভার করতে চান এমন সাইটগুলি তালিকাভুক্ত করতে, নিম্নলিখিতগুলি করুন:
-
<Annotations></Annotations>
রুট উপাদান দিয়ে ফাইলটি শুরু করুন। -
<Annotation></Annotation>
ট্যাগ যোগ করে একটি টীকা তৈরি করুন, এবং তারপর সাইটের URL প্যাটার্নের সাথেabout
সংজ্ঞায়িত করুন।<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
<Label name=" "/>
ট্যাগ ব্যবহার করে সার্চ ইঞ্জিনের সাথে সাইটটিকে সংযুক্ত করুন এবং সার্চ ইঞ্জিন দ্বারা সেই সাইটটির সাথে কীভাবে আচরণ করা উচিত তা নির্দিষ্ট করুন৷ আপনি সার্চ ইঞ্জিনের কনটেক্সট ফাইল থেকে আপনার সার্চ ইঞ্জিনের জন্য লেবেল পেতে পারেন। আপনি দুটি লেবেল পাবেন: একটি আপনার প্রোগ্রামেবল সার্চ ইঞ্জিনে সাইট যোগ করার জন্য এবং একটি এটি থেকে সাইটগুলি বাদ দেওয়ার জন্য৷ আপনি যদি কনটেক্সট ফাইলে সার্চ ইঞ্জিন লেবেলের নাম পরিবর্তন না করে থাকেন, তাহলে সাইটগুলি অন্তর্ভুক্ত করার জন্য লেবেলটি_include_
আকারে থাকে এবং সাইটগুলি বাদ দেওয়ার জন্য লেবেলটি_exclude_
আকারে থাকে। ত্রুটিগুলি এড়াতে, এই লেবেলগুলি হাতে টাইপ করার পরিবর্তে কপি এবং পেস্ট করুন৷<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
একটি একক সাইটের সাথে যুক্ত একাধিক লেবেল থাকতে পারে,
আপনি যদি প্রসঙ্গ ফাইলে লেবেলের নাম পরিবর্তন করে থাকেন, তাহলে আপনার টীকা ফাইলে
Label name
মান আপডেট করতে ভুলবেন না।- আরো সাইট যোগ করতে, অন্য
Annotation
উপাদান তৈরি এবং সংজ্ঞায়িত করুন. - XML ফাইলটি সংরক্ষণ করুন।
সার্চ কভারেজ উন্নত করা
প্রোগ্রামেবল সার্চ ইঞ্জিন গুগল ইনডেক্সের উপরে নির্মিত। এর মানে হল যে ওয়েবপেজগুলি Google সূচীতে রয়েছে আপনার সার্চ ইঞ্জিনে উপলব্ধ; বিপরীতভাবে, Google দ্বারা ক্রল করা হয়নি এমন ওয়েবপৃষ্ঠাগুলি আপনার অনুসন্ধান ফলাফলগুলিতে প্রদর্শিত হবে না৷ আপনি যদি আপনার প্রোগ্রামেবল সার্চ ইঞ্জিনে এমন সাইটগুলিকে অন্তর্ভুক্ত করতে চান যেগুলি বর্তমানে Google সূচকে নেই, তাহলে Google অনুসন্ধান কনসোলে একটি সাইটম্যাপ জমা দিন৷
একটি সাইটম্যাপ আপনার সাইটের পৃষ্ঠাগুলির একটি তালিকা, সেইসাথে ওয়েবপৃষ্ঠাগুলির আপডেট ফ্রিকোয়েন্সি এবং একে অপরের সাথে সম্পর্কিত তাদের গুরুত্ব সম্পর্কে তথ্য অন্তর্ভুক্ত করে৷ একটি সাইটম্যাপ জমা দেওয়া Google কে আপনার ওয়েবপৃষ্ঠাগুলি আবিষ্কার করতে এবং ক্রলিং সময়সূচী উন্নত করতে সহায়তা করে৷ সাইটম্যাপ সম্পর্কে আরও জানতে, ওয়েবমাস্টার সহায়তা কেন্দ্র এবং সাইটম্যাপ প্রোটোকলের ব্যবহার দেখুন। আপনি যদি শৌখিন সাইটম্যাপ তৈরি করতে আগ্রহী হন, তাহলে http://www.sitemaps.org/protocol.php দেখুন।
আপনার সাইটে নিম্নলিখিতগুলি থাকলে সাইটম্যাপ জমা দেওয়া বিশেষভাবে সহায়ক:
- গতিশীল বিষয়বস্তু
- যেসব ওয়েবপেজ সহজে Googlebot (গুগলের ওয়েব ক্রলার) দ্বারা আবিষ্কৃত হয় না, যেমন সমৃদ্ধ AJAX বা ফ্ল্যাশ বৈশিষ্ট্য সহ পৃষ্ঠা
- এটির সাথে লিঙ্ক করা কয়েকটি ওয়েবসাইট।
Googlebot এক পৃষ্ঠা থেকে অন্য পৃষ্ঠায় লিঙ্ক অনুসরণ করে ওয়েব ক্রল করে, তাই আপনার সাইটটি ভালভাবে লিঙ্ক না হলে, ক্রলারের পক্ষে এটি আবিষ্কার করা কঠিন। আপনার ওয়েবসাইট নতুন হলে, সম্ভবত অনেক ওয়েবসাইট আপনার সাইটে নির্দেশ করছে না।
- বিষয়বস্তু পৃষ্ঠাগুলির একটি বড় সংরক্ষণাগার যেখানে ক্রস-লিঙ্কিংয়ের একটি শক্তিশালী নেটওয়ার্ক নেই৷
Google শুধুমাত্র পৃষ্ঠাগুলিকে সূচী করতে পারে যা এটি অ্যাক্সেস করতে পারে। সুতরাং, আপনি যদি আপনার ওয়েবপৃষ্ঠাগুলিতে robots.txt ফাইল বা রোবট মেটা ট্যাগ ব্যবহার করেন, তবে নিশ্চিত করুন যে সেই পৃষ্ঠাগুলি ক্রলারদের ব্লক করে না৷
উন্নত কভারেজ তাৎক্ষণিক নয়, কারণ পৃষ্ঠাগুলি ক্রল এবং সূচীকরণের জন্য কিছু সময় লাগে। কিন্তু একবার আপনার ওয়েবপৃষ্ঠাগুলি সূচীতে থাকলে, সেগুলি Google অনুসন্ধান এবং আপনার প্রোগ্রামযোগ্য অনুসন্ধান ইঞ্জিন উভয়েই উপস্থিত হতে পারে৷
টীকা সীমা
নিম্নলিখিত টেবিলটি প্রোগ্রামেবল সার্চ ইঞ্জিনে আপলোড করা টীকা ফাইলের সীমা তালিকাভুক্ত করে:
দ্রষ্টব্য: ঘনিষ্ঠভাবে সীমা অনুসরণ করুন; আপনি তাদের অতিক্রম করলে, আপনার সার্চ ইঞ্জিন ফলাফল নাও দেখাতে পারে।
দৃষ্টিভঙ্গি | সীমা |
---|---|
ফাইলের আকার (প্রসঙ্গ বা টীকা ফাইল) | 30KB |
সার্চ ইঞ্জিন প্রতি টীকা সর্বোচ্চ সংখ্যা | 5,000 টিপ: আপনি যদি দেখেন যে আপনার সার্চ ইঞ্জিন বৃহৎ 5,000-সাইটের সীমা ছাড়িয়ে যাচ্ছে, তাহলে পৃথক URLগুলিকে URL প্যাটার্নে একত্রিত করার কথা বিবেচনা করুন৷ |