इस पेज में बताया गया है कि एक्सएमएल एनोटेशन फ़ाइल इस्तेमाल करके, अपने सर्च इंजन का कवरेज कैसे तय करें.
- Overview
- Programmable Search के एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना
- खोज के कवरेज को बेहतर बनाना
- व्याख्या करने की सीमाएं
खास जानकारी
अगर आप एक बड़ा सर्च इंजन बना रहे हैं, तो साइटों के बड़े कलेक्शन को मैनेज करना मुश्किल हो सकता है. इसके बजाय, आप कई साइटों को किसी एनोटेशन फ़ाइल में लिस्ट करके और अपलोड करके, उन्हें जोड़ और मैनेज कर सकते हैं. इसके अलावा, एनोटेशन फ़ाइलें आपको खोज परिणामों की रैंकिंग पर भी बेहतर नियंत्रण देती हैं.
एनोटेशन फ़ाइल, एनोटेशन की सूची होती है. हर एनोटेशन में दो कॉम्पोनेंट होते हैं: साइट और उससे जुड़े लेबल. लेबल, Programmable Search Engine को किसी साइट को मैनेज करने का तरीका बताता है; यानी किसी साइट को शामिल किया जाना चाहिए, बाहर रखा जाना चाहिए, प्रमोट किया जाना चाहिए या पदावनत किया जाना चाहिए. कॉन्टेक्स्ट फ़ाइल में, आपने लेबल तय किए हों; एनोटेशन फ़ाइल में, सही लेबल वाली साइटों को टैग किया जाता है.
अपनी एनोटेशन फ़ाइल में बदलाव करते समय, शुरुआत में कम एनोटेशन डालें. कुछ एनोटेशन की मदद से, अपने सर्च इंजन की जांच और उससे जुड़ी समस्या को हल करना आसान है. जब आपको उम्मीद के मुताबिक नतीजे मिलते हैं, तो धीरे-धीरे ज़्यादा एनोटेशन जोड़ें.
कंट्रोल पैनल में एनोटेशन फ़ाइल अपलोड की जा सकती है. फ़ाइल की सीमाओं के बारे में ज़्यादा जानने के लिए, व्याख्या की सीमाएं सेक्शन देखें.
Programmable Search के एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना
अगर आपको Programmable Search Engine की कॉन्फ़िगरेशन फ़ाइल में उपलब्ध सभी सुविधाओं का फ़ायदा लेना है, तो एक्सएमएल का इस्तेमाल करें. को दबाकर रखें
एक्सएमएल एनोटेशन
एक्सएमएल एनोटेशन का एक उदाहरण नीचे दिया गया है. यह एनोटेशन फ़ाइल, Programmable Search Engine को www.webmd.com/hw/* के तहत सब कुछ शामिल करने के लिए कहती है, लेकिन www.webmd.com/hw/cancer/* में मौजूद हर चीज़ को शामिल करने के लिए.
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
एनोटेशन फ़ाइल में चार एलिमेंट इस क्रम में होते हैं:
-
Annotations
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है (रूट एलिमेंट)Annotation
Label
Comment
(वैकल्पिक)
बाहरी एनोटेशन बनाना
उन साइटों की सूची बनाने के लिए जिन्हें आपको सर्च इंजन से कवर करना है, ये काम करें:
- फ़ाइल को
<Annotations></Annotations>
रूट एलिमेंट से शुरू करें. <Annotation></Annotation>
टैग जोड़कर, जानकारी बनाएं. इसके बाद, साइट के यूआरएल पैटर्न के साथabout
एट्रिब्यूट को तय करें.<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
<Label name=" "/>
टैग का इस्तेमाल करके, साइट को सर्च इंजन से जोड़ें. साथ ही, यह बताएं कि सर्च इंजन, इस साइट का इस्तेमाल कैसे करे. आपको सर्च इंजन की कॉन्टेक्स्ट फ़ाइल से, अपने सर्च इंजन के लिए लेबल मिल सकते हैं. आपको दो लेबल दिखेंगे: एक अपने Programmable Search Engine में साइटों को जोड़ने के लिए और दूसरा इससे साइटों को बाहर रखने के लिए. अगर आपने कॉन्टेक्स्ट फ़ाइल में सर्च इंजन के लेबल का नाम नहीं बदला है, तो साइटों को शामिल करने का लेबल,_include_
और साइटों को शामिल नहीं करने वाला लेबल,_exclude_
के तौर पर होता है. गड़बड़ियों से बचने के लिए, इन लेबल को हाथ से टाइप करने के बजाय कॉपी करके चिपकाएं.<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
किसी साइट के साथ कई लेबल जुड़े हो सकते हैं,
अगर आपने कॉन्टेक्स्ट फ़ाइल में लेबल का नाम बदल दिया है, तो अपनी एनोटेशन फ़ाइल में
Label name
की वैल्यू अपडेट करना न भूलें.- ज़्यादा साइटें जोड़ने के लिए, कोई दूसरा
Annotation
एलिमेंट बनाएं और तय करें. - एक्सएमएल फ़ाइल सेव करें.
खोज के कवरेज को बेहतर बनाना
Programmable Search Engine, Google इंडेक्स के सबसे ऊपर बनाया जाता है. इसका मतलब है कि Google इंडेक्स में मौजूद वेबपेज आपके सर्च इंजन के लिए उपलब्ध हैं; इसके ठीक उलट, ऐसे वेबपेज जिन्हें Google ने क्रॉल नहीं किया है, वे आपके खोज नतीजों में नहीं दिखेंगे. अगर आपको अपने Programmable Search Engine में ऐसी साइटों को शामिल करना है जो फ़िलहाल Google इंडेक्स में नहीं हैं, तो Google Search Console में साइटमैप सबमिट करें.
साइटमैप में आपकी साइट के पेजों की सूची होती है. साथ ही, वेबपेजों को अपडेट करने की फ़्रीक्वेंसी और एक-दूसरे से उनकी अहमियत के बारे में जानकारी होती है. साइटमैप सबमिट करने से Google को आपके वेबपेज खोजने और क्रॉल करने के शेड्यूल को बेहतर बनाने में मदद मिलती है. साइटमैप के बारे में ज़्यादा जानने के लिए, वेबमास्टर सहायता केंद्र और साइटमैप प्रोटोकॉल का इस्तेमाल करना देखें. अगर आपको शानदार साइटमैप बनाने में दिलचस्पी है, तो http://www.sitemaps.org/protocol.php पर जाएं.
साइटमैप सबमिट करना ख़ास तौर पर तब मददगार होता है, जब आपकी साइट पर ये चीज़ें मौजूद हों:
- लगातार अपडेट होने वाला कॉन्टेंट
- ऐसे वेबपेज जिन्हें Googlebot (Google का वेब क्रॉलर) आसानी से नहीं खोज पाता, जैसे कि AJAX या फ़्लैश की शानदार सुविधाओं वाले पेज
- इसे कुछ वेबसाइट लिंक करती हैं.
Googlebot एक पेज से दूसरे पेज पर मौजूद लिंक का इस्तेमाल करके, वेब को क्रॉल करता है. इसलिए, अगर आपकी साइट अच्छी तरह लिंक नहीं की गई है, तो क्रॉलर के लिए इसे ढूंढना मुश्किल होता है. अगर आपकी वेबसाइट नई है, तो हो सकता है कि बहुत सारी वेबसाइटें आपकी साइट पर न ले जाती हों.
- कॉन्टेंट वाले ऐसे पेजों का एक बड़ा संग्रह जिनमें क्रॉस-लिंकिंग का अच्छा नेटवर्क नहीं होता
Google सिर्फ़ उन पेजों को इंडेक्स कर सकता है जिन्हें ऐक्सेस करने की अनुमति उसके पास है. इसलिए, अगर आप अपने वेबपेजों में robots.txt फ़ाइल या robots मेटा टैग का इस्तेमाल करते हैं, तो पक्का करें कि वे पेज क्रॉलर को ब्लॉक न करते हों.
बेहतर कवरेज तुरंत नहीं होता, क्योंकि पेजों को क्रॉल और इंडेक्स करने में कुछ समय लगता है. हालांकि, जब आपके वेबपेज इंडेक्स में आ जाते हैं, तो वे Google Search और Programmable Search Engine, दोनों में दिख सकते हैं.
एनोटेशन की सीमाएं
Programmable Search Engine में अपलोड की जाने वाली एनोटेशन फ़ाइलों की सीमाएं नीचे दी गई हैं:
ध्यान दें: सीमाओं का बारीकी से पालन करें; यदि आप उन्हें पार कर जाते हैं, तो हो सकता है कि आपका खोज इंजन परिणाम न दिखाए.
पक्ष | सीमा |
---|---|
फ़ाइल का साइज़ (कॉन्टेक्स्ट या एनोटेशन फ़ाइलें) | 30 केबी |
प्रति सर्च इंजन के लिए ज़्यादा से ज़्यादा एनोटेशन की संख्या | 5,000
सलाह: अगर आपको लगता है कि आपका सर्च इंजन, 5,000 साइटों की तय सीमा को पार कर रहा है, तो हर यूआरएल को यूआरएल पैटर्न के तौर पर इकट्ठा करने की कोशिश करें. |