एनोटेशन: खोज के लिए साइटें तय करना

इस पेज पर एक्सएमएल एनोटेशन फ़ाइल का इस्तेमाल करके, अपने सर्च इंजन के कवरेज को परिभाषित करने का तरीका बताया गया है.

  1. Overview
  2. Programmable Search एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना
  3. खोज कवरेज को बेहतर बनाना
  4. व्याख्या की सीमाएं

खास जानकारी

अगर आप एक बड़ा सर्च इंजन बना रहे हैं, तो साइटों के एक बड़े कलेक्शन को मैनेज करना मुश्किल हो सकता है. इसके बजाय, आप कई साइटों को एनोटेशन फ़ाइल में शामिल करके और उन्हें अपलोड करके, बहुत सारी साइटों को जोड़ और मैनेज कर सकते हैं. इसके अलावा, टिप्पणियां फ़ाइलें आपको खोज नतीजों की रैंकिंग पर काफ़ी बेहतर कंट्रोल देती हैं.

एनोटेशन फ़ाइल सिर्फ़ एनोटेशन की एक सूची होती है. हर जानकारी में दो कॉम्पोनेंट होते हैं: साइट और उससे जुड़े लेबल. इस लेबल से Programmable Search Engine को किसी साइट को मैनेज करने का तरीका बताया जाता है. इसका मतलब है कि किसी साइट को साइट में शामिल किया जाना चाहिए, उसका प्रमोशन किया जाना चाहिए, उसका प्रमोशन किया जाना चाहिए या उसका दर्जा घटाया जाना चाहिए. कॉन्टेक्स्ट फ़ाइल में, लेबल तय किए जाते हैं. एनोटेशन फ़ाइल में, सही लेबल वाली साइटों को टैग किया जाता है.

जब आप अपनी एनोटेशन फ़ाइल में बदलाव करना शुरू करते हैं, तो कम संख्या में एनोटेशन के साथ शुरुआत करें. कुछ ही एनोटेशन की मदद से, अपने सर्च इंजन की जांच करना और उसमें मौजूद समस्या को हल करना आसान होता है. जब आपको मनमुताबिक नतीजे मिल जाएं, तो ज़्यादा से ज़्यादा एनोटेशन जोड़ें.

कंट्रोल पैनल में एनोटेशन फ़ाइल अपलोड की जा सकती है. फ़ाइल की सीमाओं के बारे में जानने के लिए, व्याख्या की सीमाएं सेक्शन देखें.

वापस सबसे ऊपर जाएं

Programmable Search वाले एक्सएमएल फ़ॉर्मैट का इस्तेमाल करना

अगर आपको Programmable Search Engine की कॉन्फ़िगरेशन फ़ाइल में उपलब्ध सभी सुविधाओं का फ़ायदा लेना है, तो एक्सएमएल का इस्तेमाल किया जा सकता है.

एक्सएमएल एनोटेशन

एक्सएमएल एनोटेशन का एक उदाहरण नीचे दिया गया है. यह एनोटेशन फ़ाइल Programmable Search Engine को www.webmd.com/hw/* में मौजूद हर चीज़ शामिल करने के लिए कहती है, लेकिन www.webmd.com/hw/cancer/* में जाकर सभी चीज़ें शामिल नहीं करती है.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

एनोटेशन फ़ाइल के नीचे दिए गए क्रम में चार एलिमेंट होते हैं:

  • Annotations (रूट एलिमेंट)
    • Annotation
      • Label
      • Comment (ज़रूरी नहीं)

वापस सबसे ऊपर जाएं

बाहरी एनोटेशन बनाना

आपको जिन साइटों को अपने सर्च इंजन में शामिल करना है उन्हें सूची में शामिल करने के लिए, ये काम करें:

  1. फ़ाइल को <Annotations></Annotations> रूट एलिमेंट से शुरू करें.
  2. <Annotation></Annotation> टैग जोड़कर, जानकारी दें. इसके बाद, साइट के यूआरएल पैटर्न के साथ about एट्रिब्यूट की वैल्यू तय करें.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. <Label name=" "/> टैग का इस्तेमाल करके साइट को सर्च इंजन से जोड़ें और बताएं कि सर्च इंजन उस साइट को कैसे हैंडल करे. सर्च इंजन की कॉन्टेक्स्ट फ़ाइल से अपने सर्च इंजन के लेबल पाए जा सकते हैं. आपको दो लेबल दिखेंगे: एक Programmable Search Engine में साइटों को जोड़ने के लिए और दूसरा लेबल में साइटों को शामिल न करने के लिए. अगर आपने संदर्भ फ़ाइल में सर्च इंजन लेबल का नाम नहीं बदला है, तो साइटों को शामिल करने का लेबल _include_ के रूप में होता है. साथ ही, साइटों को बाहर रखने का लेबल _exclude_ के रूप में होता है. गड़बड़ियों से बचने के लिए, इन लेबल को खुद टाइप करने के बजाय, कॉपी करें और चिपकाएं.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    एक साइट से कई लेबल जुड़े हो सकते हैं,

    अगर आपने संदर्भ फ़ाइल में लेबल का नाम बदला है, तो अपनी एनोटेशन फ़ाइल में Label name वैल्यू को अपडेट करना न भूलें.

  4. ज़्यादा साइटें जोड़ने के लिए, कोई दूसरा Annotation एलिमेंट बनाएं और तय करें.
  5. एक्सएमएल फ़ाइल सेव करें.

वापस सबसे ऊपर जाएं

खोज कवरेज को बेहतर बनाना

Programmable Search Engine, Google इंडेक्स के सबसे ऊपर बना है. इसका मतलब है कि Google इंडेक्स में मौजूद वेबपेज आपके सर्च इंजन के लिए उपलब्ध हैं. वहीं, Google ने जिन वेबपेजों को क्रॉल नहीं किया है वे आपके खोज के नतीजों में नहीं दिखेंगे. अगर आपको Programmable Search Engine में उन साइटों को शामिल करना है जो फ़िलहाल Google इंडेक्स में नहीं हैं, तो Google Search Console पर साइटमैप सबमिट करें.

साइटमैप में आपकी साइट के पेजों की सूची के साथ-साथ, वेबपेजों को अपडेट करने का अंतराल और एक-दूसरे से उनकी अहमियत के बारे में जानकारी होती है. साइटमैप सबमिट करने से, Google को आपके वेबपेज खोजने और क्रॉल करने के शेड्यूल को बेहतर बनाने में मदद मिलती है. साइटमैप के बारे में ज़्यादा जानने के लिए, वेबमास्टर सहायता केंद्र और साइटमैप प्रोटोकॉल का इस्तेमाल करना देखें. अगर आपकी दिलचस्पी अनोखे साइटमैप बनाने में है, तो http://www.sitemaps.org/protocol.php देखें.

साइटमैप सबमिट करना खास तौर पर तब मददगार होता है, जब आपकी साइट में ये चीज़ें हों:

  • डाइनैमिक कॉन्टेंट
  • ऐसे वेबपेज जिन्हें Googlebot (Google का वेब क्रॉलर) आसानी से नहीं खोजता है, जैसे कि AJAX या फ़्लैश की बेहतर सुविधाओं वाले पेज
  • इससे लिंक करने वाली कुछ वेबसाइटें.

    Googlebot एक पेज से दूसरे पेज पर लिंक का इस्तेमाल करके, वेब को क्रॉल करता है. इसलिए, अगर आपकी साइट अच्छी तरह लिंक नहीं की गई है, तो क्रॉलर के लिए इसे ढूंढना मुश्किल है. अगर आपकी वेबसाइट नई है, तो हो सकता है कि बहुत सारी वेबसाइटें आपकी साइट पर ले जाती न हों.

  • कॉन्टेंट पेजों का एक बड़ा संग्रह, जिनमें क्रॉस-लिंकिंग का अच्छा नेटवर्क न हो

Google सिर्फ़ उन पेजों को इंडेक्स कर सकता है जिन्हें वह ऐक्सेस कर सकता है. इसलिए, अगर आपने वेबपेजों में robots.txt फ़ाइल या robots मेटा टैग का इस्तेमाल किया है, तो पक्का करें कि वे पेज, क्रॉलर को ब्लॉक न करते हों.

बेहतर कवरेज तुरंत नहीं होता, क्योंकि पेजों को क्रॉल और इंडेक्स होने में कुछ समय लगता है. हालांकि, जब आपके वेबपेज इंडेक्स में आ जाएंगे, तो वे Google Search और आपके Programmable Search Engine, दोनों में दिख सकते हैं.

वापस सबसे ऊपर जाएं

एनोटेशन की सीमाएं

इस टेबल में, Programmable Search Engine में एनोटेशन फ़ाइलों को अपलोड करने की सीमा दी गई है:

ध्यान दें: इन सीमाओं का बारीकी से पालन करें. अगर आप इन्हें पार कर जाते हैं, तो हो सकता है कि आपका सर्च इंजन नतीजे न दिखाए.

पक्ष सीमा
फ़ाइल का साइज़ (कॉन्टेक्स्ट या एनोटेशन फ़ाइलें) 30 केबी
हर सर्च इंजन के लिए ज़्यादा से ज़्यादा एनोटेशन 5,000

सलाह: अगर आपको लगता है कि आपके सर्च इंजन की 5,000 साइटों की संख्या लंबी हो रही है, तो हर यूआरएल को यूआरएल पैटर्न में इकट्ठा करें.

वापस सबसे ऊपर जाएं