बड़ी साइट के मालिक के लिए, वेबसाइट का क्रॉल बजट मैनेज करने के बारे में गाइड

इस गाइड में बताया गया है कि बड़ी और अक्सर अपडेट की जाने वाली साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे मैनेज किया जा सकता है.

अगर आपकी साइट में ऐसे पेज ज़्यादा नहीं हैं जिनमें अक्सर बदलाव किए जाते हैं या अगर आपको लगता है कि आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें प्रकाशित किया जाता है, तो आपको यह गाइड पढ़ने की ज़रूरत नहीं है. आपके लिए सिर्फ़ अपने साइटमैप को अप-टू-डेट रखना और नियमित तौर पर अपनी इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.

अगर आपका कॉन्टेंट काफ़ी समय से साइट पर उपलब्ध है और उसे कभी भी इंडेक्स नहीं किया गया है, तो यह एक अलग समस्या है. आपके पेज को इंडेक्स क्यों नहीं किया जा रहा, यह जानने के लिए यूआरएल जांचने वाले टूल का इस्तेमाल करें.

यह गाइड किसके लिए है

यह एक बेहतर गाइड है और इसका इस्तेमाल ये लोग कर सकते हैं:

  • 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी नहीं बदलता, यानी कि हफ़्ते में एक बार बदलना
  • 10,000 से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी बदलता है, यानी कि हर रोज़ बदलना

क्रॉल होने से जुड़ी सामान्य बातें

वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Googlebot किसी साइट को क्रॉल करने में कितना समय ले सकता है, इसकी कुछ सीमाएं हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. ध्यान दें, यह ज़रूरी नहीं है कि आपकी साइट पर क्रॉल किए जाने वाले हर कॉन्टेंट को इंडेक्स किया जाए. हर पेज की जांच करना, उनको एक साथ लाना, और उनका आकलन करना ज़रूरी है. ऐसा यह तय करने के लिए किया जाता है कि पेज को क्रॉल करने के बाद, इंडेक्स किया जाना चाहिए या नहीं.

क्रॉल बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.

क्रॉल करने की क्षमता की सीमा

Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Googlebot आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाता है. क्षमता इस बात से तय की जाती है कि Google किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी अहम कॉन्टेंट को कवरेज दी जा सके.

क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:

  • क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे खुलती है या सर्वर की गड़बड़ियों के साथ खुलती है, तो यह सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
  • Search Console में साइट के मालिक के ज़रिये तय की गई सीमा: वेबसाइट के मालिक अपनी साइट के लिए, Googlebot की क्रॉल दर घटा सकते हैं. ध्यान दें कि क्रॉल दर के लिए ज़्यादा सीमा तय करने से, साइट की क्रॉल दर अपने-आप नहीं बढ़ेगी.
  • साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास कई मशीनें हैं, लेकिन इनकी संख्या बहुत ज़्यादा भी नहीं है. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.

क्रॉल करने की ज़रूरत

आम तौर पर, साइट को क्रॉल करने के लिए, Google ज़रूरत के हिसाब से आपकी साइट पर समय बिताता है. इसके लिए, वह दूसरी साइटों के मुकाबले आपकी साइट का साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी देखता है.

क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:

  • बताई गई इन्वेंट्री: आपकी मदद के बिना, Googlebot आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करेगा जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, गैर-ज़रूरी पेज वगैरह) से आप नहीं चाहते कि उन्हें क्रॉल किया जाए, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आप आसानी से कंट्रोल कर सकते हैं.
  • लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे इंडेक्स में मौजूद रहें.
  • पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.

इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से इंडेक्स किया जा सके.

कुल मिलाकर कहें, तो

क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से, Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Googlebot क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता, तय सीमा तक नहीं पंहुचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Googlebot आपकी साइट को कम बार क्रॉल करेगा.

सबसे सही तरीके

क्रॉल करने की क्षमता को बढ़ाने के लिए नीचे दिए गए सबसे सही तरीके अपनाएं:

  • यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें इंडेक्स करने की ज़रूरत नहीं है, तो हो सकता है कि Googlebot आपकी साइट के बाकी हिस्से को क्रॉल न करे (या ऐसा करने के लिए आपका क्रॉल बजट बढ़ा दे).
    • डुप्लीकेट कॉन्टेंट को मिलाकर एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल के बजाय, यूनीक कॉन्टेंट को क्रॉल करने पर फ़ोकस किया जा सके.
    • ऐसे यूआरएल को क्रॉल होने से रोकना जिन्हें आप इंडेक्स नहीं कराना चाहते. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन फिर भी आप उन्हें Search के नतीजों में नहीं दिखाना चाहते. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज जो लिंक किए गए पेजों पर डुप्लीकेट जानकारी या किसी पेज के अलग-अलग वर्शन दिखाते हैं. अगर आप पहले बुलेट पॉइंट में बताए गए तरीके से इन यूआरएल को एक साथ नहीं ला पा रहे हैं, तो robots.txt या यूआरएल के पैरामीटर के बारे में जानकारी देने वाले टूल (यूआरएल पैरामीटर से पता लगाए गए डुप्लीकेट कॉन्टेंट के लिए) का इस्तेमाल करें. इनका इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें.
    • हमेशा के लिए हटा दिए गए पेजों के मामले में, 404/410 मैसेज दिखाना. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए 404 गड़बड़ी वाला मैसेज दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद, उन्हें फिर से क्रॉल किया जाएगा.
    • सॉफ़्ट 404 गड़बड़ी वाले मैसेज हटाना. सॉफ़्ट 404 गड़बड़ी वाले मैसेज दिखाने वाले यूआरएल क्रॉल होते रहते हैं और इनसे आपके क्रॉल बजट की बर्बादी होती है. सॉफ़्ट 404 गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.
    • अपने साइटमैप को अप-टू-डेट रखना. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आप जिन कॉन्टेंट को Google से क्रॉल कराना चाहते हैं उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर, अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप <lastmod> टैग शामिल करें.
    • दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
  • अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
  • अपनी साइट के क्रॉल होने पर नज़र रखना. नज़र रखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आप साइट को बेहतर तरीके से क्रॉल करवा सकते हैं.

अपनी साइट के क्रॉल होने और इंडेक्स होने पर नज़र रखना

यहां आपकी साइट की क्रॉल प्रोफ़ाइल पर नज़र रखने का तरीका दिया गया है:

  1. देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
  2. देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
  3. देखें कि क्या आपकी साइट के किसी भी हिस्से को मौजूदा स्थिति की तुलना में, ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए.
  4. अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
  5. अपनी साइट को ज़रूरत से ज़्यादा क्रॉल होने से बचाएं.

1. देखें कि क्या Googlebot को साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही

अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.

गड़बड़ी का पता लगाना:

Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.

हल:

  • उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
  • जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
  • पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
  • अपने सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.

2. देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है

अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).

गड़बड़ी का पता लगाना:

Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, आप अपनी साइट के लॉग पर जाकर, यह देख सकते हैं कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.

ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.

हल:

अगर आप अपनी साइट में पेज जोड़ रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.

  1. Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
  2. robots.txt के अपने निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
  3. अगर क्रॉल नहीं किए गए आपके सभी पेजों पर यूआरएल पैरामीटर मौजूद हैं, तो हो सकता है कि आपके पेजों को क्रॉल नहीं किया गया हो. ऐसा यूआरएल के पैरामीटर के बारे में जानकारी देने वाले टूल की सेटिंग की वजह से होता है. हालांकि, इस तरह क्रॉल नहीं किए गए यूआरएल का पता लगाने का कोई तरीका नहीं है. इसलिए, हम आम तौर पर इस टूल का इस्तेमाल करने का सुझाव नहीं देते.
  4. क्रॉल करने की प्राथमिकताओं की समीक्षा करें (मतलब अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें). अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
  5. देखें कि आपकी साइट की सर्विंग कैपेसिटी खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.

ध्यान दें कि अगर उपयोगकर्ताओं को कॉन्टेंट दिलचस्प नहीं लगता या वे कॉन्टेंट की मांग नहीं करते हैं, तो हो सकता है कि क्रॉल किए जाने के बाद भी पेज, खोज के नतीजों में न दिखाए जाएं.

3. देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं

अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि आप पेजों में किए गए अपडेट के बारे में हमें कैसे बता सकते हैं.

ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.

गड़बड़ी का पता लगाना:

Googlebot ने कुछ खास यूआरएल को कब क्रॉल किया यह जानने के लिए, अपनी साइट के लॉग देखें.

इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए, Google पर खोज करें.

हल:

यह करें:

  • अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें. साइटमैप को पोस्ट करने या उसमें बदलाव करने के बाद, Google को इस बारे में बताएं.
  • इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में <lastmod> टैग का इस्तेमाल करें.
  • यूआरएल के लिए सामान्य स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
  • स्टैंडर्ड और क्रॉल किए जा सकने वाले <a> लिंक दें, ताकि Google आपके पेज ढूंढ पाए.

ऐसा करने से बचें:

  • हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
  • यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
  • साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आप इंडेक्स नहीं कराना चाहते.

4. अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं

अपने पेज के लोड होने की रफ़्तार बढ़ाना

Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.

जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:

  • robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
  • पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
  • दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
  • सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.

वे यूआरएल छिपाएं जिन्हें आप खोज के नतीजों में नहीं दिखाना चाहते

ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला और नया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.

आप अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना चाहते उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन कैटगरी में आते हैं:

यह करें:

  • अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
  • अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.

ऐसा करने से बचें:

  • अपनी साइट के क्रॉल बजट को "बढ़ाने" के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आप लंबे समय तक Google पर नहीं देखना चाहते.
  • "बजट बढ़ाने" के लिए साइटमैप में लगातार बदलाव न करें या कुछ समय के लिए रिसॉर्स छिपाने का तरीका भी इस्तेमाल न करें.

5. अपनी साइट को ज़्यादा क्रॉल होने से बचाएं (आपातकालीन स्थिति)

Googlebot, कई एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों का दबाव न बढ़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो आप ये काम कर सकते हैं.

गड़बड़ी का पता लगाना:

अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.

हल:

हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:

  1. जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में, एचटीटीपी नतीजों के 503/429 कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आपको आगे दिए गए ये चरण फ़ॉलो करें.
  2. अपनी साइट के लिए, Googlebot की क्रॉल दर कम करें. इसे लागू होने में ज़्यादा से ज़्यादा दो दिन लग सकते हैं और इसके लिए आपके पास, Search Console में प्रॉपर्टी का मालिकाना हक होना चाहिए. ऐसा तभी करें जब आपको लंबे समय तक, क्रॉल करने के आंकड़ों वाली रिपोर्ट में बार-बार Google के ज़्यादा अनुरोध दिखें. इसे देखने के लिए,होस्ट की उपलब्धता > होस्ट का इस्तेमाल चार्ट पर जाएं.
  3. जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए 503/429 मैसेज वाला कोड दिखाना बंद कर दें. जिन यूआरएल के लिए दो दिनों तक 503 मैसेज वाला कोड दिखेगा, Google अपने इंडेक्स से उनको हटा देगा.
  4. अपनी साइट के क्रॉल होने और होस्ट की क्षमता की पर ध्यान दें. अगर सही लगे, तो अपनी क्रॉल दर फिर से बढ़ाएं या डिफ़ॉल्ट रूप से सेट की गई दर से क्रॉल होने दें.
  5. अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए, डाइनैमिक सर्च विज्ञापन वाले ऐसे टारगेट बनाए हैं जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर दो हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.

क्रॉल होने की प्रोसेस से जुड़े भ्रम और तथ्य

Google, वेबसाइटों को क्रॉल और इंडेक्स कैसे करता है, इस बारे में आपको सही जानकारी है या नहीं, इसका पता लगाएं.

अपना साइटमैप कंप्रेस करने से मेरा क्रॉल बजट बढ़ सकता है.
सही
गलत
ऐसा नहीं होता. ज़िप किए गए साइटमैप को अब भी सर्वर से फ़ेच किया जाता है. इसलिए, असल में आप कंप्रेस किए गए साइटमैप भेजकर, क्रॉल करने में लगने वाले Google के समय या मेहनत को कम नहीं कर रहे हैं.
Google नए कॉन्टेंट को प्राथमिकता देता है, इसलिए मुझे अपने पेज के कॉन्टेंट में बदलाव करते रहना चाहिए.
सही
गलत
कॉन्टेंट की रेटिंग उसकी क्वालिटी से तय की जाती है न कि इस बात से कि कॉन्टेंट कितना पुराना है. कॉन्टेंट बनाएं और उसे ज़रूरत के मुताबिक अपडेट करें. हालांकि, पेज की तारीख बदलने और पेज में छोटे-मोटे बदलाव करके, उसे नए के तौर पर दिखाने से कोई फ़ायदा नहीं होता.
Google, नए कॉन्टेंट के मुकाबले पुराने कॉन्टेंट को प्राथमिकता देता है और उसकी अहमियत ज़्यादा होती है.
सही
गलत
अगर आपका पेज उपयोगी है, तो इस बात से कोई फ़र्क़ नहीं पड़ता कि वह पुराना है या नया है.
Google बिना गड़बड़ी वाले यूआरएल को प्राथमिकता देता है और क्वेरी पैरामीटर को प्राथमिकता नहीं देता.
सही
आपके पेज जितनी तेज़ी से लोड और रेंडर होंगे, Google उन्हें उतना ज़्यादा क्रॉल कर पाएगा.
सही
यह बात सही है कि हमारे रिसॉर्स, क्रॉल करने में लगने वाला समय और क्रॉल करने वाले बॉट की संख्या, दोनों मामलों में सीमित हैं. अगर आप हमें तय समय में ज़्यादा पेज दिखाते हैं, तो हम उनमें से ज़्यादातर को क्रॉल कर लेंगे. हालांकि, ऐसा हो सकता है कि हम ज़्यादा उपयोगी साइट को क्रॉल करने में ज़्यादा समय लें. भले ही, वह धीरे क्यों न लोड होती हो. आपके लिए यह ज़्यादा अहम है कि आप साइट को अपने उपयोगकर्ताओं के लिए तेज़ बनाएं, न कि अपने क्रॉल कवरेज बढ़ाने के लिए. ऐसा करके आप यह आसानी से पक्का कर पाएंगे कि Google हर बार आपकी साइट का सारे कॉन्टेंट को क्रॉल करने के बजाय, ज़रूरी कॉन्टेंट को क्रॉल करे. ध्यान दें कि साइट को क्रॉल करने की प्रोसेस में कॉन्टेंट को वापस पाना और रेंडर करना, दोनों शामिल होते हैं. पेज को रेंडर करने में उतना ही समय लगता है जितना समय पेज के लिए अनुरोध करने में लगता है. इसलिए, अपने पेज की रेंडर होने की रफ़्तार बढ़ाने से उसे क्रॉल करने की रफ़्तार भी बढ़ती है.
गलत
छोटी साइटों को बड़ी साइटों के मुकाबले कम क्रॉल किया जाता है.
सही
गलत
अगर साइट पर ऐसा अहम कॉन्टेंट मौजूद है जो अक्सर बदलता रहता है, तो हम उसे अक्सर क्रॉल करते हैं. इससे फ़र्क़ नहीं पड़ता कि वह छोटी साइट है या बड़ी.
आपका कॉन्टेंट, साइट के होम पेज से जितना जुड़ा हुआ होगा उतना ही यह Google के लिए अहम होगा.
सही
कुछ हद तक सही
होम पेज आपकी साइट का सबसे अहम पेज होता है. इसलिए, होम पेज से लिंक किए गए पेज ज़्यादा अहम माने जा सकते हैं और हो सकता है कि उन्हें दूसरे पेजों के मुकाबले ज़्यादा बार क्रॉल किया जाए. हालांकि, इसका यह मतलब नहीं है कि इन पेजों को, आपकी साइट के दूसरे पेजों के मुकाबले ज़्यादा ऊंची रैंक दी जाएगी.
गलत
यूआरएल का नया वर्शन बनाना, Google को अपने पेज फिर से क्रॉल करने के लिए कहने का एक अच्छा तरीका है.
सही
कुछ हद तक सही
यूआरएल के अलग वर्शन का इस्तेमाल करके, आप Google को अपने उस पेज को फिर से क्रॉल करने के लिए कह सकते हैं जो अभी हाल ही में क्रॉल किया गया था. हालांकि, यह तरीका हमेशा काम करे, यह ज़रूरी नहीं है. अगर पेज में असल और ज़्यादा बदलाव नहीं किए गए हैं, तो इससे क्रॉल करने के लिए ज़रूरी रिसॉर्स की बर्बादी होती है. अगर आप नए कॉन्टेंट के बारे में बताने के लिए एक से ज़्यादा वर्शन वाले यूआरएल का इस्तेमाल करते हैं, तो हमारा सुझाव है कि आप पेज के कॉन्टेंट में बहुत ज़्यादा और ज़रूरी बदलाव करने के बाद ही यूआरएल को बदलें.
गलत
साइट की रफ़्तार और गड़बड़ियां मेरे क्रॉल बजट पर असर डालती हैं.
सही
साइट की रफ़्तार को बेहतर बनाने से, क्रॉल दर बढ़ने के साथ-साथ उपयोगकर्ताओं का अनुभव भी बेहतर होता है. Googlebot के लिए, तेज़ी से लोड होने वाली साइट का मतलब है कि उसका सर्वर अच्छा है. इसलिए, वह कनेक्शन की सीमित संख्या पर भी ज़्यादा कॉन्टेंट क्रॉल कर सकता है. इसका दूसरा पहलू यह है कि 5xx एचटीटीपी नतीजे वाले कोड (सर्वर की गड़बड़ियां) की ज़्यादा संख्या या कनेक्शन टाइमआउट की वजह से, क्रॉल करने की प्रोसेस धीमी हो सकती है. हमारा सुझाव है कि Search Console में क्रॉल करने के आंकड़ों की रिपोर्ट पर ध्यान दिया जाए और सर्वर की गड़बड़ियों की संख्या को कम किया जाए.
गलत
क्रॉल करने की प्रोसेस का असर आपकी साइट की रैंक पर पड़ता है.
सही
गलत
अपनी साइट की क्रॉल दर को बढ़ाने से, यह ज़रूरी नहीं है कि खोज के नतीजे में आपकी साइट की रैंक बेहतर हो जाएगी. Google किसी नतीजे की रैंक तय करने के लिए, कई सिग्नल इस्तेमाल करता है. हालांकि, क्रॉल करने की प्रोसेस, पेज को खोज नतीजों में दिखाने के लिए ज़रूरी है. हालांकि, यह कोई रैंकिंग सिग्नल नहीं है.
वैकल्पिक यूआरएल और एम्बेड किए गए कॉन्टेंट को, क्रॉल बजट में ही गिना जाता है.
सही
आम तौर पर, Googlebot जिस यूआरएल को क्रॉल करता है उसे साइट के क्रॉल बजट में गिना जाता है. एएमपी या hreflang जैसे वैकल्पिक यूआरएल क्रॉल करना पड़ सकता है. साथ ही, सीएसएस और JavaScript जैसे एम्बेड किए गए कॉन्टेंट को भी क्रॉल करना पड़ सकता है, जिसमें XHR फ़ेच भी शामिल हैं. इसके लिए, साइट के क्रॉल बजट का इस्तेमाल किया जाएगा.
गलत
मैं "क्रॉल करने में देरी" डायरेक्टिव (निर्देश) से Googlebot को कंट्रोल कर सकता/सकती हूं.
सही
गलत
"क्रॉल करने में देरी" वाले robots.txt के असामान्य डायरेक्टिव को Googlebot प्रोसेस नहीं करता.
nofollow डायरेक्टिव, क्रॉल बजट पर असर डालता है.
सही
कुछ हद तक सही
क्रॉल किया जाने वाला हर यूआरएल, क्रॉल बजट पर असर डालता है. इसलिए, अगर आपका पेज किसी यूआरएल को nofollow के तौर पर मार्क करता है, तो भी वह क्रॉल हो सकता है. ऐसा तब होगा, जब आपकी साइट का कोई दूसरा पेज या वेब पर मौजूद कोई पेज उस लिंक को nofollow के तौर पर मार्क नहीं करता.
गलत