बड़ी साइट के मालिक के लिए, वेबसाइट का क्रॉल बजट मैनेज करने के बारे में गाइड

इस गाइड में बताया गया है कि बड़ी और अक्सर अपडेट की जाने वाली साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे बेहतर बनाया जा सकता है.

अगर आपकी साइट पर, ऐसे ज़्यादा पेज नहीं हैं जो अक्सर अपडेट किए जाते हैं या अगर आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें पब्लिश किया जाता है, तो यह गाइड आपके लिए नहीं है. आपके लिए, नियमित तौर पर साइटमैप को अप-टू-डेट रखना और इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.

अगर आपका कॉन्टेंट काफ़ी समय से साइट पर उपलब्ध है, लेकिन उसे कभी इंडेक्स नहीं किया गया, तो यह एक अलग समस्या है. आपके पेज को इंडेक्स क्यों नहीं किया जा रहा, इसका पता लगाने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें.

यह गाइड किसके लिए है

यह एक बेहतर गाइड है और इसका इस्तेमाल नीचे दी गई साइटों के लिए किया जा सकता है:

  • 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट अक्सर अपडेट होता रहता है, जैसे कि हफ़्ते में एक बार
  • 10 हज़ार से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी अपडेट होता है, जैसे कि हर रोज़
  • ऐसी साइटें जिनके सभी यूआरएल के एक बड़े हिस्से को Search Console ने खोजा गया - फ़िलहाल इंडेक्स नहीं किया गया की कैटगरी में रखा है

क्रॉल होने से जुड़ी सामान्य बातें

वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Googlebot किसी साइट को क्रॉल करने में कितना समय ले सकता है, इसकी कुछ सीमाएं हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. ध्यान दें, यह ज़रूरी नहीं है कि आपकी साइट पर क्रॉल किए जाने वाले हर कॉन्टेंट को इंडेक्स किया जाए. हर पेज की जांच करना, उन्हें एक साथ लाना, और उनका आकलन करना ज़रूरी है. ऐसा यह तय करने के लिए किया जाता है कि पेज को क्रॉल करने के बाद, उसे इंडेक्स किया जाएगा या नहीं.

क्रॉल बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.

क्रॉल करने की क्षमता की सीमा

Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Googlebot आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाता है. क्षमता इस बात से तय की जाती है कि Google किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी ज़रूरी कॉन्टेंट को कवरेज दी जा सके.

क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:

  • क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे खुलती है या सर्वर की गड़बड़ियों के साथ खुलती है, तो यह सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
  • Search Console में साइट के मालिक की तरफ़ से तय की गई सीमा: वेबसाइट के मालिक अपनी साइट के लिए, Googlebot की क्रॉल दर घटा सकते हैं. ध्यान दें कि क्रॉल दर के लिए ज़्यादा सीमा तय करने के बाद भी साइट की क्रॉल दर अपने-आप नहीं बढ़ेगी.
  • साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास कई मशीनें हैं, लेकिन इनकी संख्या ज़्यादा नहीं है. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.

क्रॉल करने की ज़रूरत

आम तौर पर, साइट को क्रॉल करने के लिए Google ज़रूरत के हिसाब से आपकी साइट पर समय बिताता है. इसके लिए, वह दूसरी साइटों के मुकाबले आपकी साइट का साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी देखता है.

क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:

  • बताई गई इन्वेंट्री: आपकी मदद के बिना, Googlebot आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करेगा जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, ग़ैर-ज़रूरी पेज वगैरह) से आपको उन्हें क्रॉल नहीं कराना है, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आप आसानी से कंट्रोल कर सकते हैं.
  • लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे इंडेक्स में मौजूद रहें.
  • पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.

इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से इंडेक्स किया जा सके.

कुल मिलाकर कहें, तो

क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Googlebot क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता तय सीमा तक नहीं पहुंचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Googlebot आपकी साइट को कम बार क्रॉल करेगा.

सबसे सही तरीके

क्रॉल करने की क्षमता को बढ़ाने के लिए नीचे दिए गए सबसे सही तरीके अपनाएं:

  • यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें इंडेक्स करने की ज़रूरत नहीं है, तो हो सकता है कि Googlebot आपकी साइट के बाकी हिस्से को क्रॉल न करे या ऐसा करने के लिए आपका क्रॉल बजट बढ़ा दे.
    • डुप्लीकेट कॉन्टेंट को एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल के बजाय, यूनीक कॉन्टेंट को क्रॉल करने पर फ़ोकस किया जा सके.
    • robots.txt का इस्तेमाल करके, यूआरएल को क्रॉल किए जाने से रोकना. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन यह ज़रूरी नहीं कि आप उन्हें Search के नतीजों में दिखाना चाहें. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, जिन पर लिंक किए गए पेजों में मौजूद जानकरी को डुप्लीकेट किया गया है या किसी पेज के अलग-अलग वर्शन. अगर पहले बुलेट पॉइंट में बताए गए तरीके से भी ये पेज एक साथ नहीं आ पा रहे हैं, तो robots.txt का इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें. robots.txt का इस्तेमाल करके यूआरएल पर रोक लगाने से, यूआरएल के इंडेक्स होने की संभावना काफ़ी कम हो जाती है.
    • हमेशा के लिए हटाए गए पेजों के लिए, 404 या 410 स्टेटस कोड दिखाएं. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए 404 स्टेटस कोड दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद उन्हें फिर से क्रॉल किया जाएगा.
    • soft 404 गड़बड़ियां हटाएं. किसी पेज पर soft 404 दिखाने से उसके क्रॉल होने पर पाबंदी नहीं लगती और इससे आपके क्रॉल बजट पर असर पड़ सकता है. soft 404 गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.
    • अपने साइटमैप को अप-टू-डेट रखें. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आपको जिन कॉन्टेंट को Google से क्रॉल कराना है उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप <lastmod> टैग शामिल करें.
    • दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
  • अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
  • अपनी साइट के क्रॉल होने पर नज़र रखना. नज़र रखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आपकी साइट को बेहतर तरीके से क्रॉल किया जा सकता है.

अपनी साइट के क्रॉल होने और इंडेक्स होने पर नज़र रखना

यहां आपकी साइट की क्रॉल प्रोफ़ाइल पर नज़र रखने का तरीका दिया गया है:

  1. देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
  2. देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
  3. देखें कि क्या आपकी साइट के किसी भी हिस्से को उससे ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए जिस तेज़ी से वे अभी क्रॉल किए जा रहे हैं.
  4. अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
  5. अपनी साइट को ज़रूरत से ज़्यादा क्रॉल होने से बचाएं.

1. देखें कि Googlebot को साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही

अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. जैसा पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.

गड़बड़ी का पता लगाना:

Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.

हल:

  • उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
  • जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
  • पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
  • अपने सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.

2. देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है

अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).

गड़बड़ी का पता लगाना:

Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, आप अपनी साइट के लॉग पर जाकर, यह देख सकते हैं कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.

ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.

हल:

अगर आप अपनी साइट में पेज जोड़ रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.

  1. Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
  2. अपने robots.txt के निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
  3. क्रॉल करने की प्राथमिकताओं की समीक्षा करें. इसका मतलब है कि अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें. अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
  4. देखें कि आपकी साइट की सर्विंग कैपेसिटी खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.

ध्यान दें कि अगर उपयोगकर्ताओं को कॉन्टेंट दिलचस्प नहीं लगता या वे कॉन्टेंट की मांग नहीं करते हैं, तो हो सकता है कि क्रॉल किए जाने के बाद भी पेज, खोज के नतीजों में न दिखाए जाएं.

3. देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं

अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि आप पेजों में किए गए अपडेट के बारे में हमें कैसे बता सकते हैं.

ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.

गड़बड़ी का पता लगाना:

Googlebot ने कुछ खास यूआरएल को कब क्रॉल किया यह जानने के लिए, अपनी साइट के लॉग देखें.

इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए, Google पर खोज करें.

हल:

यह करें:

  • अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें. साइटमैप को पोस्ट करने या उसमें बदलाव करने के बाद, Google को इस बारे में बताएं.
  • इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में <lastmod> टैग का इस्तेमाल करें.
  • यूआरएल के लिए सामान्य स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
  • स्टैंडर्ड और क्रॉल किए जा सकने वाले <a> लिंक दें, ताकि Google आपके पेज ढूंढ पाए.

ऐसा करने से बचें:

  • हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
  • यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
  • साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आप इंडेक्स नहीं कराना चाहते.

4. अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं

अपने पेज के लोड होने की रफ़्तार बढ़ाना

Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.

जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:

  • robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
  • पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
  • दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
  • सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.

वे यूआरएल छिपाएं जिन्हें आप खोज के नतीजों में नहीं दिखाना चाहते

ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला नया या अपडेट किया गया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.

आपको अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन कैटगरी में आते हैं:

यह करें:

  • अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
  • अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.

ऐसा करने से बचें:

  • अपनी साइट के क्रॉल बजट को फिर से बढ़ाने के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आपको लंबे समय तक Google पर नहीं देखना है.
  • बजट को फिर से बढ़ाने के लिए, साइटमैप में लगातार बदलाव न करें या कुछ समय के लिए रिसॉर्स छिपाने का तरीका भी इस्तेमाल न करें.

5. अपनी साइट को ज़्यादा क्रॉल होने से बचाएं (आपातकालीन स्थिति)

Googlebot, कई एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों का दबाव न बढ़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो आप ये काम कर सकते हैं.

गड़बड़ी का पता लगाना:

अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.

हल:

हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:

  1. जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में, 503 या 429 एचटीटीपी नतीजों का स्टेटस कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आगे बताया गया तरीका अपनाएं.
  2. अपनी साइट के लिए, Googlebot की क्रॉल दर कम करें. इसे लागू होने में ज़्यादा से ज़्यादा दो दिन लग सकते हैं और इसके लिए आपके पास, Search Console में प्रॉपर्टी का मालिकाना हक होना चाहिए. ऐसा तब ही करें, जब आपको लंबे समय तक, क्रॉल करने के बारे में आंकड़ों वाली रिपोर्ट में बार-बार Google के ज़्यादा अनुरोध दिखें. इसे देखने के लिए, होस्ट की उपलब्धता > होस्ट का इस्तेमाल चार्ट पर जाएं.
  3. जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए 503 या 429 एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखाना बंद कर दें; जिन यूआरएल के लिए 503 या 429 दिखेगा, Google अपने इंडेक्स से उनको हटा देगा.
  4. अपनी साइट के क्रॉल होने और होस्ट की क्षमता पर ध्यान दें. अगर सही लगे, तो अपनी क्रॉल दर फिर से बढ़ाएं या डिफ़ॉल्ट रूप से सेट की गई दर से क्रॉल होने दें.
  5. अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए डाइनैमिक सर्च विज्ञापन वाले ऐसे टारगेट बनाए हैं जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर दो हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.

क्रॉल होने की प्रोसेस से जुड़े भ्रम और तथ्य

Google, वेबसाइटों को क्रॉल और इंडेक्स कैसे करता है, इस बारे में आपको सही जानकारी है या नहीं, इसका पता लगाएं.

अपना साइटमैप कंप्रेस करने से मेरा क्रॉल बजट बढ़ सकता है.
सही
गलत
ऐसा नहीं होता. ज़िप किए गए साइटमैप को अब भी सर्वर से फ़ेच किया जाता है. इसलिए, असल में आप कंप्रेस किए गए साइटमैप भेजकर, क्रॉल करने में लगने वाले Google के समय या मेहनत को कम नहीं कर रहे हैं.
Google नए कॉन्टेंट को प्राथमिकता देता है, इसलिए मुझे अपने पेज के कॉन्टेंट में बदलाव करते रहना चाहिए.
सही
गलत
कॉन्टेंट की रेटिंग उसकी क्वालिटी से तय की जाती है न कि इस बात से कि कॉन्टेंट कितना पुराना है. कॉन्टेंट बनाएं और उसे ज़रूरत के मुताबिक अपडेट करें. हालांकि, पेज की तारीख बदलने और पेज में छोटे-मोटे बदलाव करके, उसे नए के तौर पर दिखाने से कोई फ़ायदा नहीं होता.
Google, नए कॉन्टेंट के मुकाबले पुराने कॉन्टेंट को प्राथमिकता देता है और उसकी अहमियत ज़्यादा होती है.
सही
गलत
अगर आपका पेज उपयोगी है, तो इस बात से कोई फ़र्क़ नहीं पड़ता कि वह पुराना है या नया है.
Google बिना गड़बड़ी वाले यूआरएल को प्राथमिकता देता है और क्वेरी पैरामीटर को प्राथमिकता नहीं देता.
सही
गलत
हम पैरामीटर क्रॉल कर सकते हैं.
आपके पेज जितनी तेज़ी से लोड और रेंडर होंगे, Google उन्हें उतना ज़्यादा क्रॉल कर पाएगा.
सही
यह बात सही है कि हमारे रिसॉर्स, क्रॉल करने में लगने वाला समय और क्रॉल करने वाले बॉट की संख्या, दोनों मामलों में सीमित हैं. अगर आप हमें तय समय में ज़्यादा पेज दिखाते हैं, तो हम उनमें से ज़्यादातर को क्रॉल कर लेंगे. हालांकि, ऐसा हो सकता है कि हम ज़्यादा उपयोगी साइट को क्रॉल करने में ज़्यादा समय लें. भले ही, वह धीरे क्यों न लोड होती हो. आपके लिए यह ज़्यादा अहम है कि आप साइट को अपने उपयोगकर्ताओं के लिए तेज़ बनाएं, न कि अपने क्रॉल कवरेज बढ़ाने के लिए. ऐसा करके आप यह आसानी से पक्का कर पाएंगे कि Google हर बार आपकी साइट का सारे कॉन्टेंट को क्रॉल करने के बजाय, ज़रूरी कॉन्टेंट को क्रॉल करे. ध्यान दें कि साइट को क्रॉल करने की प्रोसेस में कॉन्टेंट को वापस पाना और रेंडर करना, दोनों शामिल होते हैं. पेज को रेंडर करने में उतना ही समय लगता है जितना समय पेज के लिए अनुरोध करने में लगता है. इसलिए, अपने पेज की रेंडर होने की रफ़्तार बढ़ाने से उसे क्रॉल करने की रफ़्तार भी बढ़ती है.
गलत
छोटी साइटों को बड़ी साइटों के मुकाबले कम क्रॉल किया जाता है.
सही
गलत
अगर साइट पर ऐसा अहम कॉन्टेंट मौजूद है जो अक्सर बदलता रहता है, तो हम उसे अक्सर क्रॉल करते हैं. इससे फ़र्क़ नहीं पड़ता कि वह छोटी साइट है या बड़ी.
आपका कॉन्टेंट, साइट के होम पेज से जितना जुड़ा हुआ होगा उतना ही यह Google के लिए अहम होगा.
सही
कुछ हद तक सही
होम पेज आपकी साइट का सबसे अहम पेज होता है. इसलिए, होम पेज से लिंक किए गए पेज ज़्यादा अहम माने जा सकते हैं और हो सकता है कि उन्हें दूसरे पेजों के मुकाबले ज़्यादा बार क्रॉल किया जाए. हालांकि, इसका यह मतलब नहीं है कि इन पेजों को, आपकी साइट के दूसरे पेजों के मुकाबले ज़्यादा ऊंची रैंक दी जाएगी.
गलत
यूआरएल का नया वर्शन बनाना, Google को अपने पेज फिर से क्रॉल करने के लिए कहने का एक अच्छा तरीका है.
सही
कुछ हद तक सही
यूआरएल के अलग वर्शन का इस्तेमाल करके, आप Google को अपने उस पेज को फिर से क्रॉल करने के लिए कह सकते हैं जो अभी हाल ही में क्रॉल किया गया था. हालांकि, यह तरीका हमेशा काम करे, यह ज़रूरी नहीं है. अगर पेज में असल और ज़्यादा बदलाव नहीं किए गए हैं, तो इससे क्रॉल करने के लिए ज़रूरी रिसॉर्स की बर्बादी होती है. अगर आप नए कॉन्टेंट के बारे में बताने के लिए एक से ज़्यादा वर्शन वाले यूआरएल का इस्तेमाल करते हैं, तो हमारा सुझाव है कि आप पेज के कॉन्टेंट में बहुत ज़्यादा और ज़रूरी बदलाव करने के बाद ही यूआरएल को बदलें.
गलत
साइट की रफ़्तार और गड़बड़ियां मेरे क्रॉल बजट पर असर डालती हैं.
सही
साइट की रफ़्तार को बेहतर बनाने से, क्रॉल दर बढ़ने के साथ-साथ उपयोगकर्ताओं का अनुभव भी बेहतर होता है. Googlebot के लिए, तेज़ी से लोड होने वाली साइट का मतलब है कि उसका सर्वर अच्छा है. इसलिए, वह कनेक्शन की सीमित संख्या पर भी ज़्यादा कॉन्टेंट क्रॉल कर सकता है. वहीं दूसरी ओर, ज़्यादा संख्या में 5xx एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखने या कनेक्शन के टाइम आउट होने से पता चलता है कि सर्वर ठीक से काम नहीं कर रहा है. इससे, क्रॉल करने की प्रोसेस धीमी हो जाती है. हमारा सुझाव है कि Search Console में मौजूद, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट पर ध्यान दिया जाए. इससे, सर्वर की गड़बड़ियां कम करने में मदद मिलेगी.
गलत
क्रॉल करने की प्रोसेस का असर आपकी साइट की रैंक पर पड़ता है.
सही
गलत
अपनी साइट की क्रॉल दर को बढ़ाने से, यह ज़रूरी नहीं है कि खोज के नतीजे में आपकी साइट की रैंक बेहतर हो जाएगी. Google किसी नतीजे की रैंक तय करने के लिए, कई सिग्नल इस्तेमाल करता है. हालांकि, क्रॉल करने की प्रोसेस, पेज को खोज नतीजों में दिखाने के लिए ज़रूरी है. हालांकि, यह कोई रैंकिंग सिग्नल नहीं है.
वैकल्पिक यूआरएल और एम्बेड किए गए कॉन्टेंट को, क्रॉल बजट में ही गिना जाता है.
सही
आम तौर पर, Googlebot जिस यूआरएल को क्रॉल करता है उसे साइट के क्रॉल बजट में गिना जाता है. एएमपी या hreflang जैसे वैकल्पिक यूआरएल क्रॉल करना पड़ सकता है. साथ ही, सीएसएस और JavaScript जैसे एम्बेड किए गए कॉन्टेंट को भी क्रॉल करना पड़ सकता है, जिसमें XHR फ़ेच भी शामिल हैं. इसके लिए, साइट के क्रॉल बजट का इस्तेमाल किया जाएगा.
गलत
मैं "क्रॉल करने में देरी" डायरेक्टिव (निर्देश) से Googlebot को कंट्रोल कर सकता/सकती हूं.
सही
गलत
"क्रॉल करने में देरी" वाले robots.txt के असामान्य डायरेक्टिव को Googlebot प्रोसेस नहीं करता.
nofollow डायरेक्टिव, क्रॉल बजट पर असर डालता है.
सही
कुछ हद तक सही
क्रॉल किया जाने वाला हर यूआरएल, क्रॉल बजट पर असर डालता है. इसलिए, अगर आपका पेज किसी यूआरएल को nofollow के तौर पर मार्क करता है, तो भी वह क्रॉल हो सकता है. ऐसा तब होगा, जब आपकी साइट का कोई दूसरा पेज या वेब पर मौजूद कोई पेज उस लिंक को nofollow के तौर पर मार्क नहीं करता.
गलत