बड़ी साइट के मालिक के लिए, वेबसाइट का क्रॉल बजट मैनेज करने के बारे में गाइड
इस गाइड में बताया गया है कि बड़ी और अक्सर अपडेट की जाने वाली साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे बेहतर बनाया जा सकता है.
अगर आपकी साइट पर, ऐसे ज़्यादा पेज नहीं हैं जो अक्सर अपडेट किए जाते हैं या अगर आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें पब्लिश किया जाता है, तो यह गाइड आपके लिए नहीं है. आपके लिए, नियमित तौर पर साइटमैप को अप-टू-डेट रखना और इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.
अगर आपका कॉन्टेंट काफ़ी समय से साइट पर उपलब्ध है, लेकिन उसे कभी इंडेक्स नहीं किया गया, तो यह एक अलग समस्या है. आपके पेज को इंडेक्स क्यों नहीं किया जा रहा, इसका पता लगाने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें.
यह गाइड किसके लिए है
यह एक बेहतर गाइड है और इसका इस्तेमाल नीचे दी गई साइटों के लिए किया जा सकता है:
- 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट अक्सर अपडेट होता रहता है, जैसे कि हफ़्ते में एक बार
- 10 हज़ार से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी अपडेट होता है, जैसे कि हर रोज़
- ऐसी साइटें जिनके सभी यूआरएल के एक बड़े हिस्से को Search Console ने खोजा गया - फ़िलहाल इंडेक्स नहीं किया गया की कैटगरी में रखा है
क्रॉल होने से जुड़ी सामान्य बातें
वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Googlebot किसी साइट को क्रॉल करने में कितना समय ले सकता है, इसकी कुछ सीमाएं हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. ध्यान दें, यह ज़रूरी नहीं है कि आपकी साइट पर क्रॉल किए जाने वाले हर कॉन्टेंट को इंडेक्स किया जाए. हर पेज की जांच करना, उन्हें एक साथ लाना, और उनका आकलन करना ज़रूरी है. ऐसा यह तय करने के लिए किया जाता है कि पेज को क्रॉल करने के बाद, उसे इंडेक्स किया जाएगा या नहीं.
क्रॉल बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.
क्रॉल करने की क्षमता की सीमा
Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Googlebot आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाता है. क्षमता इस बात से तय की जाती है कि Google किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी ज़रूरी कॉन्टेंट को कवरेज दी जा सके.
क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:
- क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे खुलती है या सर्वर की गड़बड़ियों के साथ खुलती है, तो यह सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
- Search Console में साइट के मालिक की तरफ़ से तय की गई सीमा: वेबसाइट के मालिक अपनी साइट के लिए, Googlebot की क्रॉल दर घटा सकते हैं. ध्यान दें कि क्रॉल दर के लिए ज़्यादा सीमा तय करने के बाद भी साइट की क्रॉल दर अपने-आप नहीं बढ़ेगी.
- साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास कई मशीनें हैं, लेकिन इनकी संख्या ज़्यादा नहीं है. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.
क्रॉल करने की ज़रूरत
आम तौर पर, साइट को क्रॉल करने के लिए Google ज़रूरत के हिसाब से आपकी साइट पर समय बिताता है. इसके लिए, वह दूसरी साइटों के मुकाबले आपकी साइट का साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी देखता है.
क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:
- बताई गई इन्वेंट्री: आपकी मदद के बिना, Googlebot आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करेगा जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, ग़ैर-ज़रूरी पेज वगैरह) से आपको उन्हें क्रॉल नहीं कराना है, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आप आसानी से कंट्रोल कर सकते हैं.
- लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे इंडेक्स में मौजूद रहें.
- पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.
इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से इंडेक्स किया जा सके.
कुल मिलाकर कहें, तो
क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Googlebot क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता तय सीमा तक नहीं पहुंचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Googlebot आपकी साइट को कम बार क्रॉल करेगा.
सबसे सही तरीके
क्रॉल करने की क्षमता को बढ़ाने के लिए नीचे दिए गए सबसे सही तरीके अपनाएं:
- यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें इंडेक्स करने की ज़रूरत नहीं है, तो हो सकता है कि Googlebot आपकी साइट के बाकी हिस्से को क्रॉल न करे या ऐसा करने के लिए आपका क्रॉल बजट बढ़ा दे.
- डुप्लीकेट कॉन्टेंट को एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल के बजाय, यूनीक कॉन्टेंट को क्रॉल करने पर फ़ोकस किया जा सके.
- robots.txt का इस्तेमाल करके, यूआरएल को क्रॉल किए जाने से रोकना. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन यह ज़रूरी नहीं कि आप उन्हें Search के नतीजों में दिखाना चाहें. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, जिन पर लिंक किए गए पेजों में मौजूद जानकरी को डुप्लीकेट किया गया है या किसी पेज के अलग-अलग वर्शन. अगर पहले बुलेट पॉइंट में बताए गए तरीके से भी ये पेज एक साथ नहीं आ पा रहे हैं, तो robots.txt का इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें. robots.txt का इस्तेमाल करके यूआरएल पर रोक लगाने से, यूआरएल के इंडेक्स होने की संभावना काफ़ी कम हो जाती है.
-
हमेशा के लिए हटाए गए पेजों के लिए,
404
या410
स्टेटस कोड दिखाएं. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए404
स्टेटस कोड दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद उन्हें फिर से क्रॉल किया जाएगा. soft 404
गड़बड़ियां हटाएं. किसी पेज परsoft 404
दिखाने से उसके क्रॉल होने पर पाबंदी नहीं लगती और इससे आपके क्रॉल बजट पर असर पड़ सकता है.soft 404
गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.- अपने साइटमैप को अप-टू-डेट रखें. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आपको जिन कॉन्टेंट को Google से क्रॉल कराना है उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप
<lastmod>
टैग शामिल करें. - दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
- अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
- अपनी साइट के क्रॉल होने पर नज़र रखना. नज़र रखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आपकी साइट को बेहतर तरीके से क्रॉल किया जा सकता है.
अपनी साइट के क्रॉल होने और इंडेक्स होने पर नज़र रखना
यहां आपकी साइट की क्रॉल प्रोफ़ाइल पर नज़र रखने का तरीका दिया गया है:
- देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
- देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
- देखें कि क्या आपकी साइट के किसी भी हिस्से को उससे ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए जिस तेज़ी से वे अभी क्रॉल किए जा रहे हैं.
- अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
- अपनी साइट को ज़रूरत से ज़्यादा क्रॉल होने से बचाएं.
1. देखें कि Googlebot को साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही
अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. जैसा पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.
गड़बड़ी का पता लगाना:
Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.
हल:
- उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
- जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
- पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
- अपने सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.
2. देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है
अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).
गड़बड़ी का पता लगाना:
Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, आप अपनी साइट के लॉग पर जाकर, यह देख सकते हैं कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.
ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.
हल:
अगर आप अपनी साइट में पेज जोड़ रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.
- Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
- अपने robots.txt के निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
- क्रॉल करने की प्राथमिकताओं की समीक्षा करें. इसका मतलब है कि अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें. अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
- देखें कि आपकी साइट की सर्विंग कैपेसिटी खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.
ध्यान दें कि अगर उपयोगकर्ताओं को कॉन्टेंट दिलचस्प नहीं लगता या वे कॉन्टेंट की मांग नहीं करते हैं, तो हो सकता है कि क्रॉल किए जाने के बाद भी पेज, खोज के नतीजों में न दिखाए जाएं.
3. देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं
अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि आप पेजों में किए गए अपडेट के बारे में हमें कैसे बता सकते हैं.
ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.
गड़बड़ी का पता लगाना:
Googlebot ने कुछ खास यूआरएल को कब क्रॉल किया यह जानने के लिए, अपनी साइट के लॉग देखें.
इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए, Google पर खोज करें.
हल:
यह करें:
- अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें. साइटमैप को पोस्ट करने या उसमें बदलाव करने के बाद, Google को इस बारे में बताएं.
- इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में
<lastmod>
टैग का इस्तेमाल करें. - यूआरएल के लिए सामान्य स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
- स्टैंडर्ड और क्रॉल किए जा सकने वाले
<a>
लिंक दें, ताकि Google आपके पेज ढूंढ पाए.
ऐसा करने से बचें:
- हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
- यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
- साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आप इंडेक्स नहीं कराना चाहते.
4. अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं
अपने पेज के लोड होने की रफ़्तार बढ़ाना
Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.
जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:
- robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
- पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
- दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
- सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.
वे यूआरएल छिपाएं जिन्हें आप खोज के नतीजों में नहीं दिखाना चाहते
ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला नया या अपडेट किया गया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.
आपको अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन कैटगरी में आते हैं:
- वेबसाइट पर फ़िल्टर लगाकर खोजना और सेशन आइडेंटिफ़ायर: वेबसाइट पर फ़िल्टर लगाकर खोजना, आम तौर पर किसी साइट का डुप्लीकेट कॉन्टेंट होता है. सेशन आइडेंटिफ़ायर और दूसरे यूआरएल पैरामीटर, ऐसे पेज को फ़िल्टर और क्रम से लगाते हैं करते हैं जिन पर नया कॉन्टेंट नहीं डाला जाता. वेबसाइट पर फ़िल्टर लगाकर खोजने वाले पेजों को ब्लॉक करने के लिए, robots.txt का इस्तेमाल करें.
- डुप्लीकेट कॉन्टेंट: डुप्लीकेट कॉन्टेंट को पहचानने में Google की मदद करें, ताकि Google बेवजह इस तरह के कॉन्टेंट को क्रॉल न करे.
soft 404
वाले पेज: अगर कोई पेज आपकी साइट पर अब मौजूद नहीं है, तो उसके लिए404
वाला कोड दिखाएं.- हैक किए गए पेज: सुरक्षा से जुड़ी समस्याओं की रिपोर्ट देखें और हैक किए गए पेजों को ठीक करें या उन्हें हटाएं.
- पुराने कॉन्टेंट वाले कई सारे लिंक और प्रॉक्सी: robots.txt का इस्तेमाल करके इन्हें क्रॉल होने से रोकें.
- हल्की क्वालिटी और स्पैम वाला कॉन्टेंट: इनके इस्तेमाल से बचें.
- शॉपिंग कार्ट वाले पेज, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, और कार्रवाई (जैसे, "साइन अप" या "अभी खरीदें") वाले पेज.
यह करें:
- अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
- अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.
ऐसा करने से बचें:
- अपनी साइट के क्रॉल बजट को फिर से बढ़ाने के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आपको लंबे समय तक Google पर नहीं देखना है.
- बजट को फिर से बढ़ाने के लिए, साइटमैप में लगातार बदलाव न करें या कुछ समय के लिए रिसॉर्स छिपाने का तरीका भी इस्तेमाल न करें.
5. अपनी साइट को ज़्यादा क्रॉल होने से बचाएं (आपातकालीन स्थिति)
Googlebot, कई एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों का दबाव न बढ़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो आप ये काम कर सकते हैं.
गड़बड़ी का पता लगाना:
अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.
हल:
हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:
- जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में,
503
या429
एचटीटीपी नतीजों का स्टेटस कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आगे बताया गया तरीका अपनाएं. - अपनी साइट के लिए, Googlebot की क्रॉल दर कम करें. इसे लागू होने में ज़्यादा से ज़्यादा दो दिन लग सकते हैं और इसके लिए आपके पास, Search Console में प्रॉपर्टी का मालिकाना हक होना चाहिए. ऐसा तब ही करें, जब आपको लंबे समय तक, क्रॉल करने के बारे में आंकड़ों वाली रिपोर्ट में बार-बार Google के ज़्यादा अनुरोध दिखें. इसे देखने के लिए, होस्ट की उपलब्धता > होस्ट का इस्तेमाल चार्ट पर जाएं.
-
जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए
503
या429
एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखाना बंद कर दें; जिन यूआरएल के लिए503
या429
दिखेगा, Google अपने इंडेक्स से उनको हटा देगा. - अपनी साइट के क्रॉल होने और होस्ट की क्षमता पर ध्यान दें. अगर सही लगे, तो अपनी क्रॉल दर फिर से बढ़ाएं या डिफ़ॉल्ट रूप से सेट की गई दर से क्रॉल होने दें.
- अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए डाइनैमिक सर्च विज्ञापन वाले ऐसे टारगेट बनाए हैं जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर दो हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.
क्रॉल होने की प्रोसेस से जुड़े भ्रम और तथ्य
Google, वेबसाइटों को क्रॉल और इंडेक्स कैसे करता है, इस बारे में आपको सही जानकारी है या नहीं, इसका पता लगाएं.
nofollow
डायरेक्टिव, क्रॉल बजट पर असर डालता है.nofollow
के तौर पर मार्क करता है, तो भी वह क्रॉल हो सकता है. ऐसा तब होगा, जब
आपकी साइट का कोई दूसरा पेज या वेब पर मौजूद कोई पेज उस लिंक को nofollow
के तौर पर मार्क नहीं करता.