क्रॉलिंग दिसंबर: सीडीएन और क्रॉलिंग

मंगलवार, 24 दिसंबर, 2024

कॉन्टेंट डिलीवरी नेटवर्क (सीडीएन), आपकी वेबसाइट के लोड होने में लगने वाले समय को कम करने के लिए खास तौर पर सही होते हैं. साथ ही, वेब ट्रैफ़िक से जुड़ी समस्याओं को दूर रखने में भी मदद करते हैं. आखिरकार, इसका मुख्य मकसद यही है: आपकी साइट पर ज़्यादा ट्रैफ़िक आने पर भी, आपके कॉन्टेंट को तेज़ी से डिलीवर करना. सीडीएन में "डी" का मतलब है, दुनिया भर में कॉन्टेंट डिलीवर या डिस्ट्रिब्यूट करना. इसलिए, आपके उपयोगकर्ताओं को कॉन्टेंट ट्रांसफ़र करने में लगने वाला समय, किसी एक डेटा सेंटर में होस्ट करने के मुकाबले कम होता है. इस पोस्ट में, हम CDN का इस्तेमाल करने का तरीका बताएंगे, ताकि आपकी साइट को क्रॉल करने और उपयोगकर्ताओं के अनुभव को बेहतर बनाया जा सके. साथ ही, हम CDN की मदद से क्रॉल की जाने वाली साइटों के बारे में भी कुछ जानकारी देंगे.

रीकैप: सीडीएन क्या है?

सीडीएन, आपके ऑरिजिन सर्वर (जहां आपकी वेबसाइट मौजूद होती है) और असली उपयोगकर्ता के बीच एक मध्यस्थ के तौर पर काम करते हैं. साथ ही, वे कुछ फ़ाइलों को दिखाते हैं. आम तौर पर, सीडीएन का ज़्यादातर फ़ोकस कैश मेमोरी में डेटा सेव करने पर होता है. इसका मतलब है कि जब कोई उपयोगकर्ता आपकी साइट से किसी यूआरएल का अनुरोध करता है, तो सीडीएन उस यूआरएल के कॉन्टेंट को कुछ समय के लिए अपनी कैश मेमोरी में सेव कर लेते हैं. इससे आपके सर्वर को कुछ समय के लिए उस फ़ाइल को फिर से नहीं दिखाना पड़ता.

सीडीएन, आपकी साइट की स्पीड काफ़ी बढ़ा सकते हैं. ऐसा, उपयोगकर्ताओं को उनके आस-पास की जगह से कॉन्टेंट उपलब्ध कराने की वजह से होता है. मान लें कि ऑस्ट्रेलिया में कोई उपयोगकर्ता, जर्मनी में होस्ट की गई साइट को ऐक्सेस कर रहा है. ऐसे में, सीडीएन उस उपयोगकर्ता को ऑस्ट्रेलिया में मौजूद अपने कैश मेमोरी से कॉन्टेंट दिखाएगा. इससे, दुनिया भर में डेटा भेजने और पाने में लगने वाला समय कम हो जाएगा. लाइटस्पीड के हिसाब से, यह समय अब भी काफ़ी ज़्यादा है.

आखिर में, सीडीएन, आपकी साइट को ओवरलोड होने और सुरक्षा से जुड़े कुछ खतरों से बचाने के लिए एक बेहतरीन टूल हैं. सीडीएन, दुनिया भर के ट्रैफ़िक को मैनेज करते हैं. इसलिए, वे ट्रैफ़िक में होने वाले बदलावों का पता लगाने और ज़्यादा या नुकसान पहुंचाने वाले ऐक्सेस को ब्लॉक करने के लिए, भरोसेमंद ट्रैफ़िक मॉडल बना सकते हैं. उदाहरण के लिए, 21 अक्टूबर, 2024 को, Cloudflare के सिस्टम ने अपने-आप 4.2 टीबीपीएस (बहुत ज़्यादा) के डीडीओएस हमले का पता लगाया और उसे कम कर दिया. यह हमला करीब एक मिनट तक चला.

सीडीएन आपकी साइट की मदद कैसे कर सकते हैं

ऐसा हो सकता है कि आपके पास सबसे तेज़ सर्वर और सबसे अच्छा अपलिंक हो और आपको लगता हो कि आपको किसी भी चीज़ को तेज़ करने की ज़रूरत नहीं है. हालांकि, सीडीएन की मदद से लंबे समय तक पैसे बचाए जा सकते हैं. खास तौर पर, अगर आपकी साइट बड़ी है, तो:

  • सीडीएन पर कैश मेमोरी: अगर मीडिया, JavaScript, और सीएसएस जैसे रिसॉर्स या आपका एचटीएमएल, सीडीएन के कैश मेमोरी से दिखाया जाता है, तो आपके सर्वर को उन रिसॉर्स को दिखाने के लिए, कंप्यूट और बैंडविथ खर्च नहीं करनी पड़ती. इससे सर्वर पर लोड कम हो जाता है. आम तौर पर, इसका मतलब यह भी है कि पेज, उपयोगकर्ताओं के ब्राउज़र में तेज़ी से लोड होते हैं. इससे बेहतर कन्वर्ज़न मिलते हैं.
  • ट्रैफ़िक के अचानक बढ़ने से सुरक्षा: सीडीएन, ज़्यादा या नुकसान पहुंचाने वाले ट्रैफ़िक की पहचान करने और उसे ब्लॉक करने में काफ़ी अच्छे होते हैं. इससे, आपके उपयोगकर्ता आपकी साइट पर तब भी आ सकते हैं, जब गुमराह करने वाले बॉट या नुकसान पहुंचाने वाले लोग आपके सर्वर को ओवरलोड कर दें.
    फ़्लड से सुरक्षा के अलावा, खराब ट्रैफ़िक को ब्लॉक करने के लिए इस्तेमाल किए जाने वाले कंट्रोल का इस्तेमाल, ऐसे ट्रैफ़िक को ब्लॉक करने के लिए भी किया जा सकता है जिसे आपको नहीं चाहिए. जैसे, कुछ क्रॉलर, किसी खास पैटर्न में फ़िट होने वाले क्लाइंट या सिर्फ़ एक ही आईपी पते का इस्तेमाल करने वाले ट्रोल. हालांकि, ऐसा अपने सर्वर या फ़ायरवॉल पर भी किया जा सकता है, लेकिन आम तौर पर सीडीएन के यूज़र इंटरफ़ेस का इस्तेमाल करना ज़्यादा आसान होता है.
  • भरोसेमंद होना: कुछ सीडीएन, आपकी साइट के बंद होने पर भी उपयोगकर्ताओं को आपकी साइट दिखा सकते हैं. यह तरीका सिर्फ़ स्टैटिक कॉन्टेंट के लिए काम कर सकता है. हालांकि, इससे यह पक्का करने के लिए काफ़ी हो सकता है कि वे अपना कारोबार कहीं और न ले जाएं.

कम शब्दों में, सीडीएन आपके लिए मददगार हैं. अगर आपकी साइट पर कई पेज हैं या आपको ज़्यादा ट्रैफ़िक मिलने की उम्मीद है (या पहले से ही मिल रहा है!), तो आपको अपनी ज़रूरतों के हिसाब से एक ऐसा सीडीएन चुनना चाहिए जो कीमत, परफ़ॉर्मेंस, भरोसेमंद, सुरक्षा, ग्राहक सहायता, बढ़ाने लायक, और आने वाले समय में साइट के दायरे को बढ़ाने जैसे फ़ैक्टर के आधार पर काम करे. अपने विकल्पों के बारे में जानने के लिए, होस्टिंग या सीएमएस की सेवा देने वाली कंपनी से संपर्क करें. साथ ही, यह भी पता करें कि आपने पहले से ही किसी विकल्प का इस्तेमाल किया है या नहीं.

क्रॉल करने से, सीडीएन वाली साइटों पर क्या असर पड़ता है

क्रॉल करने के मामले में भी सीडीएन मददगार हो सकते हैं. हालांकि, इनकी वजह से क्रॉल करने में कभी-कभी समस्याएं आ सकती हैं. हमारे साथ बने रहें.

सीडीएन का क्रॉल दर पर असर

क्रॉल करने के लिए हमारे इंफ़्रास्ट्रक्चर को इस तरह से डिज़ाइन किया गया है कि उन साइटों की क्रॉल दर ज़्यादा हो सके जो किसी सीडीएन का इस्तेमाल करती हैं. यह जानकारी, उस सेवा के आईपी पते से मिलती है जो उन यूआरएल को दिखाती है जिन्हें हमारे क्रॉलर ऐक्सेस कर रहे हैं. यह तरीका, कम से कम ज़्यादातर समय अच्छा काम करता है.

मान लें कि आपने आज ही स्टॉक फ़ोटो वाली साइट शुरू की है और आपके पास स्टॉक में 10,00,007 फ़ोटो हैं. आपने अपनी वेबसाइट को लैंडिंग पेज, कैटगरी पेजों, और अपने सभी सामान की जानकारी देने वाले पेजों के साथ लॉन्च किया है — इसलिए, आपके पास कई पेज हैं. हमने क्रॉल करने की क्षमता की सीमा के बारे में अपने दस्तावेज़ में बताया है कि Google Search इन सभी पेजों को जितनी जल्दी हो सके उतनी जल्दी क्रॉल करना चाहता है. हालांकि, क्रॉल करने की प्रोसेस से आपके सर्वर पर भी ज़्यादा लोड नहीं पड़ना चाहिए. अगर क्रॉल करने के अनुरोधों की संख्या बढ़ने पर, आपका सर्वर धीरे काम करने लगता है, तो आपके सर्वर को ओवरलोड होने से बचाने के लिए, Google की ओर से ट्रैफ़िक कम किया जाता है. जब क्रॉल करने वाले हमारे इन्फ़्रास्ट्रक्चर को पता चलता है कि आपकी साइट को सीडीएन की मदद मिलती है, तो इस थ्रेशोल्ड की सीमा काफ़ी ज़्यादा हो जाती है. साथ ही, यह माना जाता है कि एक साथ ज़्यादा अनुरोध भेजे जा सकते हैं, क्योंकि आपका सर्वर शायद इसे हैंडल कर सकता है. इससे आपकी वेबशॉप को तेज़ी से क्रॉल किया जा सकता है.

हालांकि, किसी यूआरएल को पहली बार ऐक्सेस करने पर, सीडीएन का कैश मेमोरी "कोल्ड" होता है. इसका मतलब है कि किसी ने भी अब तक उस यूआरएल का अनुरोध नहीं किया है. इसलिए, सीडीएन ने अब तक उसके कॉन्टेंट को कैश मेमोरी में सेव नहीं किया है. सीडीएन के कैश मेमोरी को "वॉर्म अप" करने के लिए, आपके ऑरिजिन सर्वर को उस यूआरएल को कम से कम एक बार दिखाना होगा. यह एचटीटीपी कैश मेमोरी के काम करने के तरीके से काफ़ी मिलता-जुलता है.

कम शब्दों में, भले ही आपकी वेबशॉप को सीडीएन की मदद मिलती हो, फिर भी आपके सर्वर को उन 10,00,007 यूआरएल को कम से कम एक बार दिखाना होगा. शुरुआती सर्व करने के बाद ही, आपका सीडीएन अपने कैश मेमोरी से आपको मदद कर सकता है. इससे आपके "क्रॉल बजट" पर काफ़ी बोझ पड़ता है और कुछ दिनों तक क्रॉल रेट ज़्यादा हो सकता है. इसलिए, एक साथ कई यूआरएल लॉन्च करने पर, इस बात का ध्यान रखें.

रेंडरिंग पर सीडीएन का असर

जैसा कि हमने अपनी पहली रिसॉर्स क्रॉल करने के बारे में दिसंबर की ब्लॉग पोस्ट में बताया था, रिसॉर्स को उनके होस्टनेम या सीडीएन होस्टनेम (cdn.example.com) पर अलग-अलग रखने से, हमारी वेब रेंडरिंग सेवा (डब्ल्यूआरएस) आपके पेजों को ज़्यादा बेहतर तरीके से रेंडर कर सकती है. हालांकि, इस बात का ध्यान रखें कि किसी दूसरे होस्टनेम से कनेक्ट करने की वजह से, पेज की परफ़ॉर्मेंस पर असर पड़ सकता है. इसलिए, आपको रेंडरिंग की परफ़ॉर्मेंस के साथ-साथ, पेज पर उपयोगकर्ता अनुभव पर भी ध्यान देना होगा.

अगर आपने अपने मुख्य होस्ट को सीडीएन के साथ बैक अप लिया है, तो आपको यह समस्या नहीं होगी: क्वेरी करने के लिए एक होस्टनेम और रेंडर करने के लिए ज़रूरी रिसॉर्स, सीडीएन के कैश मेमोरी से दिखाए जाते हैं. इससे, आपके सर्वर को उन्हें दिखाने की ज़रूरत नहीं पड़ती और पेज पर आने वाले लोगों के अनुभव पर कोई असर नहीं पड़ता.

आखिर में, अपने कारोबार के लिए सबसे सही तरीका चुनें: स्टैटिक रिसॉर्स के लिए अलग होस्टनेम (cdn.example.com) रखें, अपने मुख्य होस्टनेम को सीडीएन के साथ बैक अप लें या दोनों काम करें. Google का क्रॉल करने वाला इन्फ़्रास्ट्रक्चर, दोनों विकल्पों को बिना किसी समस्या के इस्तेमाल करता है.

जब सीडीएन ज़रूरत से ज़्यादा सुरक्षा देते हैं

सीडीएन के फ़्लड प्रोटेक्शन और क्रॉलर के क्रॉल करने के तरीके की वजह से, कभी-कभी ऐसे बॉट भी आपके सीडीएन की ब्लॉकलिस्ट में शामिल हो सकते हैं जिनकी ज़रूरत आपको अपनी साइट पर है. आम तौर पर, ये बॉट वेब ऐप्लिकेशन फ़ायरवॉल (डब्ल्यूएफ़) में शामिल होते हैं. इससे क्रॉलर आपकी साइट को ऐक्सेस नहीं कर पाते. इस वजह से, आपकी साइट को खोज के नतीजों में दिखने से रोका जा सकता है. ब्लॉक कई तरीकों से हो सकता है. इनमें से कुछ तरीकों से, Google के खोज नतीजों में साइट के दिखने पर ज़्यादा असर पड़ता है. साथ ही, इसे कंट्रोल करना मुश्किल या असंभव हो सकता है, क्योंकि यह सीडीएन के इकट्ठा किए गए डेटा पर होता है. इस ब्लॉग पोस्ट के लिए, हमने उन्हें दो कैटगरी में बांटा है: हार्ड ब्लॉक और सॉफ़्ट ब्लॉक.

हार्ड ब्लॉक

जब सीडीएन, क्रॉल करने के अनुरोध का ऐसा जवाब भेजता है जो किसी तरह की गड़बड़ी है, तो उसे हार्ड ब्लॉक कहा जाता है. इनके उदाहरण हो सकते हैं:

  • एचटीटीपी 503/429 स्टेटस कोड: कुछ समय के लिए ब्लॉक करने का सिग्नल देने के लिए, इन स्टेटस कोड को भेजना सबसे सही तरीका है. इससे आपको सीडीएन की ओर से अनजाने में किए गए ब्लॉक पर प्रतिक्रिया देने के लिए कुछ समय मिलेगा.
  • नेटवर्क टाइम आउट: सीडीएन से नेटवर्क टाइम आउट होने पर, जिन यूआरएल पर असर पड़ा है उन्हें Google के खोज इंडेक्स से हटा दिया जाएगा. ऐसा इसलिए, क्योंकि नेटवर्क की गड़बड़ियों को टर्मिनल, "हार्ड" गड़बड़ियां माना जाता है. इसके अलावा, इनसे आपकी साइट के क्रॉल रेट पर भी काफ़ी असर पड़ सकता है, क्योंकि ये हमारे क्रॉल इन्फ़्रास्ट्रक्चर को यह सिग्नल देते हैं कि साइट पर बहुत ज़्यादा लोड है.
  • एचटीटीपी 200 स्टेटस कोड के साथ, गड़बड़ी का कोई भी मैसेज: इसे सॉफ़्ट गड़बड़ियां भी कहा जाता है. यह गड़बड़ी का सबसे खराब टाइप है. अगर Google को गड़बड़ी का मैसेज "हार्ड" गड़बड़ी के तौर पर मिलता है, जैसे कि एचटीटीपी 500, तो Google उस यूआरएल को Search से हटा देगा. अगर Google, गड़बड़ी के मैसेज को "हार्ड" गड़बड़ियों के तौर पर नहीं पहचान पाता है, तो गड़बड़ी के एक जैसे मैसेज वाले सभी पेजों को Google के खोज इंडेक्स से डुप्लीकेट के तौर पर हटाया जा सकता है. डुप्लीकेट यूआरएल को फिर से क्रॉल करने का अनुरोध करने के लिए, Google इंडेक्स करने की प्रोसेस को बहुत कम इंसेंटिव मिलता है. इसलिए, इससे उबरने में ज़्यादा समय लग सकता है.

सॉफ़्ट ब्लॉक

जब आपका सीडीएन "क्या आपको यकीन है कि आप एक इंसान हैं" विज्ञापन दिखाता है, तो ऐसी ही समस्या दिख सकती है.

Crawley को इंसान कहने की उलझन हो सकती है

हमारे क्रॉलर को पता होता है कि वे इंसान नहीं हैं और न ही वे इंसान होने का दिखावा कर रहे हैं. वे सिर्फ़ क्रॉल करना चाहते हैं. हालांकि, जब विज्ञापन दिखता है, तो उन्हें आपकी शानदार साइट नहीं दिखती, सिर्फ़ विज्ञापन दिखता है. बॉट की पुष्टि करने वाले विज्ञापनों के मामले में, हमारा सुझाव है कि आप क्रॉलर जैसे ऑटोमेटेड क्लाइंट को 503 एचटीटीपी स्टेटस कोड के तौर पर साफ़ सिग्नल भेजें कि कॉन्टेंट कुछ समय के लिए उपलब्ध नहीं है. इससे यह पक्का होगा कि कॉन्टेंट, Google के इंडेक्स से अपने-आप न हटे.

गड़बड़ियों को डीबग करना

हार्ड और साफ़्ट, दोनों तरह के गड़बड़ियों के मामले में, यह जांचने का सबसे आसान तरीका है कि सब कुछ ठीक से काम कर रहा है या नहीं. इसके लिए, Search Console में यूआरएल जांचने वाले टूल का इस्तेमाल करें और रेंडर की गई इमेज देखें: अगर इसमें आपका पेज दिखता है, तो सब ठीक है. अगर इसमें खाली पेज, कोई गड़बड़ी या बॉट चैलेंज वाला पेज दिखता है, तो आपको अपने सीडीएन से इस बारे में बात करनी चाहिए.

इसके अलावा, अनजाने में होने वाली इन गड़बड़ियों को ठीक करने के लिए, Google, दूसरे सर्च इंजन, और अन्य क्रॉलर ऑपरेटर, हमारे आईपी पते पब्लिश करते हैं. इससे आपको हमारे क्रॉलर की पहचान करने में मदद मिलती है. अगर आपको लगता है कि यह सही है, तो WAF के नियमों से ब्लॉक किए गए आईपी को हटाएं या उन्हें अनुमति वाली सूची में जोड़ें. यह सुविधा कहां उपलब्ध है, यह इस बात पर निर्भर करता है कि आपने किस सीडीएन का इस्तेमाल किया है. ज़्यादातर सीडीएन और स्टैंडअलोन WAF के दस्तावेज़ बहुत अच्छे होते हैं. यहां कुछ ऐसे उदाहरण दिए गए हैं जो हमें खोज के बाद मिले हैं (इस पोस्ट के पब्लिश होने तक):

अगर आपको अपनी साइट को सर्च इंजन में दिखाना है, तो हमारा सुझाव है कि आप यह देख लें कि आपके लिए काम के क्रॉलर, आपकी साइट को ऐक्सेस कर सकते हैं या नहीं. याद रखें कि आईपी, ब्लॉकलिस्ट में अपने-आप शामिल हो सकते हैं. ऐसा आपके बिना जानकारी के हो सकता है. इसलिए, Search और अन्य प्लैटफ़ॉर्म पर अपनी साइट की परफ़ॉर्मेंस को बेहतर बनाने के लिए, ब्लॉकलिस्ट को समय-समय पर देखना एक अच्छा आइडिया है. अगर ब्लॉकलिस्ट बहुत लंबी है (इस ब्लॉग पोस्ट की तरह), तो आईपी रेंज के सिर्फ़ पहले कुछ सेगमेंट देखें. उदाहरण के लिए, 192.168.0.101 के बजाय सिर्फ़ 192.168 देखें.

दिसंबर में क्रॉल करने से जुड़ी ब्लॉग पोस्ट की सीरीज़ की यह आखिरी पोस्ट थी. हमें उम्मीद है कि आपको ये पोस्ट उतनी ही पसंद आई होंगी जितनी हमें उन्हें लिखने में मज़ा आया. अगर आपके पास कुछ और बातें हैं है, तो आपको पता है कि क्या करना है.


क्या आपको क्रॉल करने के बारे में ज़्यादा जानना है? 'क्रॉलिंग दिसंबर' सीरीज़ की पूरी जानकारी देखें: