क्रॉलिंग दिसंबर: Googlebot के क्रॉल करने का तरीका और वजह

मंगलवार, 3 दिसंबर, 2024

आपने सुना होगा कि किसी वेब पेज को Google Search के नतीजों में दिखाने से पहले, Google Search को कुछ प्रोसेस करनी पड़ती है. क्रॉलिंग भी इस प्रोसेस का एक हिस्सा है. Google Search के लिए क्रॉल करने का काम, Googlebot करता है. यह Google के सर्वर पर चलने वाला एक प्रोग्राम है. यह किसी यूआरएल को वापस लाता है और नेटवर्क की गड़बड़ियों, रीडायरेक्ट, और वेब पर काम करते समय आने वाली अन्य छोटी समस्याओं को हल करता है. हालांकि, कुछ ऐसी जानकारी है जिसके बारे में अक्सर बात नहीं की जाती. इस महीने के हर हफ़्ते, हम ऐसी ही कुछ जानकारी देंगे. इसका आपकी साइटों के क्रॉल करने के तरीके पर काफ़ी असर पढ़ सकता है.

थोड़ा पीछे जाएं: क्रॉलिंग क्या है?

क्रॉलिंग, नए वेब पेजों को खोजने, अपडेट किए गए वेब पेजों पर फिर से जाने, और उन्हें डाउनलोड करने की प्रोसेस है. कम शब्दों में, Googlebot को एक यूआरएल मिलता है और वह इसे होस्ट करने वाले सर्वर से एचटीटीपी अनुरोध करता है. इसके बाद, उस सर्वर से मिले रिस्पॉन्स को मैनेज करता है. इसमें, रीडायरेक्ट को फ़ॉलो करना, गड़बड़ियों को हैंडल करना, और पेज के कॉन्टेंट को Google के इंडेक्सिंग सिस्टम को भेजना शामिल है.

हालांकि, आधुनिक वेब पेज सिर्फ़ एचटीएमएल नहीं होते. ऐसे में, पेज बनाने वाले दूसरे रिसॉर्स का क्या होता है? इन रिसॉर्स को क्रॉल करने से "क्रॉल बजट" पर क्या असर पड़ता है? क्या Google के पास इन रिसॉर्स को कैश मेमोरी में सेव करने का विकल्प है? क्या पहले क्रॉल नहीं किए गए यूआरएल और पहले से इंडेक्स किए गए यूआरएल में कोई अंतर है? इस पोस्ट में, हम इन सवालों के साथ-साथ और भी कई सवालों के जवाब देंगे!

Googlebot और पेज को क्रॉल करने के संसाधन

आधुनिक वेबसाइटें, एचटीएमएल के अलावा, JavaScript और सीएसएस जैसी अलग-अलग टेक्नोलॉजी का एक साथ इस्तेमाल करती हैं. इससे उपयोगकर्ताओं को बेहतर अनुभव और काम की सुविधाएं मिलती हैं. जब ऐसे पेजों को किसी ब्राउज़र से ऐक्सेस किया जाता है, तो ब्राउज़र सबसे पहले पैरंट यूआरएल डाउनलोड करता है. यह यूआरएल उस डेटा को होस्ट करता है जो उपयोगकर्ता के लिए पेज बनाने के लिए ज़रूरी होता है. यह डेटा, पेज का एचटीएमएल होता है. इस शुरुआती डेटा में, JavaScript और सीएसएस जैसे रिसॉर्स के रेफ़रंस हो सकते हैं. साथ ही, इसमें ऐसी इमेज और वीडियो भी हो सकते हैं जिन्हें ब्राउज़र फिर से डाउनलोड करेगा, ताकि वह कोई फ़ाइनल पेज बना सके. इसके बाद, यह पेज उपयोगकर्ता के लिए उपलब्ध कराया जाएगा.

Google भी यही काम करता है, लेकिन थोड़ा अलग तरीके से:

  1. Googlebot, पैरंट यूआरएल से शुरुआती डेटा डाउनलोड करता है. यह डेटा, पेज का HTML होता है.
  2. Googlebot, फ़ेच किए गए डेटा को Web Rendering Service (WRS) को भेजता है.
  3. WRS, Googlebot का इस्तेमाल करके ओरिजनल डेटा में बताए गए रिसॉर्स को डाउनलोड करता है.
  4. WRS, डाउनलोड किए गए सभी रिसॉर्स का इस्तेमाल करके पेज बनाता है, ठीक उसी तरह जैसे किसी उपयोगकर्ता का ब्राउज़र बनाता है.

अगर किसी ब्राउज़र से तुलना करें, तो हर चरण के बीच लगने वाला समय काफ़ी ज़्यादा हो सकता है. ऐसा शेड्यूल करने से जुड़ी पाबंदियों की वजह से होता है. जैसे, किसी पेज को रेंडर करने के लिए ज़रूरी रिसॉर्स को होस्ट करने वाले सर्वर का अनुमानित लोड. ऐसे में, क्रॉल बजट की भूमिका अहम होती है.

किसी पेज को रेंडर करने के लिए ज़रूरी रिसॉर्स क्रॉल करने पर, रिसॉर्स को होस्ट करने वाले होस्टनेम के क्रॉल बजट में कमी आएगी. इस समस्या को ठीक करने के लिए, WRS उन सभी रिसॉर्स (JavaScript और सीएसएस) को कैश मेमोरी में सेव करने की कोशिश करता है जिनका रेफ़रंस रेंडर किए जा रहे पेजों में होता है. WRS की कैश मेमोरी में कॉन्टेंट के सेव रहने के समय पर, एचटीटीपी कैश मेमोरी के निर्देशों का कोई असर नहीं पड़ता. इसके बजाय, WRS 30 दिनों तक पूरा कॉन्टेंट कैश मेमोरी में सेव रखता है. इससे, अन्य क्रॉल टास्क के लिए साइट के क्रॉल बजट को बचाए रखने में मदद मिलती है.

साइट के मालिकों के नज़रिए से, यह मैनेज करने पर साइट के क्रॉल बजट पर असर पड़ सकता है कि कौनसे रिसॉर्स किस तरह से क्रॉल किए जाए. हमारा सुझाव है कि:

  1. उपयोगकर्ताओं को बेहतर अनुभव देने के लिए, ज़रूरत के मुताबिक कम से कम रिसॉर्स इस्तेमाल करें. किसी पेज को रेंडर करने के लिए जितने कम रिसॉर्स की ज़रूरत होगी, रेंडरिंग के दौरान उतना ही कम क्रॉल बजट खर्च होगा.
  2. कैश मेमोरी को हटाने वाले पैरामीटर का इस्तेमाल सावधानी से करें: अगर रिसॉर्स के यूआरएल बदलते हैं, तो हो सकता है कि Google को फिर से रिसॉर्स क्रॉल करने पड़ें. भले ही, उनके कॉन्टेंट में कोई बदलाव न हुआ हो. इससे, क्रॉल बजट का इस्तेमाल होगा.
  3. मुख्य साइट से रिसॉर्स को किसी दूसरे होस्टनेम पर होस्ट करें. उदाहरण के लिए, सीडीएन का इस्तेमाल करके या सिर्फ़ रिसॉर्स को किसी दूसरे सबडोमेन पर होस्ट करके. इससे, क्रॉल बजट से जुड़ी समस्याएं, रिसॉर्स उपलब्ध कराने वाले होस्ट पर शिफ़्ट हो जाएंगी.

ये सभी बातें, मीडिया रिसॉर्स पर भी लागू होती हैं. अगर Googlebot (या खास तौर पर, Googlebot-Image और Googlebot-Video) उन्हें फ़ेच करता है, तो साइट का क्रॉल बजट इस्तेमाल होगा.

robots.txt को सूची में भी जोड़ना सही रहता है. हालांकि, रेंडरिंग के लिहाज़ से, रिसॉर्स क्रॉल करने की अनुमति न देने से आम तौर पर समस्याएं आती हैं. अगर WRS, रेंडर करने के लिए ज़रूरी रिसॉर्स को फ़ेच नहीं कर पाता है, तो हो सकता है कि Google Search को पेज का कॉन्टेंट निकालने और पेज को Search में रैंक करने में समस्या हो.

Googlebot क्या क्रॉल कर रहा है?

Google किन सोर्स को क्रॉल कर रहा है, इसका विश्लेषण करने के लिए साइट के रॉ ऐक्सेस लॉग सबसे अच्छे सोर्स हैं. इनमें, हर उस यूआरएल की एंट्री होती है जिसका अनुरोध ब्राउज़र और क्रॉलर, दोनों ने किया था. ऐक्सेस लॉग में Google के क्रॉलर की पहचान करने के लिए, हम अपने डेवलपर दस्तावेज़ में आईपी रेंज पब्लिश करते हैं.

दूसरा सबसे अच्छा रिसॉर्स, Search Console की क्रॉल से जुड़े आंकड़ों की रिपोर्ट है. इसमें हर क्रॉलर के हिसाब से हर तरह के रिसॉर्स की जानकारी मिलती है:

Search Console में क्रॉल करने से जुड़े आंकड़ों की रिपोर्ट, जो Googlebot से क्रॉल किए गए अलग-अलग तरह के रिसॉर्स दिखा रही है

आखिर में, अगर आपको क्रॉल और रेंडरिंग में दिलचस्पी है और आपको इस बारे में दूसरों के साथ बातचीत करनी है, तो Search Central की कम्यूनिटी पर जाएं. हालांकि, हम LinkedIn पर भी उपलब्ध हैं.


अपडेट

  • 6 दिसंबर, 2024 का अपडेट: किसी दूसरे ऑरिजिन से संसाधनों को दिखाने पर परफ़ॉर्मेंस पर पड़ने वाले असर के बारे में जानकारी दी गई है.

क्या आपको क्रॉल करने के बारे में ज़्यादा जानना है? 'क्रॉलिंग दिसंबर' सीरीज़ की पूरी जानकारी देखें: