मंगलवार, 3 दिसंबर, 2024
आपने सुना होगा कि किसी वेब पेज को Google Search के नतीजों में दिखाने से पहले, Google Search को कुछ प्रोसेस करनी पड़ती है. क्रॉलिंग भी इस प्रोसेस का एक हिस्सा है. Google Search के लिए क्रॉल करने का काम, Googlebot करता है. यह Google के सर्वर पर चलने वाला एक प्रोग्राम है. यह किसी यूआरएल को वापस लाता है और नेटवर्क की गड़बड़ियों, रीडायरेक्ट, और वेब पर काम करते समय आने वाली अन्य छोटी समस्याओं को हल करता है. हालांकि, कुछ ऐसी जानकारी है जिसके बारे में अक्सर बात नहीं की जाती. इस महीने के हर हफ़्ते, हम ऐसी ही कुछ जानकारी देंगे. इसका आपकी साइटों के क्रॉल करने के तरीके पर काफ़ी असर पढ़ सकता है.
थोड़ा पीछे जाएं: क्रॉलिंग क्या है?
क्रॉलिंग, नए वेब पेजों को खोजने, अपडेट किए गए वेब पेजों पर फिर से जाने, और उन्हें डाउनलोड करने की प्रोसेस है. कम शब्दों में, Googlebot को एक यूआरएल मिलता है और वह इसे होस्ट करने वाले सर्वर से एचटीटीपी अनुरोध करता है. इसके बाद, उस सर्वर से मिले रिस्पॉन्स को मैनेज करता है. इसमें, रीडायरेक्ट को फ़ॉलो करना, गड़बड़ियों को हैंडल करना, और पेज के कॉन्टेंट को Google के इंडेक्सिंग सिस्टम को भेजना शामिल है.
हालांकि, आधुनिक वेब पेज सिर्फ़ एचटीएमएल नहीं होते. ऐसे में, पेज बनाने वाले दूसरे रिसॉर्स का क्या होता है? इन रिसॉर्स को क्रॉल करने से "क्रॉल बजट" पर क्या असर पड़ता है? क्या Google के पास इन रिसॉर्स को कैश मेमोरी में सेव करने का विकल्प है? क्या पहले क्रॉल नहीं किए गए यूआरएल और पहले से इंडेक्स किए गए यूआरएल में कोई अंतर है? इस पोस्ट में, हम इन सवालों के साथ-साथ और भी कई सवालों के जवाब देंगे!
Googlebot और पेज को क्रॉल करने के संसाधन
आधुनिक वेबसाइटें, एचटीएमएल के अलावा, JavaScript और सीएसएस जैसी अलग-अलग टेक्नोलॉजी का एक साथ इस्तेमाल करती हैं. इससे उपयोगकर्ताओं को बेहतर अनुभव और काम की सुविधाएं मिलती हैं. जब ऐसे पेजों को किसी ब्राउज़र से ऐक्सेस किया जाता है, तो ब्राउज़र सबसे पहले पैरंट यूआरएल डाउनलोड करता है. यह यूआरएल उस डेटा को होस्ट करता है जो उपयोगकर्ता के लिए पेज बनाने के लिए ज़रूरी होता है. यह डेटा, पेज का एचटीएमएल होता है. इस शुरुआती डेटा में, JavaScript और सीएसएस जैसे रिसॉर्स के रेफ़रंस हो सकते हैं. साथ ही, इसमें ऐसी इमेज और वीडियो भी हो सकते हैं जिन्हें ब्राउज़र फिर से डाउनलोड करेगा, ताकि वह कोई फ़ाइनल पेज बना सके. इसके बाद, यह पेज उपयोगकर्ता के लिए उपलब्ध कराया जाएगा.
Google भी यही काम करता है, लेकिन थोड़ा अलग तरीके से:
- Googlebot, पैरंट यूआरएल से शुरुआती डेटा डाउनलोड करता है. यह डेटा, पेज का HTML होता है.
- Googlebot, फ़ेच किए गए डेटा को Web Rendering Service (WRS) को भेजता है.
- WRS, Googlebot का इस्तेमाल करके ओरिजनल डेटा में बताए गए रिसॉर्स को डाउनलोड करता है.
- WRS, डाउनलोड किए गए सभी रिसॉर्स का इस्तेमाल करके पेज बनाता है, ठीक उसी तरह जैसे किसी उपयोगकर्ता का ब्राउज़र बनाता है.
अगर किसी ब्राउज़र से तुलना करें, तो हर चरण के बीच लगने वाला समय काफ़ी ज़्यादा हो सकता है. ऐसा शेड्यूल करने से जुड़ी पाबंदियों की वजह से होता है. जैसे, किसी पेज को रेंडर करने के लिए ज़रूरी रिसॉर्स को होस्ट करने वाले सर्वर का अनुमानित लोड. ऐसे में, क्रॉल बजट की भूमिका अहम होती है.
किसी पेज को रेंडर करने के लिए ज़रूरी रिसॉर्स क्रॉल करने पर, रिसॉर्स को होस्ट करने वाले होस्टनेम के क्रॉल बजट में कमी आएगी. इस समस्या को ठीक करने के लिए, WRS उन सभी रिसॉर्स (JavaScript और सीएसएस) को कैश मेमोरी में सेव करने की कोशिश करता है जिनका रेफ़रंस रेंडर किए जा रहे पेजों में होता है. WRS की कैश मेमोरी में कॉन्टेंट के सेव रहने के समय पर, एचटीटीपी कैश मेमोरी के निर्देशों का कोई असर नहीं पड़ता. इसके बजाय, WRS 30 दिनों तक पूरा कॉन्टेंट कैश मेमोरी में सेव रखता है. इससे, अन्य क्रॉल टास्क के लिए साइट के क्रॉल बजट को बचाए रखने में मदद मिलती है.
साइट के मालिकों के नज़रिए से, यह मैनेज करने पर साइट के क्रॉल बजट पर असर पड़ सकता है कि कौनसे रिसॉर्स किस तरह से क्रॉल किए जाए. हमारा सुझाव है कि:
- उपयोगकर्ताओं को बेहतर अनुभव देने के लिए, ज़रूरत के मुताबिक कम से कम रिसॉर्स इस्तेमाल करें. किसी पेज को रेंडर करने के लिए जितने कम रिसॉर्स की ज़रूरत होगी, रेंडरिंग के दौरान उतना ही कम क्रॉल बजट खर्च होगा.
- कैश मेमोरी को हटाने वाले पैरामीटर का इस्तेमाल सावधानी से करें: अगर रिसॉर्स के यूआरएल बदलते हैं, तो हो सकता है कि Google को फिर से रिसॉर्स क्रॉल करने पड़ें. भले ही, उनके कॉन्टेंट में कोई बदलाव न हुआ हो. इससे, क्रॉल बजट का इस्तेमाल होगा.
- मुख्य साइट से रिसॉर्स को किसी दूसरे होस्टनेम पर होस्ट करें. उदाहरण के लिए, सीडीएन का इस्तेमाल करके या सिर्फ़ रिसॉर्स को किसी दूसरे सबडोमेन पर होस्ट करके. इससे, क्रॉल बजट से जुड़ी समस्याएं, रिसॉर्स उपलब्ध कराने वाले होस्ट पर शिफ़्ट हो जाएंगी.
ये सभी बातें, मीडिया रिसॉर्स पर भी लागू होती हैं. अगर Googlebot (या खास तौर पर, Googlebot-Image
और Googlebot-Video
) उन्हें फ़ेच करता है, तो साइट का क्रॉल बजट इस्तेमाल होगा.
robots.txt को सूची में भी जोड़ना सही रहता है. हालांकि, रेंडरिंग के लिहाज़ से, रिसॉर्स क्रॉल करने की अनुमति न देने से आम तौर पर समस्याएं आती हैं. अगर WRS, रेंडर करने के लिए ज़रूरी रिसॉर्स को फ़ेच नहीं कर पाता है, तो हो सकता है कि Google Search को पेज का कॉन्टेंट निकालने और पेज को Search में रैंक करने में समस्या हो.
Googlebot क्या क्रॉल कर रहा है?
Google किन सोर्स को क्रॉल कर रहा है, इसका विश्लेषण करने के लिए साइट के रॉ ऐक्सेस लॉग सबसे अच्छे सोर्स हैं. इनमें, हर उस यूआरएल की एंट्री होती है जिसका अनुरोध ब्राउज़र और क्रॉलर, दोनों ने किया था. ऐक्सेस लॉग में Google के क्रॉलर की पहचान करने के लिए, हम अपने डेवलपर दस्तावेज़ में आईपी रेंज पब्लिश करते हैं.
दूसरा सबसे अच्छा रिसॉर्स, Search Console की क्रॉल से जुड़े आंकड़ों की रिपोर्ट है. इसमें हर क्रॉलर के हिसाब से हर तरह के रिसॉर्स की जानकारी मिलती है:

आखिर में, अगर आपको क्रॉल और रेंडरिंग में दिलचस्पी है और आपको इस बारे में दूसरों के साथ बातचीत करनी है, तो Search Central की कम्यूनिटी पर जाएं. हालांकि, हम LinkedIn पर भी उपलब्ध हैं.
अपडेट
- 6 दिसंबर, 2024 का अपडेट: किसी दूसरे ऑरिजिन से संसाधनों को दिखाने पर परफ़ॉर्मेंस पर पड़ने वाले असर के बारे में जानकारी दी गई है.
क्या आपको क्रॉल करने के बारे में ज़्यादा जानना है? 'क्रॉलिंग दिसंबर' सीरीज़ की पूरी जानकारी देखें:
Google Search से जुड़े अपडेट पर सवाल-जवाब का सेशन
गुरुवार, 4 नवंबर, 2023 Google Search, खोज से जुड़े नतीजों को रैंक देने वाले हमारे सिस्टम को समय-समय पर अपडेट करता है. इससे यह पक्का किया जाता है कि हम सबसे काम का और मददगार कॉन्टेंट दिखा सकें. पिछले कुछ हफ़्तों में, हमने कई अहम अपडेट शेयर किए हैं. इस
अलग-अलग भाषाओं में की गई खोजों को Google Search कैसे हैंडल करता है
शुक्रवार, 8 सितंबर, 2023 दुनिया भर के कई देश और इलाके ऐसे हैं जहां लोग आम तौर पर एक से ज़्यादा भाषाएं बोलते और खोज करने के लिए उन भाषाओं का इस्तेमाल करते हैं. उन्हें खोज का बेहतर अनुभव देने के लिए, Google अपने-आप यह करता है कि खोज के नतीजे किस भाषा
मददगार कॉन्टेंट बनाने में पेज की परफ़ॉर्मेंस की भूमिका
बुधवार, 19 अप्रैल, 2023 आम तौर पर, मददगार कॉन्टेंट जोड़ने से पेज की परफ़ॉर्मेंस बेहतर होती है. इसलिए, हमने मददगार कॉन्टेंट बनाने से जुड़े दिशा-निर्देश पर पेज की परफ़ॉर्मेंस का एक सेक्शन जोड़ा है. साथ ही, हमारे पेज की परफ़ॉर्मेंस के बारे में सहायता
एआई (AI) से जनरेट किए गए कॉन्टेंट के बारे में, Google Search की सलाह
इस पोस्ट में हम बताएंगे कि कैसे एआई (AI) से जनरेट हुआ कॉन्टेंट, लंबे समय से चले आ रहे कॉन्टेंट दिखाने के तरीके को बेहतर बनाने में मदद करेगा. हम Search पर, लोगों को मददगार कॉन्टेंट दिखाने को लेकर काम कर रहे हैं.
पेश है Google Search के रैंकिंग सिस्टम के लिए हमारी नई गाइड
सोमवार, 21 नवंबर, 2022 बीते सालों में, ब्लॉग पोस्ट और दूसरे सार्वजनिक कम्यूनिकेशन की मदद से, Google ने अपने-आप काम करने वाले रैंकिंग सिस्टम और उनके काम करने के तरीके के बारे में समय-समय पर जानकारी शेयर की है. हमने अब एक मुख्य पेज बनाया है, जिसका नाम
Google Search के लिए, मई 2022 में किया गया मुख्य अपडेट
बुधवार, 25 मई, 2022 साल में कई बार, हम रैंकिंग से जुड़ी अपनी प्रोसेस को बेहतर बनाने के लिए कई बदलाव करते हैं. इन बदलावों को मुख्य अपडेट का नाम दिया जाता है. मुख्य अपडेट इस तरह से डिज़ाइन किए जाते हैं कि वे हमारे खोज के नतीजों को ज़्यादा कारगर बना
Google, वेब पेज के नतीजों के लिए शीर्षक कैसे जनरेट करता है, इस बारे में ज़्यादा जानकारी
शुक्रवार, 17 सितंबर, 2021 पिछले महीने, हमने वेब पेज के नतीजों के लिए शीर्षक जनरेट करने वाले हमारे नए सिस्टम के बारे में जानकारी दी थी. आपके सुझाव के लिए धन्यवाद. इन सुझावों को ध्यान में रखकर, हमने शीर्षक जनरेट करने वाले अपने सिस्टम को और बेहतर बनाया
वेब पेज के शीर्षक जनरेट करने से जुड़ा अपडेट
मंगलवार, 24 अगस्त, 2021 खोज नतीजों में दिखने वाले वेब पेजों के शीर्षक देखकर लोग यह पता लगाते हैं कि कौनसे नतीजे उनके काम के हो सकते हैं. यह तरीका क्वेरी के हिसाब से काम के नतीजे तय करने के मुख्य तरीकों में से एक है. इसलिए, Google Search, खोज नतीजों
Google News पर खबरों के दिखने से जुड़े कुछ आम सवालों के जवाब
शुक्रवार, 16 जुलाई, 2021 Google में, हम कोशिश करते हैं कि आपको भरोसेमंद प्रकाशकों से मिलने वाली आधिकारिक और काम की खबरें दिखाएं. इससे, सभी लोग ज़्यादा अच्छे से जान पाते हैं कि दुनिया में क्या चल रहा है. आज हम प्रकाशकों के कुछ आम सवालों के जवाब दे रहे
Google Search में, ग्राहक सहायता के अपने तरीकों को हाइलाइट करना
बुधवार, 7 जुलाई, 2021 ग्राहक अक्सर कारोबारों से मदद लेने के लिए, संपर्क करने के तरीके ढूंढते हैं. ऐसे में, जब भी मुमकिन हो, तब Google ऐसे ग्राहकों की कई तरीकों से मदद करता है, ताकि उन्हें सबसे सही जानकारी दी जा सके. अपने कारोबार के बारे में जानकारी
क्रिएटर्स को Google पर अप्रैल 2021 में हुए प्रॉडक्ट की समीक्षाओं से जुड़े अपडेट के बारे में क्या पता होना चाहिए
गुरुवार, 8 अप्रैल, 2021 Google Search की हमेशा यही कोशिश रहती है कि वह सबसे उपयोगी जानकारी दिखाए. इसके लिए, हम टेस्ट, प्रयोग, और समीक्षाओं की मदद लेते हैं. इसकी मदद से, हम यह जान पाते हैं कि प्रॉडक्ट के बारे में बस थोड़ी-बहुत जानकारी देने वाले
पेश है Google Search पर साइटों के लिए COVID-19 से जुड़े निर्देशों या सूचनाओं को हाइलाइट करने का एक नया तरीका
शुक्रवार, 3 अप्रैल, 2020 COVID-19 के चलते, कई संस्थाएं और संगठन, कोरोना वायरस से जुड़े अहम निर्देश या सूचनाएं पब्लिश कर रहे हैं. ये निर्देश या सूचनाएं हमारे रोज़मर्रा के कामों के लिए काफ़ी अहम हैं. इसलिए, हम Google Search पर इन खास निर्देशों या
"nofollow" में हो रहे बदलाव – लिंक किस तरह का है, यह पता लगाने के नए तरीके
मंगलवार, 10 सितंबर, 2019 करीब 15 साल पहले, nofollow एट्रिब्यूट को स्पैम टिप्पणी की समस्या को हल करने के टूल के रूप में पेश किया गया था. जल्द ही, यह विज्ञापन से जुड़े या प्रायोजित लिंक को फ़्लैग करने के लिए, Google के सुझाए गए तरीकों में से एक बन गया.
Google के अगस्त 2019 के मुख्य अपडेट के बारे में साइट के मालिकों को क्या पता होना चाहिए
गुरुवार, 1 अगस्त, 2019 आम तौर पर, Google हर दिन एक या एक से ज़्यादा ऐसे अपडेट रिलीज़ करता है जिनसे हमारे खोज के नतीजों को बेहतर बनाने में मदद मिलती है. ज़्यादातर अपडेट के बारे में पता नहीं चल पाता, लेकिन ये लगातार हमारे खोज के नतीजों को बेहतर बनाते
Google News में सफल होने के तरीके
गुरुवार, 17 जनवरी, 2019 नए साल की शुरुआत हो चुकी है और हम पब्लिशर को कुछ सबसे सही तरीकों की जानकारी और सलाह देना चाहते हैं. हम उम्मीद करते हैं कि साल 2019 में, पब्लिशर को Google News में इससे और सफलता मिलेगी. Google News पब्लिशर सहायता केंद्र में