Google के क्रॉलर और फ़ेचर (उपयोगकर्ता एजेंट) की खास जानकारी
Google, अपने प्रॉडक्ट के लिए कार्रवाइयां करने के लिए क्रॉलर और फ़ेचर का इस्तेमाल करता है. ये कार्रवाइयां अपने-आप या उपयोगकर्ता के अनुरोध पर ट्रिगर होती हैं. एक वेब पेज से दूसरे वेब पेज के लिंक पर जाकर, अपने-आप वेबसाइटें खोजने और स्कैन करने में इस्तेमाल होने वाले प्रोग्राम को क्रॉलर कहते हैं. कभी-कभी इसे "रोबोट" या "स्पाइडर" भी कहा जाता है. फ़ेचर, wget जैसे प्रोग्राम की तरह काम करते हैं. आम तौर पर, ये उपयोगकर्ता की ओर से एक ही अनुरोध करते हैं. Google के क्लाइंट, तीन कैटगरी में आते हैं:
सामान्य क्रॉलर | Google के प्रॉडक्ट के लिए इस्तेमाल किए जाने वाले सामान्य क्रॉलर, जैसे कि Googlebot. ये अपने-आप क्रॉल करने के लिए, robots.txt के नियमों का हमेशा पालन करते हैं. |
खास मामलों वाले क्रॉलर |
स्पेशल-केस क्रॉलर, सामान्य क्रॉलर की तरह ही होते हैं. हालांकि, इनका इस्तेमाल खास प्रॉडक्ट के लिए किया जाता है. ऐसा तब होता है, जब क्रॉल की गई साइट और Google प्रॉडक्ट के बीच, क्रॉल करने की प्रोसेस के लिए कोई कानूनी समझौता होता है. उदाहरण के लिए, विज्ञापन पब्लिशर की अनुमति से AdsBot , robots.txt के ग्लोबल उपयोगकर्ता एजेंट (* ) को नज़रअंदाज़ कर देता है.
|
उपयोगकर्ता की ओर से ट्रिगर किए गए फ़ेचर | उपयोगकर्ता से ट्रिगर होने वाले फ़ेच फ़ंक्शन, ऐसे टूल और प्रॉडक्ट फ़ंक्शन का हिस्सा होते हैं जहां असली उपयोगकर्ता, फ़ेच करने की सुविधा को ट्रिगर करता है. उदाहरण के लिए, साइट की पुष्टि करने वाला Google का उपयोगकर्ता एजेंट, किसी उपयोगकर्ता के अनुरोध पर कार्रवाई करता है. |
Google के क्रॉलर और फ़ेचर की तकनीकी प्रॉपर्टी
Google के क्रॉलर और फ़ेचर को एक साथ हज़ारों मशीनों पर चलने के लिए डिज़ाइन किया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ परफ़ॉर्मेंस और स्केल में सुधार हो सके. बैंडविथ के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, इन क्लाइंट को दुनिया भर के कई डेटासेंटर में डिस्ट्रिब्यूट किया जाता है, ताकि वे उन साइटों के आस-पास मौजूद हों जिन्हें वे ऐक्सेस कर सकते हैं. इसलिए, आपके लॉग में कई आईपी पतों से साइटों पर विज़िट करने की जानकारी दिख सकती है. Google, मुख्य तौर पर अमेरिका के आईपी पतों के ज़रिए डेटा ऐक्सेस करता है. अगर Google को पता चलता है कि कोई साइट अमेरिका से किए जाने वाले अनुरोधों को ब्लॉक कर रही है, तो वह अन्य देशों में मौजूद आईपी पताें से क्रॉल करने की कोशिश कर सकता है.
Google के क्रॉलर और फ़ेचर, एचटीटीपी/1.1 का इस्तेमाल करते हैं. इसके अलावा, अगर साइट पर एचटीटीपी/2 काम करता है, तो इसका भी इस्तेमाल करते हैं. एचटीटीपी/2 का इस्तेमाल करके, साइट को क्रॉल करने से, आपकी साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (जैसे, सीपीयू, रैम) बचाए जा सकते हैं. हालांकि, इससे साइट को किसी प्रॉडक्ट से जुड़ा कोई फ़ायदा नहीं मिलता. उदाहरण के लिए, Google Search में रैंकिंग में कोई बढ़ोतरी नहीं होती.
एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Google आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421
एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास क्रॉलिंग टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह स्थायी समाधान नहीं है).
Google के क्रॉलर और फ़ेचर, इन कॉन्टेंट एन्कोडिंग (कंप्रेसन) के साथ काम करते हैं: gzip, deflate, और Brotli (br). Google के हर उपयोगकर्ता एजेंट के साथ काम करने वाली कॉन्टेंट एन्कोडिंग का विज्ञापन, उनके हर अनुरोध के Accept-Encoding
हेडर में किया जाता है. उदाहरण के लिए,
Accept-Encoding: gzip, deflate, br
.
हमारा मकसद, आपके सर्वर पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है. ध्यान दें कि Google के क्रॉलर को गलत एचटीटीपी रिस्पॉन्स कोड भेजने से, Google के प्रॉडक्ट में आपकी साइट के दिखने के तरीके पर असर पड़ सकता है.
Google के क्रॉलर और फ़ेचर की पुष्टि करना
Google के क्रॉलर, अपनी पहचान तीन तरीकों से बताते हैं:
-
एचटीटीपी
user-agent
के अनुरोध का हेडर. - अनुरोध का सोर्स आईपी पता.
- सोर्स आईपी का रिवर्स डीएनएस होस्टनेम.
Google के क्रॉलर और फ़ेचर की पुष्टि करने के लिए, इस जानकारी का इस्तेमाल करने का तरीका जानें.