Googlebot

Google के वेब क्रॉलर को आम शब्दों में Googlebot कहते हैं. आम तौर पर, Googlebot दो अलग-अलग तरह के क्रॉलर के लिए इस्तेमाल किया जाने वाला नाम है. इनमें एक डेस्कटॉप क्रॉलर है, जो साइट के डेस्कटॉप वर्शन को क्रॉल करता है. वहीं, दूसरा मोबाइल क्रॉलर है, जो साइट के मोबाइल वर्शन को क्रॉल करता है.

'Googlebot डेस्कटॉप' और 'Googlebot स्मार्टफ़ोन', दोनों ही आपकी वेबसाइट को क्रॉल कर सकते हैं. Googlebot के सब-टाइप की पहचान की जा सकती है. इसके लिए, अनुरोध में उपयोगकर्ता एजेंट स्ट्रिंग देखें. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट टोकन (उपयोगकर्ता एजेंट टोकन) के मुताबिक काम करते हैं. इसलिए, robots.txt का इस्तेमाल करके, यह तय नहीं किया जा सकता कि 'Googlebot स्मार्टफ़ोन' या 'Googlebot डेस्कटॉप' में से कोई एक आपकी साइट को क्रॉल करे.

Googlebot आपकी साइट को कैसे ऐक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है.

Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ इसकी परफ़ॉर्मेंस बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, हो सकता है कि आपके लॉग में दिखे कि google.com की कई मशीनों ने आपकी साइट ऐक्सेस की है. इन सभी का उपयोगकर्ता एजेंट, Googlebot है. हमारा मकसद, आपके सर्वर के बैंडविड्थ पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर में बदलाव करने का अनुरोध किया जा सकता है.

आम तौर पर, Googlebot, एचटीटीपी/1.1 पर क्रॉल करता है. हालांकि, नवंबर 2020 से, Googlebot उन साइटों को क्रॉल कर सकता है जो एचटीटीपी/2 पर काम कर सकते हों. इससे साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (उदाहरण के लिए, सीपीयू, रैम) सेव हो सकते हैं. हालांकि, इससे आपकी साइट की इंडेक्सिंग या रैंकिंग पर कोई असर नहीं पड़ता.

एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Googlebot आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421 एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास Googlebot टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह समाधान कुछ समय के लिए ही है).

Googlebot, कॉन्टेंट के पहले 15 एमबी को एचटीएमएल फ़ाइल में या यहां काम करने वाली टेक्स्ट फ़ाइल में क्रॉल कर सकता है. फ़ाइल के पहले 15 एमबी के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्स करने के लिए, सिर्फ़ पहले 15 एमबी कॉन्टेंट पर ध्यान देता है.

Googlebot को आपकी साइट पर आने से रोकना

किसी वेब सर्वर को बिना लिंक बताए उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई आपके "सीक्रेट" सर्वर पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरे वेब सर्वर पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. दूसरा वेब सर्वर इसे स्टोर कर सकता है और इसे अपने सुझाए गए लॉग में दिखा भी सकता है. इसी तरह, वेब पर कई पुराने और आधे-अधूरे लिंक होते हैं. जब कोई व्यक्ति आपकी साइट पर किसी गलत लिंक को दिखाता है या आपके सर्वर में हुए बदलाव दिखाने वाले लिंक को अपडेट नहीं कर पाता, तो Googlebot आपकी साइट के गलत लिंक को क्रॉल करने की कोशिश करता है.

अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. Googlebot को किसी पेज को क्रॉल करने से रोकना, इंडेक्स करने से रोकना, और क्रॉलर या लोगों के लिए, किसी पेज का ऐक्सेस रोकना, इन तीनों के बीच का फ़र्क़ जानें.

Googlebot की पुष्टि करना

Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot जिस उपयोगकर्ता एजेंट स्ट्रिंग का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.