रोबोट एक्सक्लूज़न प्रोटोकॉल की खास बातों को फ़ॉर्मल स्टेटस देना

सोमवार, 01 जुलाई, 2019

पिछले 25 सालों से, रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी), वेब के सबसे मूल और अहम कॉम्पोनेंट में से एक रहा है. इसकी मदद से, वेबसाइट के मालिक ऑटोमेटेड क्लाइंट को बाहर रख सकते हैं. उदाहरण के लिए, वेब क्रॉलर, अपनी साइटों को ऐक्सेस नहीं कर पाते - आधी या पूरी तरह से.

साल 1994 में, मार्टिन कोस्टर (एक वेबमास्टर) ने अपनी साइट पर परेशानी महसूस होने के बाद, क्रॉलर का शुरुआती मानक बनाया. अन्य वेबमास्टर से मिले ज़्यादा इनपुट की मदद से, आरईपी को बनाया गया. साथ ही, इसे सर्च इंजन ने वेबसाइट मालिकों के सर्वर संसाधनों को मैनेज करने के काम को आसान बनाने के लिए अपनाया.

हालांकि, आरईपी को कभी भी आधिकारिक इंटरनेट स्टैंडर्ड में नहीं बदला गया. इसका मतलब है कि डेवलपर ने पिछले सालों में प्रोटोकॉल को अलग तरीके से समझा है. साथ ही, इसकी शुरुआत के बाद से, आरईपी को आज के मौजूदा मामलों में शामिल करने के लिए अपडेट नहीं किया गया. यह वेबसाइट के मालिकों के लिए, एक मुश्किल समस्या थी, क्योंकि अस्पष्ट डी-फ़ैक्टो मानक की वजह से नियमों को सही तरीके से लिख पाना मुश्किल हो गया था.

हम वेबसाइट मालिकों और डेवलपर को इटंरनेट पर शानदार अनुभव देने में मदद करना चाहते हैं. हम नहीं चाहते कि वे क्रॉलर को कंट्रोल करने के बारे में चिंता करें. हमने प्रोटोकॉल, वेबमास्टर, और अन्य सर्च इंजन के मूल लेखक के साथ मिलकर, यह दर्ज किया है कि मॉर्डन वेब पर आरईपी का इस्तेमाल कैसे किया जाता है. साथ ही, इसे आईईटीएफ़ को भी सबमिट किया गया है.

सुझाया गया आरईपी ड्राफ़्ट, robots.txt नियमों पर भरोसा करने के असल दुनिया के 20 सालों के अनुभव को दिखाता है. Googlebot और अन्य बड़े क्रॉलर, इन दोनों में से किसी का भी इस्तेमाल करते हैं. इसके अलावा, करीब 500 करोड़ वेबसाइटें भी आरईपी पर निर्भर हैं. इन बारीक कंट्रोल की मदद से, पब्लिशर यह तय कर पाते हैं कि उनकी साइट पर उन्हें क्या क्रॉल करना है. साथ ही, दिलचस्पी रखने वाले उपयोगकर्ताओं को क्या दिखाया जा सकता है. हालांकि, इससे 1994 में बनाए गए नियमों में कोई बदलाव नहीं होता. लेकिन, यह robots.txt फ़ाइल को पार्स करने और मिलान करने के लिए, सभी स्थितियों के बारे में बताता है. साथ ही, इसे मॉर्डन वेब पर लागू करता है. खास तौर पर:

  1. कोई भी यूआरआई पर आधारित ट्रांसफ़र प्रोटोकॉल robots.txt का इस्तेमाल कर सकता है. उदाहरण के लिए, यह सिर्फ़ एचटीटीपी तक सीमित नहीं है. इसका इस्तेमाल फ़ाइल ट्रांसफ़र प्रोटोकॉल (एफ़टीपी) या CoAP के लिए भी किया जा सकता है.
  2. डेवलपर को robots.txt के कम से कम पहले 500 कीबीबाइट पार्स करने होंगे. फ़ाइल का ज़्यादा से ज़्यादा साइज़ तय करने से, कनेक्शन लंबे समय तक ओपन नहीं रहते. इससे, सर्वर पर बेवजह का दबाव नहीं पड़ता.
  3. कैश मेमोरी में ज़्यादा से ज़्यादा 24 घंटे का समय या कैश मेमोरी में सेव किया गया निर्देश अगर उपलब्ध हो, तो इससे वेबसाइट मालिकों को अपनी robots.txt फ़ाइल को जब चाहें, अपडेट करने की सुविधा मिलती है. साथ ही, क्रॉलर robots.txt अनुरोधों के साथ वेबसाइटों को ओवरलोड नहीं कर पाते हैं. उदाहरण के लिए, एचटीटीपी के मामले में, कैश कंट्रोल के हेडर इस्तेमाल किए जा सकते हैं, ताकि कैश मेमोरी में सेव किए गए समय को तय किया जा सके.
  4. अब इस नियम में यह बताया गया है कि सर्वर की गड़बड़ी की वजह से, पहले ऐक्सेस की जा सकने वाली robots.txt फ़ाइल के ऐक्सेस न होने पर, जाने-पहचाने पेजों को लंबे समय तक क्रॉल नहीं किया जाता.

इसके अलावा, हमने robots.txt फ़ाइल के सिंटैक्स के बारे में बेहतर तरीके से बताने के लिए, इंटरनेट ड्राफ़्ट में ऑगमेंटेड बैकस-नौर फ़ॉर्म को अपडेट किया है. इससे डेवलपर को लाइन पार्स करने में मदद मिलती है.

आरएफ़सी का मतलब है, टिप्पणियों का अनुरोध करना. इसका मतलब है कि हमने ड्राफ़्ट को आईईटीएफ़ पर अपलोड कर दिया है, ताकि इंटरनेट के बुनियादी ब्लॉक बनाने से जुड़े डेवलपर से सुझाव या राय ली जा सके. हम वेब क्रिएटर्स को यह कंट्रोल देने के लिए काम करते हैं कि उन्हें Googlebot को कितनी जानकारी उपलब्ध करानी है. साथ ही, एक्सटेंशन की मदद से Search में दिखने के लिए, हमें यह पक्का करना होता है कि यह ठीक से किया जाए.

अगर आपको कोई टिप्पणी करनी है, हमसे सवाल पूछना है या सिर्फ़ नमस्ते कहना है, तो हम आपको Twitter और हमारे वेबमास्टर समुदाय पर ऑफ़लाइन और ऑनलाइन, दोनों तरीकों से मिल सकते हैं.