सोमवार, 24 फ़रवरी, 2025
हमें समय-समय पर, robots.txt, रोबोट मेटा टैग, और इनके कंट्रोल की सुविधाओं के बारे में सवाल मिलते हैं. क्रॉल करने के बारे में दिसंबर में पोस्ट की गई सीरीज़ के बाद, हमें लगा कि यह समय कुछ जानकारी दोहराने का सही समय है. अगर आपको इन कंट्रोल के बारे में जानना है, तो इस नई ब्लॉग पोस्ट सीरीज़ को पढ़ें!
आइए, सबसे पहले robots.txt से शुरू करते हैं.
इसलिए, robots.txt क्या है?
"robots.txt" एक ऐसी फ़ाइल है जिसे कोई भी वेबसाइट उपलब्ध करा सकती है.
यह एक टेक्स्ट फ़ाइल होती है, जिसे सर्वर पर सेव किया जाता है. तकरीबन सभी वेबसाइटों में robots.txt फ़ाइल होती है.
किसी एक को देखने के लिए, डोमेन नेम के आखिर में /robots.txt
जोड़ें. इसके बाद, उस पते पर ब्राउज़ करें. उदाहरण के लिए, इस वेबसाइट की robots.txt फ़ाइल developers.google.com/robots.txt
पर है.
ज़्यादातर वेबसाइटें कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) का इस्तेमाल करती हैं, जो इन फ़ाइलों को अपने-आप बनाते हैं. हालांकि, अगर आपने अपनी वेबसाइट "मैन्युअल तरीके" से बनाई है, तो भी इन्हें बनाना आसान है. हम आने वाले समय में, कुछ वैरिएशन के बारे में बताएंगे.
इन फ़ाइलों का क्या काम है?
robots.txt फ़ाइलें, वेबसाइट के क्रॉलर को बताती हैं कि वेबसाइट के कौनसे हिस्से अपने-आप ऐक्सेस किए जा सकते हैं (हम इसे क्रॉल करना कहते हैं) और कौनसे नहीं. इसकी मदद से, साइटें अपनी पूरी साइट, साइट के कुछ हिस्सों या साइट में मौजूद कुछ फ़ाइलों को ऐक्सेस कर सकती हैं. इन फ़ाइलों को मशीन के साथ-साथ, इंसान भी पढ़ सकता है. इसका मतलब है कि किसी पेज को किसी खास क्रॉलर से अपने-आप ऐक्सेस करने की अनुमति है या नहीं, इस बारे में हमेशा हां या नहीं में जवाब दिया जा सकता है.
क्रॉलर बनाने वाले सभी लोगों के लिए, इन निर्देशों का पालन करना स्टैंडर्ड तरीका है. साथ ही, डेवलपर के लिए इन निर्देशों का पालन करना आसान है. डेवलपर के लिए, 1,000 से ज़्यादा ओपन-सोर्स लाइब्रेरी उपलब्ध हैं. इस फ़ाइल में, किसी वेबसाइट को सबसे सही तरीके से क्रॉल करने के लिए क्रॉलर को निर्देश दिए जाते हैं. आधुनिक वेबसाइटें जटिल हो सकती हैं और उन्हें अपने-आप नेविगेट करना मुश्किल हो सकता है. ऐसे में, robots.txt के नियमों से क्रॉलर को सही कॉन्टेंट पर फ़ोकस करने में मदद मिलती है. इससे क्रॉलर को डाइनैमिक तौर पर बनाए गए उन पेजों से भी बचने में मदद मिलती है जिनसे सर्वर पर दबाव पड़ सकता है. साथ ही, क्रॉल करने की प्रोसेस भी ग़ैर-ज़रूरी तौर पर अक्षम हो सकती है. robots.txt फ़ाइलें तकनीकी तौर पर मददगार होने के साथ-साथ, वेबसाइट के मालिकों के साथ संबंध बनाने के लिए भी अच्छी होती हैं. इसलिए, ज़्यादातर व्यावसायिक क्रॉलर ऑपरेटर इनका पालन करते हैं.
लोगों ने बनाया और बढ़ाया
इंटरनेट के आ जाने के साथ ही, robots.txt फ़ाइलों का इस्तेमाल भी शुरू हो गया था. ये फ़ाइलें, इंटरनेट को सही तरीके से काम करने में मदद करने वाले ज़रूरी टूल में से एक हैं. वेब पेजों के लिए इस्तेमाल होने वाले एचटीएमएल का आविष्कार 1991 में हुआ था. पहला ब्राउज़र 1992 में आया और robots.txt का इस्तेमाल 1994 में शुरू हुआ. इसका मतलब है कि ये Google से भी पहले के हैं, जिसकी स्थापना 1998 में हुई थी. तब से, फ़ॉर्मैट में ज़्यादा बदलाव नहीं हुआ है. इसलिए, शुरुआती दिनों की फ़ाइल अब भी मान्य होगी. दुनिया भर की कम्यूनिटी के साथ तीन साल तक काम करने के बाद, इसे साल 2022 में आईईटीएफ़ के सुझाए गए स्टैंडर्ड के तौर पर स्वीकार किया गया.
अगर आपकी कोई वेबसाइट है, तो हो सकता है कि आपके पास robots.txt फ़ाइल भी हो. robots.txt के लिए एक सक्रिय और ज़िंदाद कम्यूनिटी है. साथ ही, ऐसे हज़ारों सॉफ़्टवेयर टूल हैं जिनकी मदद से, robots.txt फ़ाइलों को अलग-अलग तरह से बनाया, जांचा, मैनेज या समझा जा सकता है. हालांकि, robots.txt की खास बात यह है कि इसके लिए आपको बेहतरीन टूल की ज़रूरत नहीं होती. इस फ़ाइल को ब्राउज़र में पढ़ा जा सकता है. साथ ही, मैनेज की जा रही वेबसाइट के लिए, इसे किसी सामान्य टेक्स्ट एडिटर में अडजस्ट किया जा सकता है.
आने वाले समय में की जाने वाली कार्रवाइयां...
robots.txt फ़ॉर्मैट में बदलाव किया जा सकता है. इसमें और भी सुधार किए जा सकते हैं. सार्वजनिक वेब कम्यूनिटी इस पर काम कर सकती है. साथ ही, क्रॉलर ज़रूरत पड़ने पर एक्सटेंशन का एलान कर सकते हैं. इससे मौजूदा इस्तेमाल पर कोई असर नहीं पड़ेगा. ऐसा साल 2007 में हुआ था, जब सर्च इंजन ने "साइटमैप" डायरेक्टिव का एलान किया था. ऐसा इसलिए भी होता है, क्योंकि क्रॉलर ऑपरेटर और सर्च इंजन, नए "उपयोगकर्ता-एजेंट" का इस्तेमाल करते हैं. जैसे, एआई के लिए इस्तेमाल किए जाने वाले एजेंट.
robots.txt का इस्तेमाल जारी रहेगा. बड़े इंटरनेट कम्यूनिटी के साथ नए फ़ाइल फ़ॉर्मैट को फ़ाइनल होने में कुछ साल लगते हैं. साथ ही, इन्हें इकोसिस्टम के लिए काम का बनाने के लिए, सही टूल मिलने में और भी ज़्यादा समय लगता है. यह आसान है, यह ज़्यादा जानकारी देने वाला और बेहतर है, इसे अच्छी तरह से समझा और स्वीकार किया जाता है. साथ ही, यह ठीक वैसे ही काम करता है जैसे यह कई दशकों से काम कर रहा है.
क्या आपको इस बारे में ज़्यादा जानकारी चाहिए? Search Central ब्लॉग पर, रोबोट के बारे में जानकारी देने वाली हमारी रीफ़्रेशर सीरीज़ के अगले एपिसोड के लिए, हमारे साथ बने रहें.