शुक्रवार, 7 मार्च, 2025
वेबसाइट के मालिकों के लिए, robots.txt एक पुराना टूल है. इसका इस्तेमाल 30 से ज़्यादा सालों से किया जा रहा है. साथ ही, इसे क्रॉलर ऑपरेटर (जैसे, साइट के मालिकों, सेवाओं, और सर्च इंजन के लिए टूल) के ज़रिए बड़े पैमाने पर इस्तेमाल किया जाता है. रोबोट के बारे में रीफ़्रेशर सीरीज़ के इस वर्शन में, हम robots.txt के बारे में ज़्यादा जानकारी देंगे. इस फ़ाइल की मदद से, रोबोट को यह बताया जा सकता है कि उन्हें आपकी वेबसाइट पर क्या करना है (या क्या नहीं करना है).
robots.txt का इस्तेमाल शुरू करना
इन फ़ाइलों के काम करने का तरीका आसान है: "robots.txt" नाम की एक टेक्स्ट फ़ाइल बनाएं और फिर उसे अपनी वेबसाइट पर अपलोड करें. अगर कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) का इस्तेमाल किया जा रहा है, तो यह और भी आसान हो सकता है. अगर आपकी पूरी साइट को क्रॉल किया जा सकता है या क्रॉल को मैनेज करने के लिए नियम जोड़े जा सकते हैं. तो आपकी robots.txt फ़ाइल को खाली छोड़ा जा सकता है (या इसे बिलकुल न रखें) उदाहरण के लिए, सभी बॉट (जिन्हें क्रॉलर, रोबोट, स्पाइडर भी कहा जाता है) को अपने "कार्ट में जोड़ें" पेज से दूर रखने के लिए, अपनी robots.txt फ़ाइल में यह लिखा जा सकता है:
user-agent: * disallow: /cart
robots.txt की मदद से किए जा सकने वाले अन्य काम
robots.txt, एक ऐसी फ़ाइल है जिसकी मदद से यह बताया जा सकता है कि आपको अपनी वेबसाइट पर अलग-अलग रोबोट को क्या करना है या क्या नहीं करना है: इसमें सिर्फ़ कुछ लाइनें हो सकती हैं या यह ज़्यादा मुश्किल हो सकता है. इसमें यूआरएल के खास पैटर्न को टारगेट करने वाले ज़्यादा सटीक नियम हो सकते हैं. तकनीकी समस्याओं (जैसे, पेज किए गए गै़र-ज़रूरी पेज) को हल करने के लिए, robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, एडिटोरियल या निजी वजहों से भी इसका इस्तेमाल किया जा सकता है. जैसे, कुछ चीज़ों को क्रॉल न कराना. उदाहरण के लिए, ये काम किए जा सकते हैं:
एक ही नियम के बारे में कई बॉट (सभी नहीं) को सूचना देना
यह ग्रुप, |
user-agent: examplebot user-agent: otherbot disallow: /search |
किसी बॉट को उन पाथ से बचने के लिए कहें जिनमें कोई खास टेक्स्ट शामिल है
उदाहरण के लिए, |
user-agent: documentsbot disallow: *.pdf |
किसी बॉट को यह बताना कि वह आपके ब्लॉग को क्रॉल कर सकता है, लेकिन ड्राफ़्ट को नहीं |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
किसी क्रॉलर को अपनी वेबसाइट के किसी हिस्से से ब्लॉक करना, जबकि अन्य क्रॉलर को अपनी साइट ऐक्सेस करने की अनुमति देना
इस robots.txt फ़ाइल में, |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
आने वाले समय में पढ़ने के लिए कोई टिप्पणी करना
|
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
ज़्यादा जानकारी के लिए, काम के robots.txt नियमों की सूची देखें.
अपनी robots.txt फ़ाइल में बदलाव करना (आम तौर पर)
रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी), नियमों ("allow" या "disallow") को एक साथ रखकर काम करता है. साथ ही, यह बताता है कि ये नियम किन रोबोट पर लागू होते हैं. इसके लिए, आपको प्रोग्रामिंग सीखने या टूल इस्तेमाल करने की ज़रूरत नहीं है. बस इन नियमों को टेक्स्ट फ़ाइल में डालें और अपनी वेबसाइट पर अपलोड करें.
ज़्यादातर वेबसाइटों के लिए, यह इससे भी आसान है! अगर किसी कॉन्टेंट मैनेजमेंट सिस्टम का इस्तेमाल किया जा रहा है, तो आम तौर पर उसमें पहले से ही कुछ ऐसा होता है जिससे आपको अपनी robots.txt फ़ाइल में बदलाव करने में मदद मिलती है. उदाहरण के लिए, कुछ सीएमएस की मदद से, चेकबॉक्स या किसी आसान फ़ॉर्म का इस्तेमाल करके, अपनी robots.txt फ़ाइल को पसंद के मुताबिक बनाया जा सकता है. साथ ही, कई सीएमएस में ऐसे प्लगिन होते हैं जिनकी मदद से, अपनी robots.txt फ़ाइल के लिए नियम सेट अप किए जा सकते हैं और उन्हें लिखा जा सकता है. कॉन्टेंट मैनेजमेंट सिस्टम में क्या-क्या किया जा सकता है, यह जानने के लिए, अपने कॉन्टेंट मैनेजमेंट सिस्टम का नाम +"robots.txt फ़ाइल में बदलाव करें" खोजें.
सभी चीज़ें सेट अप करने के बाद, यह टेस्ट किया जा सकता है कि आपकी फ़ाइल आपके हिसाब से सेट अप की गई है या नहीं. इस काम में मदद करने के लिए, वेब कम्यूनिटी ने कई टेस्टिंग टूल बनाए हैं. जैसे, TametheBot का robots.txt टेस्टिंग टूल. साथ ही, यह robots.txt पार्सर, जो ओपन सोर्स robots.txt पार्सर लाइब्रेरी का इस्तेमाल कर रहा है.
अगर आपका कोई सवाल है, तो LinkedIn पर हमसे संपर्क करें या हमारे कम्यूनिटी फ़ोरम में, मिलते-जुलते विशेषज्ञों से चैट करें.