रोबोट के बारे में रीफ़्रेशर: robots.txt — मशीनें आपकी वेबसाइट को कैसे एक्सप्लोर करें, यह कंट्रोल करने का आसान तरीका

शुक्रवार, 7 मार्च, 2025

वेबसाइट के मालिकों के लिए, robots.txt एक पुराना टूल है. इसका इस्तेमाल 30 से ज़्यादा सालों से किया जा रहा है. साथ ही, इसे क्रॉलर ऑपरेटर (जैसे, साइट के मालिकों, सेवाओं, और सर्च इंजन के लिए टूल) के ज़रिए बड़े पैमाने पर इस्तेमाल किया जाता है. रोबोट के बारे में रीफ़्रेशर सीरीज़ के इस वर्शन में, हम robots.txt के बारे में ज़्यादा जानकारी देंगे. इस फ़ाइल की मदद से, रोबोट को यह बताया जा सकता है कि उन्हें आपकी वेबसाइट पर क्या करना है (या क्या नहीं करना है).

robots.txt का इस्तेमाल शुरू करना

इन फ़ाइलों के काम करने का तरीका आसान है: "robots.txt" नाम की एक टेक्स्ट फ़ाइल बनाएं और फिर उसे अपनी वेबसाइट पर अपलोड करें. अगर कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) का इस्तेमाल किया जा रहा है, तो यह और भी आसान हो सकता है. अगर आपकी पूरी साइट को क्रॉल किया जा सकता है या क्रॉल को मैनेज करने के लिए नियम जोड़े जा सकते हैं. तो आपकी robots.txt फ़ाइल को खाली छोड़ा जा सकता है (या इसे बिलकुल न रखें) उदाहरण के लिए, सभी बॉट (जिन्हें क्रॉलर, रोबोट, स्पाइडर भी कहा जाता है) को अपने "कार्ट में जोड़ें" पेज से दूर रखने के लिए, अपनी robots.txt फ़ाइल में यह लिखा जा सकता है:

user-agent: *
disallow: /cart

robots.txt की मदद से किए जा सकने वाले अन्य काम

robots.txt, एक ऐसी फ़ाइल है जिसकी मदद से यह बताया जा सकता है कि आपको अपनी वेबसाइट पर अलग-अलग रोबोट को क्या करना है या क्या नहीं करना है: इसमें सिर्फ़ कुछ लाइनें हो सकती हैं या यह ज़्यादा मुश्किल हो सकता है. इसमें यूआरएल के खास पैटर्न को टारगेट करने वाले ज़्यादा सटीक नियम हो सकते हैं. तकनीकी समस्याओं (जैसे, पेज किए गए गै़र-ज़रूरी पेज) को हल करने के लिए, robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, एडिटोरियल या निजी वजहों से भी इसका इस्तेमाल किया जा सकता है. जैसे, कुछ चीज़ों को क्रॉल न कराना. उदाहरण के लिए, ये काम किए जा सकते हैं:

एक ही नियम के बारे में कई बॉट (सभी नहीं) को सूचना देना

यह ग्रुप, examplebot और otherbot, दोनों को /search पाथ से दूर रहने के लिए कहता है.

user-agent: examplebot
user-agent: otherbot
disallow: /search

किसी बॉट को उन पाथ से बचने के लिए कहें जिनमें कोई खास टेक्स्ट शामिल है

उदाहरण के लिए, documentsbot को यह कहा जा सकता है कि वह ऐसी किसी भी फ़ाइल को क्रॉल न करे जिसके नाम में ".pdf" शामिल हो.

user-agent: documentsbot
disallow: *.pdf

किसी बॉट को यह बताना कि वह आपके ब्लॉग को क्रॉल कर सकता है, लेकिन ड्राफ़्ट को नहीं

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

किसी क्रॉलर को अपनी वेबसाइट के किसी हिस्से से ब्लॉक करना, जबकि अन्य क्रॉलर को अपनी साइट ऐक्सेस करने की अनुमति देना

इस robots.txt फ़ाइल में, aicorp-trainer-bot को होम पेज के अलावा किसी और पेज को ऐक्सेस करने की अनुमति नहीं दी गई है. हालांकि, इसमें सर्च इंजन जैसे दूसरे क्रॉलर को साइट को ऐक्सेस करने की अनुमति दी गई है.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

आने वाले समय में पढ़ने के लिए कोई टिप्पणी करना

# से लाइन शुरू करके, अपने-आपको याद दिलाया जा सकता है कि आपने वहां कोई नियम क्यों डाला था.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

ज़्यादा जानकारी के लिए, काम के robots.txt नियमों की सूची देखें.

अपनी robots.txt फ़ाइल में बदलाव करना (आम तौर पर)

रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी), नियमों ("allow" या "disallow") को एक साथ रखकर काम करता है. साथ ही, यह बताता है कि ये नियम किन रोबोट पर लागू होते हैं. इसके लिए, आपको प्रोग्रामिंग सीखने या टूल इस्तेमाल करने की ज़रूरत नहीं है. बस इन नियमों को टेक्स्ट फ़ाइल में डालें और अपनी वेबसाइट पर अपलोड करें.

ज़्यादातर वेबसाइटों के लिए, यह इससे भी आसान है! अगर किसी कॉन्टेंट मैनेजमेंट सिस्टम का इस्तेमाल किया जा रहा है, तो आम तौर पर उसमें पहले से ही कुछ ऐसा होता है जिससे आपको अपनी robots.txt फ़ाइल में बदलाव करने में मदद मिलती है. उदाहरण के लिए, कुछ सीएमएस की मदद से, चेकबॉक्स या किसी आसान फ़ॉर्म का इस्तेमाल करके, अपनी robots.txt फ़ाइल को पसंद के मुताबिक बनाया जा सकता है. साथ ही, कई सीएमएस में ऐसे प्लगिन होते हैं जिनकी मदद से, अपनी robots.txt फ़ाइल के लिए नियम सेट अप किए जा सकते हैं और उन्हें लिखा जा सकता है. कॉन्टेंट मैनेजमेंट सिस्टम में क्या-क्या किया जा सकता है, यह जानने के लिए, अपने कॉन्टेंट मैनेजमेंट सिस्टम का नाम +"robots.txt फ़ाइल में बदलाव करें" खोजें.

सभी चीज़ें सेट अप करने के बाद, यह टेस्ट किया जा सकता है कि आपकी फ़ाइल आपके हिसाब से सेट अप की गई है या नहीं. इस काम में मदद करने के लिए, वेब कम्यूनिटी ने कई टेस्टिंग टूल बनाए हैं. जैसे, TametheBot का robots.txt टेस्टिंग टूल. साथ ही, यह robots.txt पार्सर, जो ओपन सोर्स robots.txt पार्सर लाइब्रेरी का इस्तेमाल कर रहा है.

अगर आपका कोई सवाल है, तो LinkedIn पर हमसे संपर्क करें या हमारे कम्यूनिटी फ़ोरम में, मिलते-जुलते विशेषज्ञों से चैट करें.


रोबोट रीफ़्रेशर सीरीज़ के अन्य संसाधन देखें: