रोबोट के बारे में रीफ़्रेशर: robots.txt — मशीनें आपकी वेबसाइट को कैसे एक्सप्लोर करें, यह कंट्रोल करने का आसान तरीका

शुक्रवार, 7 मार्च, 2025

वेबसाइट के मालिकों के लिए, robots.txt एक पुराना टूल है. इसका इस्तेमाल 30 से ज़्यादा सालों से किया जा रहा है. साथ ही, इसे क्रॉलर ऑपरेटर (जैसे, साइट के मालिकों, सेवाओं, और सर्च इंजन के लिए टूल) के ज़रिए बड़े पैमाने पर इस्तेमाल किया जाता है. रोबोट के बारे में रीफ़्रेशर सीरीज़ के इस वर्शन में, हम robots.txt के बारे में ज़्यादा जानकारी देंगे. इस फ़ाइल की मदद से, रोबोट को यह बताया जा सकता है कि उन्हें आपकी वेबसाइट पर क्या करना है (या क्या नहीं करना है).

robots.txt का इस्तेमाल शुरू करना

इन फ़ाइलों के काम करने का तरीका आसान है: "robots.txt" नाम की एक टेक्स्ट फ़ाइल बनाएं और फिर उसे अपनी वेबसाइट पर अपलोड करें. अगर कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) का इस्तेमाल किया जा रहा है, तो यह और भी आसान हो सकता है. अगर आपकी पूरी साइट को क्रॉल किया जा सकता है या क्रॉल को मैनेज करने के लिए नियम जोड़े जा सकते हैं. तो आपकी robots.txt फ़ाइल को खाली छोड़ा जा सकता है (या इसे बिलकुल न रखें) उदाहरण के लिए, सभी बॉट (जिन्हें क्रॉलर, रोबोट, स्पाइडर भी कहा जाता है) को अपने "कार्ट में जोड़ें" पेज से दूर रखने के लिए, अपनी robots.txt फ़ाइल में यह लिखा जा सकता है:

user-agent: *
disallow: /cart

robots.txt की मदद से किए जा सकने वाले अन्य काम

robots.txt, एक ऐसी फ़ाइल है जिसकी मदद से यह बताया जा सकता है कि आपको अपनी वेबसाइट पर अलग-अलग रोबोट को क्या करना है या क्या नहीं करना है: इसमें सिर्फ़ कुछ लाइनें हो सकती हैं या यह ज़्यादा मुश्किल हो सकता है. इसमें यूआरएल के खास पैटर्न को टारगेट करने वाले ज़्यादा सटीक नियम हो सकते हैं. तकनीकी समस्याओं (जैसे, पेज किए गए गै़र-ज़रूरी पेज) को हल करने के लिए, robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, एडिटोरियल या निजी वजहों से भी इसका इस्तेमाल किया जा सकता है. जैसे, कुछ चीज़ों को क्रॉल न कराना. उदाहरण के लिए, ये काम किए जा सकते हैं:

एक ही नियम के बारे में कई बॉट (सभी नहीं) को सूचना देना यह ग्रुप, `examplebot` और `otherbot`, दोनों को `/search` पाथ से दूर रहने के लिए कहता है.	user-agent: examplebot user-agent: otherbot disallow: /search
किसी बॉट को उन पाथ से बचने के लिए कहें जिनमें कोई खास टेक्स्ट शामिल है उदाहरण के लिए, `documentsbot` को यह कहा जा सकता है कि वह ऐसी किसी भी फ़ाइल को क्रॉल न करे जिसके नाम में ".pdf" शामिल हो.	user-agent: documentsbot disallow: *.pdf
किसी बॉट को यह बताना कि वह आपके ब्लॉग को क्रॉल कर सकता है, लेकिन ड्राफ़्ट को नहीं	user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
किसी क्रॉलर को अपनी वेबसाइट के किसी हिस्से से ब्लॉक करना, जबकि अन्य क्रॉलर को अपनी साइट ऐक्सेस करने की अनुमति देना इस robots.txt फ़ाइल में, `aicorp-trainer-bot` को होम पेज के अलावा किसी और पेज को ऐक्सेस करने की अनुमति नहीं दी गई है. हालांकि, इसमें सर्च इंजन जैसे दूसरे क्रॉलर को साइट को ऐक्सेस करने की अनुमति दी गई है.	user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
आने वाले समय में पढ़ने के लिए कोई टिप्पणी करना `#` से लाइन शुरू करके, अपने-आपको याद दिलाया जा सकता है कि आपने वहां कोई नियम क्यों डाला था.	# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/

ज़्यादा जानकारी के लिए, काम के robots.txt नियमों की सूची देखें.

अपनी robots.txt फ़ाइल में बदलाव करना (आम तौर पर)

रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी), नियमों ("allow" या "disallow") को एक साथ रखकर काम करता है. साथ ही, यह बताता है कि ये नियम किन रोबोट पर लागू होते हैं. इसके लिए, आपको प्रोग्रामिंग सीखने या टूल इस्तेमाल करने की ज़रूरत नहीं है. बस इन नियमों को टेक्स्ट फ़ाइल में डालें और अपनी वेबसाइट पर अपलोड करें.

ज़्यादातर वेबसाइटों के लिए, यह इससे भी आसान है! अगर किसी कॉन्टेंट मैनेजमेंट सिस्टम का इस्तेमाल किया जा रहा है, तो आम तौर पर उसमें पहले से ही कुछ ऐसा होता है जिससे आपको अपनी robots.txt फ़ाइल में बदलाव करने में मदद मिलती है. उदाहरण के लिए, कुछ सीएमएस की मदद से, चेकबॉक्स या किसी आसान फ़ॉर्म का इस्तेमाल करके, अपनी robots.txt फ़ाइल को पसंद के मुताबिक बनाया जा सकता है. साथ ही, कई सीएमएस में ऐसे प्लगिन होते हैं जिनकी मदद से, अपनी robots.txt फ़ाइल के लिए नियम सेट अप किए जा सकते हैं और उन्हें लिखा जा सकता है. कॉन्टेंट मैनेजमेंट सिस्टम में क्या-क्या किया जा सकता है, यह जानने के लिए, अपने कॉन्टेंट मैनेजमेंट सिस्टम का नाम +"robots.txt फ़ाइल में बदलाव करें" खोजें.

सभी चीज़ें सेट अप करने के बाद, यह टेस्ट किया जा सकता है कि आपकी फ़ाइल आपके हिसाब से सेट अप की गई है या नहीं. इस काम में मदद करने के लिए, वेब कम्यूनिटी ने कई टेस्टिंग टूल बनाए हैं. जैसे, TametheBot का robots.txt टेस्टिंग टूल. साथ ही, यह robots.txt पार्सर, जो ओपन सोर्स robots.txt पार्सर लाइब्रेरी का इस्तेमाल कर रहा है.

अगर आपका कोई सवाल है, तो LinkedIn पर हमसे संपर्क करें या हमारे कम्यूनिटी फ़ोरम में, मिलते-जुलते विशेषज्ञों से चैट करें.

इसे Search की रिलेशन टीम के मार्टिन स्प्लिट और जॉन म्यूलर ने पोस्ट किया है

robots.txt का इस्तेमाल शुरू करना

robots.txt की मदद से किए जा सकने वाले अन्य काम

अपनी robots.txt फ़ाइल में बदलाव करना (आम तौर पर)

रोबोट रीफ़्रेशर सीरीज़ के अन्य संसाधन देखें: