शुक्रवार, 14 मार्च, 2025
robots.txt फ़ाइल की मदद से, साइट के मालिक आसानी से यह कंट्रोल कर सकते हैं कि क्रॉलर, वेबसाइट के किन हिस्सों को ऐक्सेस कर सकते हैं. साइट के मालिकों को यह तय में मदद करने के लिए कि सर्च इंजन और वेब क्रॉलर उनके पेजों का इस्तेमाल कैसे कर सकते हैं, वेब स्टैंडर्ड बनाने वाली कम्यूनिटी ने 1996 में रोबोट meta
टैग इस्तेमाल करने का सुझाव दिया. यह सुझाव, एचटीएमएल के लिए meta
टैग का सुझाव देने के कुछ ही महीनों बाद दिया गया था. यह भी कहा जाता है कि यह सुझाव, Google के बनने से पहले दिया गया था. बाद में, X-Robots-Tag
एचटीटीपी रिस्पॉन्स हेडर जोड़े गए. ये निर्देश, यूआरएल के साथ भेजे जाते हैं. इसलिए, क्रॉलर इन निर्देशों को सिर्फ़ तब ध्यान में रख सकते हैं, जब उन्हें robots.txt फ़ाइल के ज़रिए यूआरएल को क्रॉल करने से न रोका गया हो. ये दोनों मिलकर, रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी) बनाती हैं.
रोबोट meta
टैग के बारे में जानकारी
मेटा टैग (या एलिमेंट), मशीन से पढ़े जा सकने वाले मेटाडेटा को शामिल करने का एक तरीका है. रोबोट meta
टैग, meta
टैग का एक "टाइप" है. यह सर्च इंजन के क्रॉलर के साथ-साथ, अन्य क्रॉलर पर भी लागू होता है. इनसे यह पता चलता है कि: क्या कॉन्टेंट को इंडेक्स करने से ब्लॉक किया गया है? क्या पेज पर मौजूद लिंक को क्रॉल करने के लिए, उन्हें फ़ॉलो नहीं किया जाना चाहिए? पेज पर, सीधे तौर पर रोबोट meta
टैग की मदद से, यह जानकारी देना आसान है.
किसी भी यूआरएल के लिए रोबोट एक्सक्लूज़न प्रोटोकॉल
एचटीएमएल के अलावा दूसरे कॉन्टेंट को भी एचटीएमएल कॉन्टेंट की तरह कंट्रोल करने के लिए, "X-Robots-Tag
" एचटीटीपी रिस्पॉन्स हेडर बनाया गया था. इन एचटीटीपी हेडर को भी आरईपी का हिस्सा माना जाता है. हेडर में वही वैल्यू इस्तेमाल की जा सकती हैं जो रोबोट meta
टैग में इस्तेमाल की जा सकती हैं. साथ ही, इसे ऑनलाइन दिखाए जाने वाले किसी भी कॉन्टेंट में जोड़ा जा सकता है. Google, एचटीएमएल के अलावा, PDF, दस्तावेज़ फ़ाइलों, और इमेज जैसे कॉन्टेंट के लिए भी इसे इस्तेमाल करता है. इनमें से ज़्यादातर फ़ाइल फ़ॉर्मैट में, meta
टैग के बराबर कोई सुविधा नहीं होती. इसलिए, एचटीटीपी रिस्पॉन्स हेडर का इस्तेमाल करना मददगार होता है.
रोबोट meta
टैग और हेडर का इस्तेमाल शुरू करना
इसका सिंटैक्स इस्तेमाल में आसान है और इसे ज़रूरत के हिसाब से बेहतर बनाया जा सकता है. आम तौर पर, ये नियम वेब डेवलपर या कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) के ज़रिए लागू किए जाते हैं. इसमें साइट के मालिकों के पास अपनी प्राथमिकताएं चुनने के लिए चेकबॉक्स या ड्रॉप-डाउन मेन्यू हो सकते हैं. इन कंट्रोल की मदद से, Googlebot जैसे चुनिंदा क्रॉलर को निर्देश दिया जा सकता है. इसके अलावा, किसी चुनिंदा नाम को हटाकर, उन सभी क्रॉलर को निर्देश दिया जा सकता है जो इन वैल्यू के साथ काम करते हैं.
उदाहरण के लिए, यहां दिए गए नियमों से सभी क्रॉलर को यह पता चलता है कि इंडेक्स करने के लिए, उस पेज का इस्तेमाल न करें जिससे यह पेज जुड़ा है:
- वेब पेज पर, एचटीएमएल
meta
टैग के तौर पर:<meta name="robots" content="noindex">
मौजूदा
meta
टैग या रिस्पॉन्स हेडर को देखना थोड़ा मुश्किल है. इसके लिए, पेज के कॉन्टेंट या हेडर की सीधे तौर पर जांच करनी पड़ती है. किसी भी पेज पर एचटीएमएलmeta
टैग देखे जा सकते हैं. इसके लिए, ब्राउज़र में पेज का सोर्स देखें या पेज की जांच करने के लिए, Chrome के डेवलपर टूल का इस्तेमाल करें.
- एचटीटीपी रिस्पॉन्स हेडर के तौर पर:
X-Robots-Tag: noindex
Chrome के डेवलपर टूल में मौजूद, नेटवर्क पैनल में जाकर, अलग-अलग यूआरएल के लिए एचटीटीपी रिस्पॉन्स हेडर देखे जा सकते हैं.
ये तरीके इस्तेमाल किए जा सकते हैं:
इस पेज या दस्तावेज़ के लिए स्निपेट न दिखाएं. |
एचटीटीपी हेडर में:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
अन्य पेजों के लिए कोई प्राथमिकता तय किए बिना, इस पेज को ये कंट्रोल, साफ़ तौर पर एक क्रॉलर के बारे में बताते हैं. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
ध्यान दें कि सबसे ज़्यादा पाबंदी वाले मान्य डायरेक्टिव लागू होते हैं. इसलिए, |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
आरईपी इस्तेमाल करने का तरीका चुनना
आपको इनमें से किसका इस्तेमाल करना है, यह कैसे तय किया जाता है? बुनियादी तौर पर, robots.txt और पेज-लेवल के कंट्रोल एक जैसे होते हैं. हालांकि, इन्हें पूरी तरह से एक-दूसरे के साथ बदला नहीं जा सकता. कभी-कभी कोई खास कार्रवाई, सिर्फ़ एक तरीके से की जा सकती है. उदाहरण के लिए, अगर आपको क्रॉल करने की प्रोसेस को रोकना है, तो robots.txt का इस्तेमाल करें. जैसे, खोज नतीजों के अनलिमिटेड पेजों के लिए इस्तेमाल करना. अगर आपको एफ़टीपी सर्वर को कंट्रोल करना है, तो robots.txt का इस्तेमाल करें. इसके अलावा, अगर आपको किसी पेज के लिए स्निपेट नहीं दिखाना है, तो पेज-लेवल एलिमेंट का इस्तेमाल करें. अगर आपको क्रॉल करने और इंडेक्स करने पर रोक लगाने के बीच अंतर करने की ज़रूरत नहीं है, तो एक तरीका यह है कि ज़्यादा कंट्रोल के लिए robots.txt का इस्तेमाल करें. इससे, वेबसाइट के बड़े हिस्सों को ब्लॉक किया जा सकता है. साथ ही, अलग-अलग पेजों को ब्लॉक करने के लिए, पेज-लेवल के कंट्रोल इस्तेमाल करें.
रोबोट एक्सक्लूज़न प्रोटोकॉल—एक बेहतरीन और अप-टू-डेट स्टैंडर्ड है
इन सभी कंट्रोल में, ज़रूरत के हिसाब से बढ़ोतरी की जा सकती है. इन सालों में, साइट के मालिकों, क्रॉलर ऑपरेटर, और सर्च इंजन ने इन कंट्रोल को बेहतर बनाने के लिए मिलकर काम किया है.
शुरुआत में, इसमें कुछ ही वैल्यू मौजूद थीं. जैसे, noindex
और nofollow
. बाद में, nosnippet
, noarchive
, और max-snippet:
जैसी और वैल्यू भी शामिल की गईं.
कभी-कभी वैल्यू का इस्तेमाल बंद कर दिया जाता है. जैसे, noodp
के मामले में ऐसा हुआ था. इस वैल्यू में, डायरेक्ट्री बंद होने से पहले, DMOZ / ओपन डायरेक्ट्री प्रोजेक्ट के स्निपेट का इस्तेमाल किया जाता था.
साइट के मालिकों के लिए, Google कई वैल्यू का इस्तेमाल करता है. साथ ही, अन्य बड़े क्रॉलर ऑपरेटर भी ऐसा ही करते हैं.
आरईपी प्रोग्राम के तहत, साइट के मालिकों के पास यह कंट्रोल करने का विकल्प होता है कि कौनसा डेटा क्रॉल किया जाए और क्रॉल किए गए डेटा का इस्तेमाल सर्च इंजन में कैसे किया जाए. उनके पास, वेबसाइटों के बड़े हिस्सों के लिए, बड़े पैमाने पर या अलग-अलग पेजों के लिए ज़्यादा बारीकी से ऐसा करने का विकल्प होता है. इतना ही नहीं, बल्कि वे पेजों में मौजूद इमेज के लिए भी ऐसा कर सकते हैं. ये कंट्रोल जाने-पहचाने और भरोसेमंद हैं, सभी कॉन्टेंट मैनेजमेंट सिस्टम में उपलब्ध हैं. साथ ही, ये आम तौर पर कमर्शियल ऑपरेटर के साथ काम करते हैं और इनका इस्तेमाल, इंटरनेट पर मौजूद करोड़ों होस्ट पर किया जाता है.