रोबोट टैग रीफ़्रेशर: पेज-लेवल के कंट्रोल के बारे में ज़्यादा जानकारी

शुक्रवार, 14 मार्च, 2025

robots.txt फ़ाइल की मदद से, साइट के मालिक आसानी से यह कंट्रोल कर सकते हैं कि क्रॉलर, वेबसाइट के किन हिस्सों को ऐक्सेस कर सकते हैं. साइट के मालिकों को यह तय में मदद करने के लिए कि सर्च इंजन और वेब क्रॉलर उनके पेजों का इस्तेमाल कैसे कर सकते हैं, वेब स्टैंडर्ड बनाने वाली कम्यूनिटी ने 1996 में रोबोट meta टैग इस्तेमाल करने का सुझाव दिया. यह सुझाव, एचटीएमएल के लिए meta टैग का सुझाव देने के कुछ ही महीनों बाद दिया गया था. यह भी कहा जाता है कि यह सुझाव, Google के बनने से पहले दिया गया था. बाद में, X-Robots-Tag एचटीटीपी रिस्पॉन्स हेडर जोड़े गए. ये निर्देश, यूआरएल के साथ भेजे जाते हैं. इसलिए, क्रॉलर इन निर्देशों को सिर्फ़ तब ध्यान में रख सकते हैं, जब उन्हें robots.txt फ़ाइल के ज़रिए यूआरएल को क्रॉल करने से न रोका गया हो. ये दोनों मिलकर, रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी) बनाती हैं.

रोबोट meta टैग के बारे में जानकारी

मेटा टैग (या एलिमेंट), मशीन से पढ़े जा सकने वाले मेटाडेटा को शामिल करने का एक तरीका है. रोबोट meta टैग, meta टैग का एक "टाइप" है. यह सर्च इंजन के क्रॉलर के साथ-साथ, अन्य क्रॉलर पर भी लागू होता है. इनसे यह पता चलता है कि: क्या कॉन्टेंट को इंडेक्स करने से ब्लॉक किया गया है? क्या पेज पर मौजूद लिंक को क्रॉल करने के लिए, उन्हें फ़ॉलो नहीं किया जाना चाहिए? पेज पर, सीधे तौर पर रोबोट meta टैग की मदद से, यह जानकारी देना आसान है.

किसी भी यूआरएल के लिए रोबोट एक्सक्लूज़न प्रोटोकॉल

एचटीएमएल के अलावा दूसरे कॉन्टेंट को भी एचटीएमएल कॉन्टेंट की तरह कंट्रोल करने के लिए, "X-Robots-Tag" एचटीटीपी रिस्पॉन्स हेडर बनाया गया था. इन एचटीटीपी हेडर को भी आरईपी का हिस्सा माना जाता है. हेडर में वही वैल्यू इस्तेमाल की जा सकती हैं जो रोबोट meta टैग में इस्तेमाल की जा सकती हैं. साथ ही, इसे ऑनलाइन दिखाए जाने वाले किसी भी कॉन्टेंट में जोड़ा जा सकता है. Google, एचटीएमएल के अलावा, PDF, दस्तावेज़ फ़ाइलों, और इमेज जैसे कॉन्टेंट के लिए भी इसे इस्तेमाल करता है. इनमें से ज़्यादातर फ़ाइल फ़ॉर्मैट में, meta टैग के बराबर कोई सुविधा नहीं होती. इसलिए, एचटीटीपी रिस्पॉन्स हेडर का इस्तेमाल करना मददगार होता है.

रोबोट meta टैग और हेडर का इस्तेमाल शुरू करना

इसका सिंटैक्स इस्तेमाल में आसान है और इसे ज़रूरत के हिसाब से बेहतर बनाया जा सकता है. आम तौर पर, ये नियम वेब डेवलपर या कॉन्टेंट मैनेजमेंट सिस्टम (सीएमएस) के ज़रिए लागू किए जाते हैं. इसमें साइट के मालिकों के पास अपनी प्राथमिकताएं चुनने के लिए चेकबॉक्स या ड्रॉप-डाउन मेन्यू हो सकते हैं. इन कंट्रोल की मदद से, Googlebot जैसे चुनिंदा क्रॉलर को निर्देश दिया जा सकता है. इसके अलावा, किसी चुनिंदा नाम को हटाकर, उन सभी क्रॉलर को निर्देश दिया जा सकता है जो इन वैल्यू के साथ काम करते हैं.

उदाहरण के लिए, यहां दिए गए नियमों से सभी क्रॉलर को यह पता चलता है कि इंडेक्स करने के लिए, उस पेज का इस्तेमाल न करें जिससे यह पेज जुड़ा है:

  • वेब पेज पर, एचटीएमएल meta टैग के तौर पर:
    <meta name="robots" content="noindex">

    मौजूदा meta टैग या रिस्पॉन्स हेडर को देखना थोड़ा मुश्किल है. इसके लिए, पेज के कॉन्टेंट या हेडर की सीधे तौर पर जांच करनी पड़ती है. किसी भी पेज पर एचटीएमएल meta टैग देखे जा सकते हैं. इसके लिए, ब्राउज़र में पेज का सोर्स देखें या पेज की जांच करने के लिए, Chrome के डेवलपर टूल का इस्तेमाल करें.

  • एचटीटीपी रिस्पॉन्स हेडर के तौर पर:
    X-Robots-Tag: noindex

    Chrome के डेवलपर टूल में मौजूद, नेटवर्क पैनल में जाकर, अलग-अलग यूआरएल के लिए एचटीटीपी रिस्पॉन्स हेडर देखे जा सकते हैं.

ये तरीके इस्तेमाल किए जा सकते हैं:

इस पेज या दस्तावेज़ के लिए स्निपेट न दिखाएं.

एचटीटीपी हेडर में:
X-Robots-Tag: nosnippet
या एचटीएमएल में:
<meta name="robots" content="nosnippet">

अन्य पेजों के लिए कोई प्राथमिकता तय किए बिना, इस पेज को ExampleBot-News में इंडेक्स न करें.

ये कंट्रोल, साफ़ तौर पर एक क्रॉलर के बारे में बताते हैं.

X-Robots-Tag: examplebot-news: noindex
या
<meta name="examplebot-news" content="noindex">

ExampleBot को कोई स्निपेट नहीं दिखाना चाहिए. इसके अलावा, सभी क्रॉलर को इस पेज पर दिए गए लिंक को फ़ॉलो नहीं करना चाहिए.

ध्यान दें कि सबसे ज़्यादा पाबंदी वाले मान्य डायरेक्टिव लागू होते हैं. इसलिए, ExampleBot के लिए डायरेक्टिव को "nosnippet, nofollow" के तौर पर जोड़ा जाएगा.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
या
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

आरईपी इस्तेमाल करने का तरीका चुनना

आपको इनमें से किसका इस्तेमाल करना है, यह कैसे तय किया जाता है? बुनियादी तौर पर, robots.txt और पेज-लेवल के कंट्रोल एक जैसे होते हैं. हालांकि, इन्हें पूरी तरह से एक-दूसरे के साथ बदला नहीं जा सकता. कभी-कभी कोई खास कार्रवाई, सिर्फ़ एक तरीके से की जा सकती है. उदाहरण के लिए, अगर आपको क्रॉल करने की प्रोसेस को रोकना है, तो robots.txt का इस्तेमाल करें. जैसे, खोज नतीजों के अनलिमिटेड पेजों के लिए इस्तेमाल करना. अगर आपको एफ़टीपी सर्वर को कंट्रोल करना है, तो robots.txt का इस्तेमाल करें. इसके अलावा, अगर आपको किसी पेज के लिए स्निपेट नहीं दिखाना है, तो पेज-लेवल एलिमेंट का इस्तेमाल करें. अगर आपको क्रॉल करने और इंडेक्स करने पर रोक लगाने के बीच अंतर करने की ज़रूरत नहीं है, तो एक तरीका यह है कि ज़्यादा कंट्रोल के लिए robots.txt का इस्तेमाल करें. इससे, वेबसाइट के बड़े हिस्सों को ब्लॉक किया जा सकता है. साथ ही, अलग-अलग पेजों को ब्लॉक करने के लिए, पेज-लेवल के कंट्रोल इस्तेमाल करें.

रोबोट एक्सक्लूज़न प्रोटोकॉल—एक बेहतरीन और अप-टू-डेट स्टैंडर्ड है

इन सभी कंट्रोल में, ज़रूरत के हिसाब से बढ़ोतरी की जा सकती है. इन सालों में, साइट के मालिकों, क्रॉलर ऑपरेटर, और सर्च इंजन ने इन कंट्रोल को बेहतर बनाने के लिए मिलकर काम किया है. शुरुआत में, इसमें कुछ ही वैल्यू मौजूद थीं. जैसे, noindex और nofollow. बाद में, nosnippet, noarchive, और max-snippet: जैसी और वैल्यू भी शामिल की गईं. कभी-कभी वैल्यू का इस्तेमाल बंद कर दिया जाता है. जैसे, noodp के मामले में ऐसा हुआ था. इस वैल्यू में, डायरेक्ट्री बंद होने से पहले, DMOZ / ओपन डायरेक्ट्री प्रोजेक्ट के स्निपेट का इस्तेमाल किया जाता था. साइट के मालिकों के लिए, Google कई वैल्यू का इस्तेमाल करता है. साथ ही, अन्य बड़े क्रॉलर ऑपरेटर भी ऐसा ही करते हैं.

आरईपी प्रोग्राम के तहत, साइट के मालिकों के पास यह कंट्रोल करने का विकल्प होता है कि कौनसा डेटा क्रॉल किया जाए और क्रॉल किए गए डेटा का इस्तेमाल सर्च इंजन में कैसे किया जाए. उनके पास, वेबसाइटों के बड़े हिस्सों के लिए, बड़े पैमाने पर या अलग-अलग पेजों के लिए ज़्यादा बारीकी से ऐसा करने का विकल्प होता है. इतना ही नहीं, बल्कि वे पेजों में मौजूद इमेज के लिए भी ऐसा कर सकते हैं. ये कंट्रोल जाने-पहचाने और भरोसेमंद हैं, सभी कॉन्टेंट मैनेजमेंट सिस्टम में उपलब्ध हैं. साथ ही, ये आम तौर पर कमर्शियल ऑपरेटर के साथ काम करते हैं और इनका इस्तेमाल, इंटरनेट पर मौजूद करोड़ों होस्ट पर किया जाता है.


रोबोट रीफ़्रेशर सीरीज़ के अन्य संसाधन देखें: