रोबोट मेटा टैग और X-Robots-Tag एचटीटीपी हेडर की विशेषताएं

संक्षेप

इस दस्तावेज़ में पेज-स्तर पर इंडेक्स करने की सेटिंग से आप यह नियंत्रित करने का तरीका जान सकते हैं कि किस तरह Google, खोज नतीजों में दिखाने के लिए सामग्री उपलब्ध कराता है. आप इनके बारे में (X)एचटीएमएल पर या किसी एचटीटीपी हेडर में मेटा टैग शामिल करके साफ़ तौर पर बता सकते हैं.

रोबोट मेटा टैग का इस्तेमाल करना

रोबोट मेटा टैग छोटे पैमाने पर, पेज के स्तर पर यह नियंत्रित करने की सुविधा देता है कि किस तरह किसी पेज को इंडेक्स करने और उसे खोज नतीजों में उपयोगकर्ताओं को दिखाया जाए. किसी दिए गए पेज के <head> सेक्शन में रोबोट मेटा टैग डालें, जैसे:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

ऊपर दिए गए उदाहरण में रोबोट मेटा टैग ज़्यादातर सर्च इंजन को निर्देश देता है कि वे पेज को खोज नतीजों में नहीं दिखाएं. name विशेषता (robots) का मान यह बताता है कि निर्देश सभी क्रॉलर पर लागू होते हैं. किसी खास क्रॉलर को निर्देश देने के लिए, robots विशेषता के name मान को बदलकर उसकी जगह क्रॉलर का नाम डाल दें, जिसे आप निर्देश दे रहे हैं. कुछ चुनिंदा क्रॉलर उपयोगकर्ता-एजेंट (ऐसा क्रॉलर जो किसी पेज का अनुरोध करने के लिए अपने उपयोगकर्ता-एजेंट का इस्तेमाल करता है) के नाम से भी जाने जाते हैं. Google के मानक वेब क्रॉलर के उपयोगकर्ता-एजेंट का नाम Googlebot होता है. सिर्फ़ Googlebot को अपने पेज को क्रॉल करने से रोकने के लिए, टैग को नीचे बताए गए तरीके से अपडेट करें:

<meta name="googlebot" content="noindex" />

अब यह टैग Google को (लेकिन दूसरे सर्च इंजन को नहीं) उसके वेब खोज नतीजों में यह पेज नहीं दिखाने का निर्देश देता है. name और content दोनों विशेषताओं को अंग्रेज़ी के बड़े या छोटे किसी भी अक्षरों में लिखा जा सकता है.

अलग-अलग प्रॉपर्टी या उद्देश्यों के लिए सर्च इंजन में अलग-अलग क्रॉलर हो सकते हैं. Google के क्रॉलर की पूरी सूची देखें. उदाहरण के लिए, 'Google समाचार' को छोड़कर Google के वेब खोज नतीजों में कोई पेज दिखाने के लिए नीचे दिए गए मेटा टैग का इस्तेमाल करें:

<meta name="googlebot-news" content="noindex" />

अगर आपको एक-एक करके एक से ज़्यादा क्रॉलर की जानकारी देनी है, तो कई रोबोट मेटा टैग का इस्तेमाल किया जा सकता है:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

अगर हमारे क्रॉलर के सामने विपरीत निर्देश आते हैं, तो हम मिलने वाले सबसे ज़्यादा सीमित निर्देश का इस्तेमाल करेंगे.

X-Robots-Tag एचटीटीपी हेडर का इस्तेमाल करना

किसी दिए गए यूआरएल के लिए एचटीटीपी हेडर जवाब के ऐलीमेंट के रूप में X-Robots-Tag का इस्तेमाल किया जा सकता है. किसी रोबोट मेटा टैग में इस्तेमाल किए जाने वाले किसी भी निर्देश को X-Robots-Tag के रूप में भी बताया जा सकता है. यहां एचटीटीपी जवाब का एक उदाहरण दिया गया है जिसमें X-Robots-Tag, क्रॉलर को पेज को इंडेक्स नहीं करने का निर्देश दे रहा है:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

कई X-Robots-Tag हेडर को एचटीटीपी जवाब में जोड़ा जा सकता है या आप निर्देशों की कॉमा-सेपरेटेड लिस्ट बना सकते हैं. यहां एचटीटीपी हेडर जवाब का एक उदाहरण दिया गया है, जिसमें noarchive X-Robots-Tag और unavailable_after X-Robots-Tag जुड़े हुए हैं.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag वैकल्पिक रूप से निर्देशों से पहले ही उपयोगकर्ता-एजेंट तय कर सकता है. जैसे कि, X-Robots-Tag एचटीटीपी हेडर के नीचे दिए गए सेट का इस्तेमाल शर्त के साथ अलग-अलग सर्च इंजन के लिए खोज नतीजों में कोई पेज दिखाने की अनुमति देने के लिए किया जा सकता है:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

उपयोगकर्ता-एजेंट के बिना बताए गए निर्देश सभी क्रॉलर के लिए मान्य होते हैं. नीचे दिए गए सेक्शन में संयोजित निर्देशों पर काम करने का तरीका दिखाया गया है. नाम और बताए गए मान, दोनों को अंग्रेज़ी के बड़े या छोटे अक्षरों - किसी भी तरह से लिखा जा सकता है.

सही तरह से इंडेक्स करना और निर्देश देना

इंडेक्स करने की प्रक्रिया को नियंत्रित करने और रोबोट मेटा टैग और X-Robots-Tag के साथ उन्हें दिखाने के लिए कई दूसरे निर्देशों का इस्तेमाल किया जा सकता है. हर एक मान एक खास निर्देश दिखाता है. नीचे दिए गए टेबल में उन सभी निर्देशों को दिखाया गया है जिनका Google पालन करता है और साथ ही उनके मतलब बताए गए हैं. ध्यान दें: शायद इन निर्देशों का इस्तेमाल दूसरे सभी सर्च इंजन क्रॉलर इस तरह से न करें. एक से ज़्यादा निर्देशों को एक कॉमा-सेपरेटेड लिस्ट में जोड़ा जा सकता है (एक साथ सभी निर्देशों पर काम करने का तरीका जानने के लिए नीचे देखें). इन निर्देशों के लिए अंग्रेज़ी के बड़े या छोटे - किसी भी अक्षर का इस्तेमाल किया जा सकता है.

निर्देश
all इंडेक्स करने या उन्हें दिखाए जाने पर कोई पाबंदी नहीं है. ध्यान दें: यह निर्देश डिफ़ॉल्ट मान है और स्पष्ट तौर पर सूची में शामिल करने पर इसका कोई असर नहीं पड़ता है.
noindex इस पेज को खोज नतीजों में न दिखाएं और "कैश" में स्टोर हुआ लिंक भी खोज नतीजों में न दिखाएं.
nofollow इस पेज पर दिए गए लिंक फ़ॉलो न करें.
none noindex, nofollow के बराबर.
noarchive खोज नतीजों में "कैश" में स्टोर हुआ लिंक न दिखाएं.
nosnippet इस पेज के लिए खोज नतीजों में कोई टेक्स्ट स्निपेट या वीडियो झलक न दिखाएं. स्थायी थंबनेल (अगर उपलब्ध हो) अब भी दिखाई देगा.
notranslate खोज नतीजों में इस पेज को अनुवाद करने का विकल्प न दिखाएं.
noimageindex इस पेज पर मौजूद इमेज इंडेक्स न करें.
unavailable_after: [RFC-850 date/time] बताई गई तारीख/समय के बाद इस पेज को खोज नतीजों में नहीं दिखाएं. तारीख/समय RFC 850 फ़ॉर्मैट में होने चाहिए.

robots.txt फ़ाइल (या एक की गैर-मौजूदगी में) के ज़रिए किसी पेज को क्रॉल करने की अनुमति दिए जाने के बाद, डिफ़ॉल्ट रूप से पेज को क्रॉल करने, इंडेक्स करने, संग्रह करने लायक माना जाता है और उनकी सामग्री को सर्च नतीजों में दिखाई देने वाले स्निपेट में इस्तेमाल किए जाने की अनुमति मिल जाती है, बशर्ते रोबोट मेटा टैग या X-Robots-Tag में अनुमति खास तौर से अस्वीकार न की गई हो.

इंडेक्स करने और निर्देश दिखाए जाने को एक साथ शामिल करना

आप रोबोट मेटा टैग निर्देशों को कॉमा से जोड़कर कई दिशा-निर्देशों वाला निर्देश बना सकते हैं. यहां एक रोबोट मेटा टैग का एक उदाहरण दिया गया है जो वेब क्रॉलर को पेज को इंडेक्स नहीं करने और पेज पर किसी भी लिंक को क्रॉल नहीं करने के लिए निर्देश देता है:

<meta name="robots" content="noindex, nofollow">

उन स्थितियों के लिए जहां एक से ज़्यादा क्रॉलर अलग-अलग निर्देशों के साथ बताए जाते हैं, खोज इंजन नकारात्मक निर्देशों के कुल योग का इस्तेमाल करेगा. उदाहरण के लिए:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot के ज़रिए क्रॉल किए जाने पर इन मेटा टैग वाले पेज की पहचान noindex, nofollow निर्देश होने के रूप में की जाएगी.

Apache के साथ X-Robots-Tag को कारगर तरीके से लागू करना

आप .htaccess और httpd.conf फ़ाइलों का इस्तेमाल करके किसी साइट के HTTP जवाबों में X-Robots-Tag जोड़ सकते हैं. ये फ़ाइलें जो डिफ़ॉल्ट रूप से Apache आधारित वेब सर्वर पर उपलब्ध होती हैं. HTTP जवाबों के साथ X-Robots-Tag का इस्तेमाल करने का यह फ़ायदा होता है कि आप वे क्रॉलिंग निर्देश बता सकते हैं जो किसी साइट पर वैश्विक स्तर पर लागू होते हैं. रेगुलर एक्सप्रेशन के काम करने से यह बहुत ज़्यादा सुविधाजनक बन जाता है.

जैसे कि, एक पूरी साइट में सभी .PDF फ़ाइलों के लिए HTTP जवाब में noindex, nofollow X-Robots-Tag जोड़ने के लिएसाइट की रूट .htaccess फ़ाइल या httpd.conf फ़ाइल में नीचे दिया गया स्निपेट जोड़ें:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

आप इमेज फ़ाइलों जैसी उन गैर-HTML फ़ाइलों के लिए X-Robots-Tag का इस्तेमाल कर सकते हैं, जहां रोबोट मेटा टैग का इस्तेमाल नहीं किया जा सकता. यहां एक पूरी साइट पर इमेज फ़ाइलों (.png, .jpeg, .jpg, .gif) के लिए noindex X-Robots-Tag निर्देश जोड़ने का एक उदाहरण दिया गया है:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

इंडेक्स करने / निर्देश दिखाने के साथ क्रॉलिंग को जोड़ना

रोबोट मेटा टैग और X-Robots-Tag HTTP हेडर का पता तब चलता है जब एक यूआरएल क्रॉल किया जाता है. अगर किसी पेज को robots.txt फ़ाइल के ज़रिए क्रॉल करने से मना कर दिया जाता है, तो इंडेक्स करने या निर्देश दिखाने के बारे में कोई जानकारी नहीं मिलेगी और इसलिए उसे अनदेखा कर दिया जाएगा. अगर इंडेक्स करने या निर्देश दिखाने का पालन करना ज़रूरी है, तो उन निर्देशों वाले यूआरएल को क्रॉल करने से मना नहीं किया जा सकता है.

निम्न के बारे में फ़ीडबैक भेजें...