रोबोट मेटा टैग और X-Robots-Tag एचटीटीपी हेडर की विशेषताएं

खास जानकारी

इस दस्तावेज़ में पेज-स्तर पर इंडेक्स करने की सेटिंग से आप यह नियंत्रित करने का तरीका जान सकते हैं कि Google, खोज नतीजों में दिखाने के लिए सामग्री किस तरह उपलब्ध कराता है. आप इनके बारे में (X)एचटीएमएल पर या किसी एचटीटीपी हेडर में मेटा टैग शामिल करके साफ़ तौर पर बता सकते हैं.

रोबोट मेटा टैग का इस्तेमाल करना

रोबोट मेटा टैग पेज के स्तर पर बारीकी से यह नियंत्रित करने की सुविधा देता है कि किस तरह किसी पेज को इंडेक्स किया जाए और उसे खोज परिणामों में इस्तेमाल करने वालों को दिखाया जाए. किसी दिए गए पेज के <head> सेक्शन में रोबोट मेटा टैग डालें, जैसे:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

ऊपर दिए गए उदाहरण में रोबोट मेटा टैग ज़्यादातर सर्च इंजन को निर्देश देता है कि वे पेज को खोज परिणामों में न दिखाएं. name का मान (robots) यह बताता है कि निर्देश सभी क्रॉलर पर लागू होते हैं. किसी खास क्रॉलर को निर्देश देने के लिए, robots विशेषता के name मान को बदलकर उसकी जगह क्रॉलर का नाम डाल दें जिसे आप निर्देश दे रहे हैं. कुछ चुनिंदा क्रॉलर उपयोगकर्ता-एजेंट (ऐसा क्रॉलर जो किसी पेज का अनुरोध करने के लिए अपने उपयोगकर्ता-एजेंट का इस्तेमाल करता है) के नाम से भी जाने जाते हैं. Google के मानक वेब क्रॉलर के उपयोगकर्ता-एजेंट का नाम Googlebot है. सिर्फ़ Googlebot को अपना पेज क्रॉल करने से रोकने के लिए, टैग को नीचे बताए गए तरीके से अपडेट करें:

<meta name="googlebot" content="noindex" />

अब यह टैग Google को (लेकिन दूसरे सर्च इंजन को नहीं) उसके वेब खोज नतीजों में यह पेज नहीं दिखाने का निर्देश देता है. name और content दोनों विशेषताओं को अंग्रेज़ी के बड़े या छोटे किसी भी अक्षर में लिखा जा सकता है.

अलग-अलग प्रॉपर्टी या मकसदों के लिए सर्च इंजन में अलग-अलग क्रॉलर हो सकते हैं. Google के क्रॉलर की पूरी सूची देखें. उदाहरण के लिए, 'Google समाचार' को छोड़कर Google के वेब खोज नतीजों में कोई पेज दिखाने के लिए, नीचे दिए गए मेटा टैग का इस्तेमाल करें:

<meta name="googlebot-news" content="noindex" />

अगर आपको एक-एक करके एक से ज़्यादा क्रॉलर की जानकारी देनी है, तो कई रोबोट मेटा टैग का इस्तेमाल किया जा सकता है:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

अगर हमारे क्रॉलर के सामने विपरीत निर्देश आते हैं, तो हम मिलने वाले सबसे ज़्यादा सीमित निर्देश का इस्तेमाल करेंगे.

X-Robots-Tag एचटीटीपी हेडर का इस्तेमाल करना

किसी दिए गए यूआरएल के लिए एचटीटीपी हेडर जवाब के ऐलीमेंट के रूप में X-Robots-Tag का इस्तेमाल किया जा सकता है. किसी रोबोट मेटा टैग में इस्तेमाल किए जाने वाले किसी भी निर्देश को X-Robots-Tag के रूप में भी बताया जा सकता है. यहां एचटीटीपी जवाब का एक उदाहरण दिया गया है, जिसमें X-Robots-Tag क्रॉलर को यह निर्देश दे रहा है कि वह पेज को इंडेक्स न करें:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

कई X-Robots-Tag हेडर को एचटीटीपी जवाब में जोड़ा जा सकता है या आप निर्देशों की कॉमा-सेपरेटेड लिस्ट बना सकते हैं. यहां एचटीटीपी हेडर जवाब का एक उदाहरण दिया गया है जिसमें noarchive X-Robots-Tag और unavailable_after X-Robots-Tag जुड़े हुए हैं.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag वैकल्पिक रूप से निर्देशों से पहले ही उपयोगकर्ता-एजेंट तय कर सकता है. जैसे कि कुछ शर्तों के साथ X-Robots-Tag एचटीटीपी हेडर के नीचे दिए गए सेट का इस्तेमाल, अलग-अलग सर्च इंजन के खोज परिणामों में किसी पेज को दिखाने की अनुमति देने के लिए किया जा सकता है:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

उपयोगकर्ता-एजेंट के बिना बताए गए निर्देश सभी क्रॉलर के लिए मान्य होते हैं. नीचे दिए गए सेक्शन में संयोजित निर्देशों पर काम करने का तरीका दिखाया गया है. नाम और बताए गए मान, दोनों को अंग्रेज़ी के बड़े या छोटे अक्षरों में से किसी में भी लिखा जा सकता है.

सही तरह से इंडेक्स करना और निर्देश देना

इंडेक्स करने की प्रक्रिया को नियंत्रित करने और रोबोट मेटा टैग और X-Robots-Tag के साथ उन्हें दिखाने के लिए, कई दूसरे निर्देशों का इस्तेमाल किया जा सकता है. हर एक मान एक खास निर्देश दिखाता है. नीचे दिए गए टेबल में उन सभी निर्देशों को दिखाया गया है जिनका Google पालन करता है और साथ ही उनके मतलब बताए गए हैं. नोट: शायद इन निर्देशों का इस्तेमाल दूसरे सभी सर्च इंजन क्रॉलर इस तरह से न करें. एक से ज़्यादा निर्देशों को एक कॉमा-सेपरेटेड लिस्ट में जोड़ा जा सकता है (एक साथ सभी निर्देशों पर काम करने का तरीका जानने के लिए नीचे देखें). इन निर्देशों के लिए अंग्रेज़ी के बड़े या छोटे में से किसी भी अक्षर का इस्तेमाल किया जा सकता है.

निर्देश
all इंडेक्स करने या उन्हें दिखाए जाने पर कोई पाबंदी नहीं है. नोट: यह निर्देश डिफ़ॉल्ट मान है और स्पष्ट तौर पर सूची में शामिल करने पर इसका कोई असर नहीं पड़ता है.
noindex यह पेज खोज परिणामों में न दिखाएं, न ही खोज परिणामों में कोई "कैश में स्टोर किया हुआ" लिंक दिखाएं.
nofollow इस पेज पर दिए गए लिंक फ़ॉलो न करें.
none noindex, nofollow के बराबर.
noarchive खोज नतीजों में "कैश" में स्टोर हुआ लिंक न दिखाएं.
nosnippet इस पेज के लिए खोज नतीजों में कोई टेक्स्ट स्निपेट या वीडियो झलक न दिखाएं. स्थायी थंबनेल (अगर उपलब्ध हो) अब भी दिखाई देगा.
notranslate खोज परिणामों में इस पेज को अनुवाद करने का विकल्प न दिखाएं.
noimageindex इस पेज पर मौजूद इमेज इंडेक्स न करें.
unavailable_after: [RFC-850 date/time] बताई गई तारीख/समय के बाद इस पेज को खोज नतीजों में नहीं दिखाएं. तारीख/समय RFC 850 फ़ॉर्मैट में होने चाहिए.

robots.txt फ़ाइल (या इसकी गैर-मौजूदगी में) से किसी पेज को क्रॉल करने की अनुमति दिए जाने के बाद, डिफ़ॉल्ट रूप से पेज को क्रॉल, इंडेक्स और संग्रह करने लायक माना जाता है. साथ ही, उनकी सामग्री को सर्च नतीजों में दिखाई देने वाले स्निपेट में इस्तेमाल किए जाने की अनुमति मिल जाती है, बशर्ते रोबोट मेटा टैग या X-Robots-Tag में अनुमति खास तौर से अस्वीकार न की गई हो.

इंडेक्स करने और निर्देश दिखाए जाने को एक साथ शामिल करना

आप रोबोट मेटा टैग निर्देशों को कॉमा से जोड़कर कई दिशा-निर्देशों वाला निर्देश बना सकते हैं. यहां एक रोबोट मेटा टैग का एक उदाहरण दिया गया है जो वेब क्रॉलर को पेज को इंडेक्स नहीं करने और पेज पर किसी भी लिंक को क्रॉल नहीं करने का निर्देश देता है:

<meta name="robots" content="noindex, nofollow">

उन स्थितियों के लिए जहां एक से ज़्यादा क्रॉलर अलग-अलग निर्देशों के साथ बताए जाते हैं, खोज इंजन नकारात्मक निर्देशों के कुल योग का इस्तेमाल करेगा. उदाहरण के लिए:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot से क्रॉल किए जाने पर इन मेटा टैग वाले पेज की पहचान noindex, nofollow निर्देश होने के रूप में की जाएगी.

Apache के साथ X-Robots-Tag को कारगर तरीके से लागू करना

आप .htaccess और httpd.conf फ़ाइलों का इस्तेमाल करके किसी साइट के HTTP जवाबों में X-Robots-Tag जोड़ सकते हैं. ये फ़ाइलें डिफ़ॉल्ट रूप से Apache आधारित वेब सर्वर पर उपलब्ध होती हैं. HTTP जवाबों के साथ X-Robots-Tag के इस्तेमाल का यह फ़ायदा होता है कि आप वे क्रॉलिंग निर्देश बता सकते हैं जो किसी साइट पर वैश्विक स्तर पर लागू होते हैं. रेगुलर एक्सप्रेशन के काम करने से यह बहुत ज़्यादा सुविधाजनक बन जाता है.

जैसे कि एक पूरी साइट में सभी .PDF फ़ाइलों के लिए HTTP जवाब में noindex, nofollow X-Robots-Tag जोड़ने के लिए साइट की रूट .htaccess फ़ाइल या httpd.conf फ़ाइल में नीचे दिया गया स्निपेट जोड़ें:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

आप इमेज फ़ाइलों जैसी उन गैर-HTML फ़ाइलों के लिए X-Robots-Tag का इस्तेमाल कर सकते हैं, जहां रोबोट मेटा टैग का इस्तेमाल नहीं किया जा सकता. यहां एक पूरी साइट पर इमेज फ़ाइलों (.png, .jpeg, .jpg, .gif) के लिए noindex X-Robots-Tag निर्देश जोड़ने का एक उदाहरण दिया गया है:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

इंडेक्स करने / निर्देश दिखाने के साथ क्रॉलिंग को जोड़ना

रोबोट मेटा टैग और X-Robots-Tag HTTP हेडर का पता तब चलता है जब एक यूआरएल क्रॉल किया जाता है. अगर किसी पेज को robots.txt फ़ाइल से क्रॉल करने से मना कर दिया जाता है, तो इंडेक्स करने या निर्देश दिखाने के बारे में कोई जानकारी नहीं मिलेगी, इसलिए उसे अनदेखा कर दिया जाएगा. अगर इंडेक्स करने या दिखाने के बारे में दिए गए निर्देशों का पालन करना ज़रूरी है, तो उन निर्देशों वाले यूआरएल को क्रॉल करने से मना नहीं किया जा सकता है.

निम्न के बारे में फ़ीडबैक भेजें...