Robots.txt की विशेषताएं

खास जानकारी

यह दस्तावेज़ बताता है कि Google, robots.txt फ़ाइल को कैसे पढ़ता है. आप robots.txt फ़ाइल की मदद से, यह नियंत्रित कर सकते हैं कि वेबसाइटों को क्रॉल करने वाले Google के क्रॉलर, सार्वजनिक ऐक्सेस वाली वेबसाइटों को कैसे क्रॉल और इंडेक्स करें.

क्या बदलाव हुए

Google ने 1 जुलाई, 2019 को एलान किया था कि robots.txt प्रोटोकॉल को, इंटरनेट स्टैंडर्ड बनाने की दिशा में काम किया जा रहा है. इन बदलावों की जानकारी, इस दस्तावेज़ में दी गई है.

मूल परिभाषाएं

परिभाषाएं
क्रॉलर क्रॉलर, वह सेवा या एजेंट है जो वेबसाइटों को क्रॉल करता है. आम भाषा में, एक क्रॉलर ऐसे किसी होस्ट के जाने-पहचाने यूआरएल को अपने-आप और बार-बार ऐक्सेस करता है जो किसी भी मानक वेब ब्राउज़र से ऐक्सेस किया जा सकने वाला कॉन्टेंट दिखाता है. नए यूआरएल मिलते ही (अलग-अलग तरीकों से मिलने वाले यूआरएल, जैसे कि मौजूदा, क्रॉल किए गए पेज पर या साइटमैप फ़ाइलों के लिंक से), उन्हें भी उसी तरह क्रॉल किया जाता है.
उपयोगकर्ता-एजेंट किसी खास क्रॉलर या क्रॉलर के सेट की पहचान का ज़रिया.
निर्देश robots.txt फ़ाइल में क्रॉलर या क्रॉलर के समूह के लिए तय किए गए दिशा-निर्देशों की सूची.
यूआरएल यूनिफ़ॉर्म रिसॉर्स लोकेटर, जैसा कि आरएफ़सी 1738 में बताया गया है.
खास तौर पर Google के लिए ये एलिमेंट खास तौर पर Google के robots.txt को लागू कराने के लिए होते हैं. हो सकता है कि ये दूसरे सर्च इंजन के लिए ज़रूरी न हों.

लागू होने की शर्तें

Google पर सभी ऑटोमेटेड क्रॉलर, इस दस्तावेज़ में बताए गए दिशा-निर्देशों का पालन करते हैं. जब कोई एजेंट किसी उपयोगकर्ता की ओर से यूआरएल ऐक्सेस करता है (जैसे कि अनुवाद, मैन्युअल सदस्यता वाली फ़ीड, मैलवेयर की जांच-परख वाला यूआरएल), तब इन दिशा-निर्देशों को लागू करने की ज़रूरत नहीं होती.

फ़ाइल की जगह और वह कहां-कहां मान्य है

robots.txt फ़ाइल को होस्ट की सबसे ऊपर के लेवल वाली ऐसी डायरेक्ट्री में होना चाहिए, जिसे सही प्रोटोकॉल और पोर्ट नंबर से ऐक्सेस किया जा सकता है. सभी यूआरआई पर आधारित और खास तौर पर Google Search (उदाहरण के लिए, वेबसाइटों की क्रॉलिंग) से जुड़े robots.txt के लिए, आम तौर पर "एचटीटीपी" और "एचटीटीपीएस" प्रोटोकॉल इस्तेमाल किए जाते हैं. एचटीटीपी और एचटीटीपीएस पर, robots.txt फ़ाइल को एचटीटीपी के बिना किसी शर्त वाले जीईटी अनुरोध का इस्तेमाल करके लाया जाता है.

खास तौर पर Google के लिए: Google, एफ़टीपी साइटों के लिए भी robots.txt फ़ाइलों को स्वीकार करता है और उन्हें फ़ॉलो भी करता है. एफ़टीपी पर आधारित robots.txt फ़ाइलों को, एफ़टीपी प्रोटोकॉल से बिना पहचान वाले लॉगिन की मदद से ऐक्सेस किया जाता है.

robots.txt फ़ाइल में दिए गए निर्देश सिर्फ़ उन होस्ट, प्रोटोकॉल, और पोर्ट नंबर पर लागू होते हैं जहां फ़ाइल होस्ट की जाती है.

मान्य robots.txt यूआरएल के उदाहरण:

Robots.txt यूआरएल के उदाहरण
http://example.com/robots.txt इनके लिए मान्य है:
  • http://example.com/
  • http://example.com/folder/file
इनके लिए मान्य नहीं है:
  • http://other.example.com/
  • https://example.com/
  • http://example.com:8181/
http://www.example.com/robots.txt

इनके लिए मान्य है: http://www.example.com/

इनके लिए मान्य नहीं है:

  • http://example.com/
  • http://shop.www.example.com/
  • http://www.shop.example.com/
http://example.com/folder/robots.txt यह robots.txt फ़ाइल मान्य नहीं है. क्रॉलर, सबडायरेक्ट्री में robots.txt फ़ाइलें नहीं खोजते हैं.
http://www.müller.eu/robots.txt इनके लिए मान्य है:
  • http://www.müller.eu/
  • http://www.xn--mller-kva.eu/

इनके लिए मान्य नहीं है: http://www.muller.eu/

भी देखें.
ftp://example.com/robots.txt

इनके लिए मान्य है: ftp://example.com/

इनके लिए मान्य नहीं है: http://example.com/

खास तौर से Google के लिए: हम एफ़टीपी संसाधनों के लिए robots.txt का इस्तेमाल करते हैं.

http://212.96.82.21/robots.txt

इनके लिए मान्य है: http://212.96.82.21/

इनके लिए मान्य नहीं है: http://example.com/ (212.96.82.21 पर होस्ट किए जाने पर भी)

http://example.com:80/robots.txt

इनके लिए मान्य है:

  • http://example.com:80/
  • http://example.com/

इनके लिए मान्य नहीं है: http://example.com:81/

http://example.com:8181/robots.txt

इनके लिए मान्य है: http://example.com:8181/

इनके लिए मान्य नहीं है: http://example.com/

एचटीटीपी नतीजे के कोड संभालना

robots.txt फ़ाइलों को लाए जाने पर, आम तौर पर तीन अलग-अलग नतीजे दिखते हैं:

  • पूरी अनुमति: पूरा कॉन्टेंट क्रॉल किया जा सकता है.
  • बिल्कुल अनुमति नहीं: कोई कॉन्टेंट क्रॉल नहीं किया जा सकता है.
  • शर्तों के साथ अनुमति: robots.txt में, बताए गए निर्देश तय करते हैं कि कोई कॉन्टेंट क्रॉल किया जा सकता है या नहीं.
एचटीटीपी नतीजे के कोड संभालना
2xx (सफ़ल) पूरा होने का संकेत देने वाले एचटीटीपी नतीजे के कोड, क्रॉलिंग की "शर्त के साथ अनुमति" के रूप में नतीजे देते हैं.
3xx (दूसरे वेबलिंक पर भेजना) आरएफ़सी 1945 के मुताबिक Google, एचटीटीपी/1.0 के लिए कम से कम पांच बार रीडायरेक्ट होकर आगे बढ़ने का तरीका अपनाता है. इसके बाद, रुकता है और इसे 404 के तौर पर मानता है. अस्वीकार किए गए यूआरएल पर, robots.txt रीडायरेक्ट के इस्तेमाल से बचने की सलाह दी जाती है. अभी तक कोई नियम नहीं लाया गया है, इसलिए कम से कम पांच बार रीडायरेक्ट होकर आगे बढ़ना फ़ॉलो किया जाता है और कोई robots.txt न मिलने की स्थिति में, Google इसे robots.txt के लिए 404 मानता है. 2xx (फ़्रेम, JavaScript या मेटा रीफ़्रेश टाइप के रीडायरेक्ट) लौटाने वाले एचटीएमएल कॉन्टेंट के आधार पर robots.txt फ़ाइल के लिए, लॉजिकल रीडायरेक्ट के इस्तेमाल से बचने की सलाह दी जाती है. साथ ही, पहले पेज के कॉन्टेंट का इस्तेमाल, लागू होने वाले नियम खोजने के लिए किया जाता है.
4xx (क्लाइंट गड़बड़ियां) Google सभी 4xx गड़बड़ियों को एक ही तरीके से देखता है और मानता है कि कोई मान्य robots.txt फ़ाइल मौजूद नहीं है. यह माना जाता है कि कोई पाबंदी नहीं है. इसमें क्रॉल करने की "पूरी अनुमति" है.
5xx (सर्वर की गड़बड़ियां)

सर्वर की गड़बड़ियों को अस्थायी गड़बड़ियों के रूप में देखा जाता है, जिनकी वजह से क्रॉल करने के लिए "कोई अनुमति नहीं" की स्थिति आती है. तब तक बार-बार अनुरोध किया जाता है, जब तक ऐसा एचटीटीपी नतीजा कोड नहीं मिल जाता जो बताता हो कि गड़बड़ी सर्वर से जुड़ी नहीं है. एक 503 (सेवा उपलब्ध नहीं है) गड़बड़ी की वजह से कई बार कोशिश करनी पड़ती है. 5xx के मामले में, अगर 30 से ज़्यादा दिनों से robots.txt तक पहुंचा न जा सका हो, तो पिछली बार robots.txt की कैश की गई मेमोरी का इस्तेमाल किया जाता है. उपलब्ध न होने पर, Google यह मानकर चलता है कि क्रॉल करने की कोई पाबंदी नहीं है. कुछ देर तक क्रॉल करने से रोकने के लिए, एक 503 एचटीटीपी नतीजा कोड देने का सुझाव दिया जाता है.

खास तौर पर Google के लिए: अगर हम यह तय कर पाते हैं कि किसी साइट को गैरमौजूद पेजों के लिए, 404 के बजाय 5xx दिखाने के लिए गलत तरीके से कॉन्फ़िगर किया गया है, तो हम उस साइट की 5xx गड़बड़ी को 404 के रूप में देखते हैं.

ऐसे अनुरोध जो पूरे नहीं हो सके या अधूरा डेटा डीएनएस या नेटवर्क से जुड़ी समस्याओं की वजहों से नहीं लाई जा सकी robots.txt फ़ाइल को, सर्वर गड़बड़ी माना जाता है. उदाहरण के लिए, काम पूरा होने से पहले समय खत्म हो जाना, गलत जवाब, रीसेट या रुका हुआ कनेक्शन, और छोटे-छोटे हिस्सों में ट्रांसफ़र होने वाली एचटीटीपी गड़बड़ियां.
कैश करना आम तौर पर, अनुरोध किए गए robots.txt कॉन्टेंट को 24 घंटे के लिए कैश मेमोरी में रखा जाता है. हालांकि, कैश किए गए वर्शन को रीफ़्रेश न कर पाने की स्थितियों में इसे लंबे समय तक कैश मेमोरी में रखा जा सकता है. उदाहरण के लिए, समय खत्म होने या 5xx की गड़बड़ियों की वजह से. कैश मेमोरी में जमा हुए जवाबों को अलग-अलग क्रॉलर की मदद से शेयर किया जा सकता है. Google, मैक्स-एज कैश-कंट्रोल वाले एचटीटीपी हेडर के आधार पर, कैश के बने रहने का समय घटा या बढ़ा सकता है.

फ़ाइल फ़ॉर्मैट

फ़ाइल फ़ॉर्मैट UTF-8 में एन्कोड किया गया सादा लेख होना चाहिए. फ़ाइल में सीआर, सीआर/एलएफ़ या एलएफ़ से अलग की गई लाइनें होती हैं.

सिर्फ़ सही लाइनों को माना जाता है; बाकी सारा कॉन्टेंट अनदेखा कर दिया जाता है. उदाहरण के लिए, अगर नतीजे में मिला दस्तावेज़ कोई एचटीएमएल पेज है, तो सिर्फ़ मान्य टेक्स्ट लाइनों को ध्यान में रखा जाता है, बाकी को किसी चेतावनी या गड़बड़ी के ही खारिज कर दिया जाता है.

अगर किसी ऐसी कैरेक्टर एन्कोडिंग का इस्तेमाल किया जाता है जिससे उन वर्णों का इस्तेमाल किया जाता हो जो UTF-8 के सबसेट नहीं हैं, तो फ़ाइल का कॉन्टेंट गलत तरीके से पार्स किए जा सकता है.

robots.txt फ़ाइल की शुरुआत में वैकल्पिक यूनिकोड, बीओएम (बाइट ऑर्डर मार्क) को अनदेखा किया जाता है.

हर एक मान्य लाइन में एक फ़ील्ड, एक कोलन, और एक वैल्यू होती है. खाली जगहें ज़रूरी नहीं हैं (लेकिन कॉन्टेंट को पढ़ने लायक बनाने के लिए सुधार करने का सुझाव दिया जाता है). टिप्पणियों को "#" वर्ण का इस्तेमाल करके फ़ाइल में किसी भी जगह शामिल किया जा सकता है. किसी टिप्पणी की शुरुआत के बाद लाइन के आखिर तक के पूरे कॉन्टेंट को एक टिप्पणी के रूप में माना जाता है और अनदेखा किया जाता है. सामान्य फ़ॉर्मैट <field>:<value><#optional-comment> है. लाइन की शुरुआत और आखिर में बची हुई खाली जगह को अनदेखा कर दिया जाता है.

<field> एलिमेंट पर अंग्रेज़ी के छोटे-बड़े अक्षरों का असर पड़ता है. <value> एलिमेंट पर, <field> एलिमेंट के आधार पर अंग्रेज़ी के छोटे-बड़े अक्षरों का असर पड़ सकता है.

साधारण गड़बड़ियों या गलत वर्तनी (उदाहरण के लिए, "उपयोगकर्ता-एजेंट" के बजाय "उपयोगकर्ताएजेंट") वाले <field> एलिमेंट को हैंडल नहीं किया जा सकता.

हर क्रॉलर के लिए सबसे बड़े साइज़ की फ़ाइल को लागू किया जा सकता है. कॉन्टेंट के लिए तय साइज़ से बड़ी फ़ाइल को अनदेखा किया जाता है. Google फ़िलहाल, 500 किबीबाइट (केआईबी) की साइज़ लिमिट लागू करता है. robots.txt फ़ाइल का साइज़ कम करने के लिए, ऐसे निर्देश इकट्ठा करें जिनसे robots.txt फ़ाइल का साइज़ बहुत बड़ा हो जाता है. उदाहरण के लिए, बाहर निकाला गया कॉन्टेंट अलग डायरेक्ट्री में रखें.

औपचारिक सिंटैक्स या परिभाषा

आरएफ़सी 5234 के मुताबिक ऑगमेंटेड बैकस-नौर फ़ॉर्म (एबीएनएफ़) की जानकारी यहां दी गई है

robotstxt = *(group / emptyline)
group = startgroupline                    ; We start with a user-agent
        *(startgroupline / emptyline)     ; ... and possibly more user-agents
        *(rule / emptyline)               ; followed by rules relevant for UAs

startgroupline = *WS "user-agent" *WS ":" *WS product-token EOL

rule = *WS ("allow" / "disallow") *WS ":" *WS (path-pattern / empty-pattern) EOL

; parser implementors: add additional lines you need (for example, Sitemaps), and
; be lenient when reading lines that don't conform. Apply Postel's law.

product-token = identifier / "*"
path-pattern = "/" *(UTF8-char-noctl)    ; valid URI path pattern; see 3.2.2
empty-pattern = *WS

identifier = 1*(%x2d / %x41-5a / %x5f / %x61-7a)
comment = "#" *(UTF8-char-noctl / WS / "#")
emptyline = EOL
EOL = *WS [comment] NL         ; end-of-line may have optional trailing comment
NL = %x0D / %x0A / %x0D.0A
WS = %x20 / %x09

; UTF8 derived from RFC3629, but excluding control characters
UTF8-char-noctl = UTF8-1-noctl / UTF8-2 / UTF8-3 / UTF8-4
UTF8-1-noctl    = %x21 / %x22 / %x24-7F  ; excluding control, space, '#'
UTF8-2          = %xC2-DF UTF8-tail
UTF8-3          = %xE0 %xA0-BF UTF8-tail / %xE1-EC 2( UTF8-tail ) /
                  %xED %x80-9F UTF8-tail / %xEE-EF 2( UTF8-tail )
UTF8-4          = %xF0 %x90-BF 2( UTF8-tail ) / %xF1-F3 3( UTF8-tail ) /
                  %xF4 %x80-8F 2( UTF8-tail )
UTF8-tail       = %x80-BF

लाइन और नियमों के ग्रुप

एक या उससे ज़्यादा ऐसी user-agent लाइनें जिनके बाद एक या उससे ज़्यादा नियम होते हैं. यह ग्रुप, user-agent लाइन या फ़ाइल के आखिर में खत्म होता है. ऐसा हो सकता है कि आखिरी ग्रुप में कोई नियम न दिया गया हो. ऐसा होने पर, यह ग्रुप हर चीज़ की अनुमति देगा.

ग्रुप के उदाहरण:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

चार अलग-अलग ग्रुप बताए गए हैं:

  • "a" के लिए एक ग्रुप
  • "b" के लिए एक ग्रुप
  • "e" और "f" दोनों के लिए एक ग्रुप
  • "h" के लिए एक ग्रुप

आखिरी ग्रुप (ग्रुप "h") को छोड़कर, हर ग्रुप में उसकी ग्रुप-सदस्यता लाइन होती है. आखिरी ग्रुप (ग्रुप "h") खाली है. खाली जगह और खाली लाइन के इस्तेमाल पर ध्यान दें, ताकि कॉन्टेंट को बेहतर ढंग से पढ़ा जा सके. हालांकि, ऐसा करना ज़रूरी नहीं है.

उपयोगकर्ता एजेंट के लिए प्राथमिकता का क्रम

हर क्रॉलर के लिए सिर्फ़ एक ग्रुप मान्य होता है. क्रॉलर को मान्य उपयोगकर्ता एजेंट के हिसाब से ऐसा ग्रुप खोजना होता है जिसमें सही लाइनें एक साथ रखी गई हों. दूसरे सभी ग्रुप को क्रॉलर अनदेखा कर देता है. उपयोगकर्ता एजेंट, केस-सेंसिटिव होता है. मेल नहीं खाने वाले सारे टेक्स्ट को अनदेखा कर दिया जाता है (उदाहरण के लिए, googlebot/1.2 और googlebot*, दोनों googlebot के बराबर होते हैं). robots.txt फ़ाइल में मौजूद ग्रुप के क्रम से, क्रॉल करने पर कोई असर नहीं पड़ता है.

अगर किसी उपयोगकर्ता एजेंट के लिए एक से ज़्यादा ग्रुप दिए गए हैं, तो उस उपयोगकर्ता एजेंट पर लागू होने वाले उन ग्रुप के सभी नियमों को एक ग्रुप में शामिल कर लिया जाता है.

उदाहरण

उदाहरण 1

यह मानते हुए कि यह robots.txt फ़ाइल:

      user-agent: googlebot-news
      (group 1)

      user-agent: *
      (group 2)

      user-agent: googlebot
      (group 3)
    

क्रॉलर इस तरह से काम के ग्रुप को चुनेंगे:

हर क्रॉलर के लिए फ़ॉलो किया गया ग्रुप
Googlebot News फ़ॉलो किया गया ग्रुप, ग्रुप 1 है. सिर्फ़ सबसे सटीक ग्रुप को फ़ॉलो किया जाता है, दूसरे सभी ग्रुप अनदेखा कर दिए जाते हैं.
Googlebot (वेब) फ़ॉलो किया गया ग्रुप, ग्रुप 3 है.
Googlebot इमेज फ़ॉलो किया गया ग्रुप, ग्रुप 3 है. कोई भी खास googlebot-images ग्रुप नहीं है, इसलिए ज़्यादा सामान्य ग्रुप को फ़ॉलो किया गया है.
Googlebot News (इमेज क्रॉल करते समय) >फ़ॉलो किया गया ग्रुप, ग्रुप 1 है. इन इमेज को Googlebot News के लिए और इसी की मदद से क्रॉल किया गया है, इसलिए सिर्फ़ Googlebot News ग्रुप को फ़ॉलो किया गया है.
दूसरा-बॉट (वेब) फ़ॉलो किया गया ग्रुप, ग्रुप 2 है.
दूसरा-बॉट (समाचार) फ़ॉलो किया गया ग्रुप, ग्रुप 2 है. किसी मिलते-जुलते क्रॉलर के लिए कोई एंट्री होने पर, यह सिर्फ़ तभी मान्य होगा, जब यह खास तौर पर मेल खाता हो.

उदाहरण 2

इस robots.txt फ़ाइल के हिसाब से:

      user-agent: googlebot-news
      disallow: /fish

      user-agent: *
      disallow: /carrots

      user-agent: googlebot-news
      disallow: /shrimp
    

क्रॉलर इस तरह किसी खास उपयोगकर्ता एजेंट के काम के ग्रुप मर्ज करता है:

      user-agent: googlebot-news
      disallow: /fish
      disallow: /shrimp

      user-agent: *
      disallow: /carrots
    

Google के क्रॉलर और उपयोगकर्ता एजेंट स्ट्रिंग भी देखें.

ग्रुप के सदस्य के लिए नियम

इस सेक्शन में सिर्फ़ मानक ग्रुप-सदस्य के लिए नियम शामिल होते हैं. इन नियमों को क्रॉलर के लिए "निर्देश" भी कहा जाता है. ये निर्देश directive: [path] के रूप में बताए जाते हैं, जहां [path] ज़रूरी नहीं होता है. डिफ़ॉल्ट रूप से, तय किए गए क्रॉलर के लिए क्रॉल करने पर कोई प्रतिबंध नहीं है. बिना [path] वाले निर्देशों को अनदेखा किया जाता है.

अगर [path] वैल्यू बताई गई हो, तो उसे ऐसी वेबसाइट के रूट के मुताबिक देखा जाना चाहिए जिसके लिए robots.txt फ़ाइल ली गई थी (उसी प्रोटोकॉल, पोर्ट नंबर, होस्ट, और डोमेन नामों का इस्तेमाल करके). रूट तय करने के लिए पाथ का मान "/" से शुरू होना चाहिए. पाथ पर अंग्रेज़ी के छोटे-बड़े अक्षरों का असर पड़ता है. ज़्यादा जानकारी, नीचे "पाथ वैल्यू के आधार पर यूआरएल मिलान" सेक्शन में पाई जा सकती है.

अनुमति नहीं देना

disallow निर्देश उन पाथ के बारे में बताता है जिन्हें तय किए गए क्रॉलर की मदद से ऐक्सेस नहीं किया जाना चाहिए. जब कोई पाथ बताया नहीं गया हो, तो निर्देश को अनदेखा किया जाता है.

इस्तेमाल का तरीका:

disallow: [path]

अनुमति देना

allow निर्देश उन पाथ के बारे में बताता है जिन्हें तय किए गए क्रॉलर से ऐक्सेस किया जा सकता है. जब कोई पाथ बताया नहीं गया हो, तो निर्देश को अनदेखा किया जाता है.

इस्तेमाल का तरीका:

allow: [path]

पथ की वैल्यू के आधार पर यूआरएल का मिलान

पथ वैल्यू का इस्तेमाल यह तय करने के आधार के रूप में किया जाता है कि किसी साइट पर एक खास यूआरएल पर नियम लागू होता है या नहीं. वाइल्डकार्ड के अपवाद के साथ, पाथ का इस्तेमाल किसी यूआरएल (और उसी पाथ से शुरू होने वाले मान्य यूआरएल) की शुरुआत का मिलान करने के लिए किया जाता है. पाथ में गैर-7-बिट ASCII वर्णों को आरएफ़सी 3986 हर प्रतिशत-अपवाद वाले UTF-8 कोड में एन्कोड किए गए वर्णों के रूप में शामिल किया जा सकता है.

Google, Bing, और अन्य मुख्य सर्च इंजन पर पाथ की वैल्यू के लिए "वाइल्डकार्ड" के सीमित रूप काम करते हैं. इनके उदाहरण हैं:

  • * किसी भी मान्य वर्ण के शून्य या उससे ज़्यादा इंस्टेंस बताता है.
  • $ यूआरएल का आखिरी हिस्सा बताता है.
उदाहरण पाथ मिलान
/ रूट और किसी भी निचले स्तर के यूआरएल से मेल खाता है
/* / के बराबर. पीछे वाले वाइल्डकार्ड को अनदेखा किया जाता है.
/fish

मेल खाता है:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

मेल नहीं खाता है:

  • /Fish.asp
  • /catfish
  • /?id=fish
/fish*

/fish के बराबर. पीछे वाले वाइल्डकार्ड को अनदेखा किया जाता है.

मेल खाता है:

  • /fish
  • /fish.html
  • /fish/salmon.html
  • /fishheads
  • /fishheads/yummy.html
  • /fish.php?id=anything

मेल नहीं खाता है:

  • /Fish.asp
  • /catfish
  • /?id=fish
/fish/

पीछे के स्लैश का मतलब है कि यह इस फ़ोल्डर में किसी भी चीज़ से मेल खाता है.

मेल खाता है:

  • /fish/
  • /fish/?id=anything
  • /fish/salmon.htm

मेल नहीं खाता है:

  • /fish
  • /fish.html
  • /Fish/Salmon.asp
/*.php

मेल खाता है:

  • /filename.php
  • /folder/filename.php
  • /folder/filename.php?parameters
  • /folder/any.php.file.html
  • /filename.php/

मेल नहीं खाता है:

  • / (भले ही इसे /index.php से मैप किया जाए)
  • /windows.PHP
/*.php$

मेल खाता है:

  • /filename.php
  • /folder/filename.php

मेल नहीं खाता है:

  • /filename.php?parameters
  • /filename.php/
  • /filename.php5
  • /windows.PHP
/fish*.php

मेल खाता है:

  • /fish.php
  • /fishheads/catfish.php?parameters

मेल नहीं खाता है: /Fish.PHP

Google पर काम करने वाली ऐसी लाइनें जो किसी ग्रुप में शामिल नहीं हैं

Google, Bing, और अन्य लोकप्रिय सर्च इंजन sitemap का इस्तेमाल करते हैं, जैसा कि sitemaps.org पर बताया गया है.

इस्तेमाल का तरीका:

sitemap: [absoluteURL]

[absoluteURL] साइटमैप की लोकेशन या साइटमैप इंडेक्स फ़ाइल की लोकेशन बताता है. यह पूरी तरह-क्वालिफ़ाइड यूआरएल होना चाहिए, जिसमें प्रोटोकॉल और होस्ट की जानकारी शामिल हो. साथ ही, ऐसा ज़रूरी नहीं है कि इस यूआरएल के डेटा को कोड में बदला गया हो. यह भी ज़रूरी नहीं है कि यूआरएल और robots.txt फ़ाइल, दोनों एक ही होस्ट पर मौजूद हों. एक से ज़्यादा sitemap एंट्री हो सकती हैं. किसी भी ग्रुप का सदस्य न होने की वजह से, ये लाइनें किसी खास उपयोगकर्ता एजेंट के लिए नहीं होती हैं. इसका मतलब है कि अगर इन पर रोक नहीं लगाई गई है, तो इन्हें सभी क्रॉलर फ़ॉलो कर सकते हैं.

उदाहरण

user-agent: otherbot
disallow: /kale

sitemap: https://example.com/sitemap.xml
sitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml

ग्रुप में शामिल लाइनों की प्राथमिकता का क्रम

ग्रुप-सदस्य स्तर पर, खास तौर पर allow और disallow निर्देशों के लिए [path] एंट्री की लंबाई के मुताबिक सबसे खास नियम, कम खास (छोटे) नियम को बाहर कर देता है. अलग-अलग नियम होने के मामले में, जिनमें वाइल्डकार्ड वाले नियम भी शामिल होते हैं, सबसे कम पाबंदी वाले नियम का इस्तेमाल किया जाता है.

स्थितियों के उदाहरण
http://example.com/page

allow: /p

disallow: /

फ़ैसला: allow

http://example.com/folder/page

allow: /folder

disallow: /folder

फ़ैसला: allow

http://example.com/page.htm

allow: /page

disallow: /*.htm

फ़ैसला: undefined

http://example.com/

allow: /$

disallow: /

फ़ैसला: allow

http://example.com/page.htm

allow: /$

disallow: /

फ़ैसला: disallow

Robots.txt के मार्कअप की जांच करना

Robots.txt के मार्कअप की जांच करने के लिए, Google दो विकल्प देता है:

  1. Search Console में robots.txt फ़ाइल की जांच करने वाला टूल.
  2. Google की ओपन सोर्स robots.txt लाइब्रेरी, जिसका इस्तेमाल Google Search में भी किया जाता है.