robots.txt फ़ाइल बनाना

robots.txt फ़ाइल का इस्तेमाल करके, आप तय कर सकते हैं कि क्रॉलर आपकी साइट पर किन फ़ाइलों को ऐक्सेस करें. robots.txt फ़ाइल आपकी साइट के रूट में होती है. जैसे, www.example.com साइट के लिए, robots.txt फ़ाइल www.example.com/robots.txt में मौजूद होती है. robots.txt, प्लेन टेक्स्ट वाली ऐसी फ़ाइल है जो रोबोट एक्सक्लूज़न स्टैंडर्ड के मुताबिक काम करती है. robots.txt फ़ाइल में एक या एक से ज़्यादा नियम होते हैं. हर नियम, क्रॉलर को वेबसाइट में कोई खास फ़ाइल पाथ ऐक्सेस करने से रोकता है या उसकी अनुमति देता है. आम तौर पर, साइट पर डिफ़ॉल्ट रूप से सभी फ़ाइलें क्रॉल की जाती हैं. ऐसा तब तक होता है, जब तक आप robot.txt फ़ाइल में इस पर रोक न लगा दें.

यहां दो नियमों वाली एक सामान्य robots.txt फ़ाइल दी गई है:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

यहां बताया गया है कि robots.txt फ़ाइल का क्या मतलब है:

  1. http://example.com/nogooglebot/ से शुरू होने वाले किसी भी यूआरएल को, Googlebot नाम का उपयोगकर्ता एजेंट क्रॉल नहीं कर सकता.
  2. बाकी सभी उपयोगकर्ता एजेंट, पूरी साइट को क्रॉल कर सकते हैं. इसे robots.txt फ़ाइल में शामिल नहीं करने पर भी नतीजा यही होता है. डिफ़ॉल्ट रूप से सभी उपयोगकर्ता एजेंट, पूरी साइट क्रॉल कर सकते हैं.
  3. इस साइट की साइटमैप फ़ाइल, http://www.example.com/sitemap.xml पर मौजूद है.

इससे जुड़े और उदाहरणों के लिए, सिंटैक्स सेक्शन देखें.

robots.txt फ़ाइल बनाने से जुड़े बुनियादी दिशा-निर्देश

इन चार चरणों में ऐसी robots.txt फ़ाइल बनाई जा सकती है जिसे सभी ऐक्सेस कर सकें और जो सबके लिए उपयोगी हो:

  1. robots.txt नाम की फ़ाइल बनाना.
  2. robots.txt फ़ाइल में नियम जोड़ना.
  3. robots.txt फ़ाइल को अपनी साइट पर अपलोड करना.
  4. robots.txt फ़ाइल की जांच करना.

robots.txt फ़ाइल बनाना

robots.txt फ़ाइल बनाने के लिए, आप तकरीबन सभी टेक्स्ट एडिटर का इस्तेमाल कर सकते हैं. उदाहरण के लिए, Notepad, TextEdit, vi, और emacs जैसे टेक्स्ट एडिटर का इस्तेमाल करके, मान्य robots.txt फ़ाइलें बनाई जा सकती हैं. किसी वर्ड प्रोसेसर का इस्तेमाल न करें. वर्ड प्रोसेसर अक्सर अपने फ़ॉर्मैट में ही फ़ाइलें सेव करते हैं. ये प्रोसेसर, कर्ली कोट (“ ”) जैसे अनचाहे वर्ण भी जोड़ सकते हैं. इनसे क्रॉलर को, क्रॉल करते समय परेशानियां हो सकती हैं. अगर फ़ाइल सेव करने के दौरान आपको मैसेज दिखता है कि फ़ाइल को UTF-8 कोड में बदलकर सेव करें, तो ऐसा ही करें.

फ़ॉर्मैट और जगह से जुड़े नियम:

  • फ़ाइल का नाम robots.txt होना चाहिए.
  • आपकी साइट में सिर्फ़ एक robots.txt फ़ाइल हो सकती है.
  • robots.txt फ़ाइल उस वेबसाइट होस्ट के रूट में मौजूद होनी चाहिए जिस पर वह लागू होती है. उदाहरण के लिए, https://www.example.com/ के नीचे दिए गए सभी यूआरएल की क्रॉलिंग को कंट्रोल करने के लिए, robots.txt फ़ाइल https://www.example.com/robots.txt में मौजूद होनी चाहिए. इसे किसी दूसरी सबडायरेक्ट्री (उदाहरण के लिए, https://example.com/pages/robots.txt) में नहीं रखा जा सकता. अगर आपको नहीं पता कि अपनी वेबसाइट के रूट को कैसे ऐक्सेस करना है या इसके लिए आपको अनुमतियों की ज़रूरत है, तो वेब होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें. वेबसाइट के रूट को ऐक्सेस नहीं कर पाने पर, क्रॉलिंग रोकने के लिए मेटा टैग जैसे किसी दूसरे तरीके का इस्तेमाल करें.
  • robots.txt फ़ाइल, सबडोमेन (उदाहरण के लिए, https://website.example.com/robots.txt) या बिना मानक वाले पोर्ट (उदाहरण के लिए, http://example.com:8181/robots.txt) पर लागू हो सकती है.
  • यह ज़रूरी है कि robots.txt फ़ाइल को UTF-8 कोड वाली टेक्स्ट फ़ाइल में बदला गया हो. इसमें ASCII वर्ण वाली फ़ाइल भी शामिल होती है. Google उन वर्णों को अनदेखा कर सकता है जो UTF-8 रेंज का हिस्सा नहीं हैं. ऐसा होने पर, robots.txt फ़ाइल के नियम अमान्य हो सकते हैं.

robots.txt फ़ाइल में नियम जोड़ना

नियम, क्रॉलर के लिए निर्देश होते हैं. इनसे यह तय होता है कि वे आपकी साइट के किन हिस्सों को क्रॉल कर सकते हैं. अपनी robots.txt फ़ाइल में नियम जोड़ते समय इन दिशा-निर्देशों का पालन करें:

  • robots.txt फ़ाइल में एक या एक से ज़्यादा ग्रुप होते हैं.
  • हर ग्रुप में कई नियम या डायरेक्टिव (यानी निर्देश) हाेते हैं. हालांकि, एक लाइन में एक ही डायरेक्टिव होता है. हर ग्रुप, एक User-agent लाइन से शुरू होता है, जिससे ग्रुप का टारगेट तय होता है.
  • ग्रुप में यह जानकारी दिखेगी:
    • ग्रुप किस उपयोगकर्ता एजेंट पर लागू होता है.
    • वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस कर सकता है.
    • वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस नहीं कर सकता है.
  • क्रॉलर, ग्रुप को ऊपर से नीचे की ओर प्रोसेस करते हैं. कोई भी उपयोगकर्ता एजेंट, सिर्फ़ एक नियम सेट से मेल खा सकता है. यह नियम सेट, दिए गए उपयोगकर्ता एजेंट से सबसे ज़्यादा मेल खाने वाला पहला नियम सेट होता है.
  • डिफ़ॉल्ट रूप से, ऐसा माना जाता है कि कोई उपयोगकर्ता एजेंट, किसी भी ऐसे पेज या डायरेक्ट्री को क्रॉल कर सकता है जिस पर क्रॉलिंग रोकने के लिए, disallow नियम लागू न किया गया हो.
  • नियम, केस-सेंसिटिव (बड़े और छोटे अक्षरों में अंतर) होते हैं. उदाहरण के लिए, disallow: /file.asp, https://www.example.com/file.asp पर लागू होता है, लेकिन https://www.example.com/FILE.asp पर नहीं.
  • किसी भी टिप्पणी की शुरुआत में, # वर्ण लगा होता है.

Google के क्रॉलर, robots.txt फ़ाइलों में यहां बताए गए डायरेक्टिव के हिसाब से काम करते हैं:

  • user-agent: [हर ग्रुप के लिए, एक या एक से ज़्यादा डायरेक्टिव की ज़रूरत होती है] डायरेक्टिव की मदद से, उस ऑटोमैटिक क्लाइंट का नाम पता चलता है जिस पर यह नियम लागू होता है. ऑटोमैटिक क्लाइंट को सर्च इंजन के क्रॉलर के तौर पर जाना जाता है. यह किसी भी नियम के ग्रुप की पहली लाइन होती है. Google के उपयोगकर्ता एजेंट के नाम, Google के उपयोगकर्ता एजेंट की सूची में दिए गए हैं. तारे के निशान (*) का इस्तेमाल करने पर, यह AdsBot क्रॉलर छोड़कर, सभी क्रॉलर दिखाएगा. AdsBot क्रॉलर को देखने के लिए, उनके नाम अलग से लिखने होंगे. उदाहरण के लिए:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all but AdsBot crawlers
    User-agent: *
    Disallow: /
  • disallow: [हर नियम में कम से कम एक या एक से ज़्यादा disallow या allow की एंट्री] रूट डोमेन से जुड़ी डायरेक्ट्री या पेज, जिसे आप उपयोगकर्ता एजेंट से क्रॉल नहीं कराना चाहते. अगर यह नियम किसी पेज के बारे में है, तो इसका पूरा नाम वैसा ही होना चाहिए जैसा ब्राउज़र में दिखता है. यह / वर्ण से शुरू होना चाहिए. साथ ही, अगर यह नियम किसी डायरेक्ट्री के बारे में है, तो इसका नाम / के निशान के साथ खत्म होना चाहिए.
  • allow: [हर नियम में कम से कम एक या एक से ज़्यादा disallow या allow की एंट्री] रूट डोमेन से जुड़ी ऐसी डायरेक्ट्री या पेज, जिसे अभी बताए गए उपयोगकर्ता एजेंट से क्रॉल कराया जा सकता है. इसका इस्तेमाल disallow डायरेक्टिव को बदलने के लिए किया जाता है. इससे, क्रॉल करने से रोकी गई डायरेक्ट्री में, किसी सबडायरेक्ट्री या पेज को क्रॉल करने की अनुमति दी जा सकती है. अगर यह नियम किसी एक पेज के लिए है, तो पेज का पूरा नाम वैसा ही डालें जैसा ब्राउज़र में दिखता है. डायरेक्ट्री के मामले में / का निशान, नियम के आखिर में होना चाहिए.
  • sitemap: [ज़रूरी नहीं, हर फ़ाइल के लिए शून्य या उससे ज़्यादा] वह जगह जहां आपने इस वेबसाइट का साइटमैप अपलोड किया है. साइटमैप यूआरएल, पूरी तरह क्वालिफ़ाइड यूआरएल होना चाहिए; Google, http/https/www.non-www के विकल्पों काे नहीं मानता और उनकी जांच नहीं करता है. साइटमैप, यह बताने का अच्छा तरीका हैं कि Google को आपकी साइट पर मौजूद कौनसा कॉन्टेंट क्रॉल करना चाहिए, बजाय इसके कि वह कौनसा कॉन्टेंट क्रॉल कर सकता है और कौनसा नहीं. साइटमैप के बारे में ज़्यादा जानें. उदाहरण:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

sitemap को छोड़कर सभी डायरेक्टिव, प्रीफ़िक्स, सफ़िक्स या पूरी स्ट्रिंग के लिए, * वाइल्डकार्ड के साथ इस्तेमाल किए जा सकते हैं.

इन डायरेक्टिव से मेल न खाने वाली लाइनों को नज़रअंदाज़ कर दिया जाता है.

हर डायरेक्टिव के बारे में पूरी जानकारी के लिए, हमारे पेज Google, robots.txt के निर्देशों को कैसे समझता है पर जाएं.

robots.txt फ़ाइल अपलोड करना

अपनी robots.txt फ़ाइल को कंप्यूटर पर सेव करने के बाद, आप इसे सर्च इंजन के क्रॉलर से क्रॉल करा सकते हैं. हालांकि, ऐसा कोई टूल नहीं है जो इस काम में आपकी मदद कर सके, क्योंकि robots.txt फ़ाइल को साइट पर अपलोड करने का तरीका, आपकी साइट और सर्वर के हिसाब से तय होता है. इसके लिए, होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें या उनके दस्तावेज़ ढूंढें. उदाहरण के लिए, "Infomaniak की फ़ाइलें अपलोड करें" ढूंढें.

robots.txt फ़ाइल अपलोड करने के बाद, देखें कि क्या उसे सार्वजनिक तौर पर ऐक्सेस किया जा सकता है. साथ ही, देखें कि क्या Google उसे पार्स कर सकता है.

robots.txt मार्कअप की जांच करना

यह जांचने के लिए कि आपकी अपलोड की गई नई robots.txt फ़ाइल सार्वजनिक रूप से ऐक्सेस की जा सकती है या नहीं, अपने ब्राउज़र में एक निजी ब्राउज़िंग विंडो (या ऐसा ही कुछ) खोलें और robots.txt फ़ाइल की जगह पर जाएं. उदाहरण के लिए, https://example.com/robots.txt. अगर आपको अपनी robots.txt फ़ाइल का कॉन्टेंट दिखता है, तो इसका मतलब है कि आप मार्कअप की जांच करने के लिए तैयार हैं.

Robots.txt के मार्कअप की जांच करने के लिए, Google दो विकल्प देता है:

  1. Search Console में मौजूद robots.txt फ़ाइल की जांच करने वाला टूल. आप इस टूल का इस्तेमाल, सिर्फ़ उन robots.txt फ़ाइलों के लिए कर सकते हैं जिन्हें आपकी साइट पर पहले से ऐक्सेस किया जा सकता है.
  2. अगर आप डेवलपर हैं, तो Google की ओपन सोर्स robots.txt लाइब्रेरी देखें और उसका इस्तेमाल करें. Google Search में भी इस लाइब्रेरी का इस्तेमाल होता है. इस टूल का इस्तेमाल करके, आप अपने कंप्यूटर पर ही robots.txt फ़ाइलों की जांच कर सकते हैं.

Google को robots.txt फ़ाइल सबमिट करना

robots.txt फ़ाइल के अपलोड होने और उसकी जांच पूरी होने के बाद, Google के क्रॉलर अपने-आप आपकी robots.txt फ़ाइल को ढूंढकर, उसका इस्तेमाल करना शुरू कर देंगे. आपको कुछ भी नहीं करना होगा. अगर आपने अपनी robots.txt फ़ाइल अपडेट की है और आप जल्द से जल्द Google की कैश मेमोरी में सेव की गई कॉपी को रीफ़्रेश करना चाहते हैं, तो अपडेट की गई robots.txt फ़ाइल को सबमिट करने का तरीका जानें.

robots.txt से जुड़े काम आने वाले नियम

यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:

काम आने वाले नियम
पूरी वेबसाइट क्रॉल करने पर रोक लगाएं

ध्यान रखें कि कुछ मामलों में, वेबसाइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों.


User-agent: *
Disallow: /
किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं

किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है.


User-agent: *
Disallow: /calendar/
Disallow: /junk/
सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें

सिर्फ़ googlebot-news पूरी साइट को क्रॉल कर सकता है.


User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें

हो सकता है कि Unnecessarybot साइट को क्रॉल न कर सकता हो, लेकिन बाकी सभी बॉट ऐसा कर सकते हों.


User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, useless_file.html पेज को क्रॉल करने पर रोक लगाएं.


User-agent: *
Disallow: /useless_file.html

Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, dogs.jpg इमेज को क्रॉल करने पर रोक लगाएं.


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं

इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता.


User-agent: Googlebot-Image
Disallow: /

किसी खास तरह की फ़ाइलें क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, सभी .gif फ़ाइलों को क्रॉल करने पर रोक लगाएं.


User-agent: Googlebot
Disallow: /*.gif$

पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन Mediapartners-Google को अनुमति दें

ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन Mediapartners-Google वेब क्रॉलर अब भी यह तय करने के लिए उनका विश्लेषण कर सकता है कि आपकी साइट पर आने वाले लोगों को कौनसे विज्ञापन दिखाने हैं.


User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, $ का इस्तेमाल करें

उदाहरण के लिए, सभी .xls फ़ाइलों को क्रॉल करने पर रोक लगाएं.


User-agent: Googlebot
Disallow: /*.xls$