robots.txt से जुड़े काम के नियम

यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:

काम आने वाले नियम
पूरी साइट को क्रॉल करने की अनुमति न दें

ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों.

User-agent: *
Disallow: /
किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं

किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें

सिर्फ़ googlebot-news ही पूरी साइट को क्रॉल कर सकता है.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें

हो सकता है कि Unnecessarybot साइट को क्रॉल न कर सकता हो, लेकिन बाकी सभी बॉट ऐसा कर सकते हों.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, https://example.com/useless_file.html पर मौजूद useless_file.html पेज और junk डायरेक्ट्री में मौजूद other_useless_file.html को अनुमति न दें.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें

क्रॉलर सिर्फ़ public सबडायरेक्ट्री को ऐक्सेस कर सकते हैं.

User-agent: *
Disallow: /
Allow: /public/

Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, dogs.jpg इमेज को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं

इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता.

User-agent: Googlebot-Image
Disallow: /

किसी खास फ़ाइल टाइप की फ़ाइलें क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, सभी .gif फ़ाइलों को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot
Disallow: /*.gif$

पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन Mediapartners-Google को अनुमति दें

ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन Mediapartners-Google वेब क्रॉलर अब भी यह तय करने के लिए उनका विश्लेषण कर सकता है कि आपकी साइट पर आने वाले लोगों को कौनसे विज्ञापन दिखाने हैं.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, * और $ वाइल्डकार्ड का इस्तेमाल करें

उदाहरण के लिए, सभी .xls फ़ाइलों को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot
Disallow: /*.xls$