robots.txt से जुड़े काम के नियम
यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:
| काम आने वाले नियम | |
|---|---|
| पूरी साइट को क्रॉल करने की अनुमति न दें |
ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों. User-agent: * Disallow: / |
| किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं |
किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें |
सिर्फ़ User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें |
हो सकता है कि User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें |
क्रॉलर सिर्फ़ User-agent: * Disallow: / Allow: /public/ |
|
Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं |
इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता. User-agent: Googlebot-Image Disallow: / |
|
किसी खास फ़ाइल टाइप की फ़ाइलें क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.gif$ |
|
पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन |
ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, * और $ वाइल्डकार्ड
का इस्तेमाल करें
|
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.xls$ |