robots.txt से जुड़े काम के नियम

यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:

काम आने वाले नियम
पूरी साइट को क्रॉल करने की अनुमति न दें	ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों. ध्यान दें: अलग-अलग तरह के AdsBot क्रॉलर को क्रॉल करने से नहीं रोका गया है. इन क्रॉलर को रोकने के लिए, इनका नाम साफ़-साफ़ बताना ज़रूरी है. User-agent: * Disallow: /
किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं	किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है. चेतावनी: याद रखें कि निजी कॉन्टेंट का ऐक्सेस रोकने के लिए, robots.txt का इस्तेमाल न करें. इसकी जगह, पुष्टि करने के सही तरीके का इस्तेमाल करें. उन यूआरएल को क्रॉल किए बिना भी इंडेक्स किया जा सकता है जिन्हें robots.txt फ़ाइल ने अनुमति नहीं दी है. साथ ही, robots.txt फ़ाइल को कोई भी व्यक्ति देख सकता है. इससे, आपके निजी कॉन्टेंट की जगह से जुड़ी जानकारी ज़ाहिर हो सकती है. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें	सिर्फ़ `googlebot-news` ही पूरी साइट को क्रॉल कर सकता है. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें	हो सकता है कि `Unnecessarybot` साइट को क्रॉल न कर सकता हो, लेकिन बाकी सभी बॉट ऐसा कर सकते हों. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं	उदाहरण के लिए, `https://example.com/useless_file.html` पर मौजूद `useless_file.html` पेज और `junk` डायरेक्ट्री में मौजूद `other_useless_file.html` को अनुमति न दें. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें	क्रॉलर सिर्फ़ `public` सबडायरेक्ट्री को ऐक्सेस कर सकते हैं. User-agent: * Disallow: / Allow: /public/
Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं	उदाहरण के लिए, `dogs.jpg` इमेज को क्रॉल करने पर रोक लगाएं. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं	इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता. User-agent: Googlebot-Image Disallow: /
किसी खास फ़ाइल टाइप की फ़ाइलें क्रॉल करने पर रोक लगाएं	उदाहरण के लिए, सभी `.gif` फ़ाइलों को क्रॉल करने पर रोक लगाएं. User-agent: Googlebot Disallow: /*.gif$
पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन `Mediapartners-Google` को अनुमति दें	ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन `Mediapartners-Google` वेब क्रॉलर अब भी यह तय करने के लिए उनका विश्लेषण कर सकता है कि आपकी साइट पर आने वाले लोगों को कौनसे विज्ञापन दिखाने हैं. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, `*` और `$` वाइल्डकार्ड का इस्तेमाल करें	उदाहरण के लिए, सभी `.xls` फ़ाइलों को क्रॉल करने पर रोक लगाएं. User-agent: Googlebot Disallow: /*.xls$