robots.txt फ़ाइल के बारे में जानकारी

robots.txt फ़ाइल की मदद से, सर्च इंजन के क्रॉलर को यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन यूआरएल को ऐक्सेस कर सकता है. इस फ़ाइल का इस्तेमाल खास तौर पर इसलिए किया जाता है, ताकि आपकी साइट पर अनुरोधों का लोड ज़्यादा न हो. हालांकि, इसका इस्तेमाल Google को वेब पेज क्रॉल करने से रोकने के लिए नहीं किया जाता. Google को किसी वेब पेज को क्रॉल करने से रोकने के लिए, noindex का इस्तेमाल करके इंडेक्स करने पर रोक लगाएं. इसके अलावा, पेज को पासवर्ड की मदद से सुरक्षित भी किया जा सकता है.

Wix या Blogger जैसे किसी कॉन्टेंट मैनेजमेंट सिस्टम का इस्तेमाल करने पर, हो सकता है कि आपको सीधे अपनी robots.txt फ़ाइल में बदलाव करने की ज़रूरत ही न पड़े या आप उसमें बदलाव कर ही न पाएं. इसके बजाय, आपका कॉन्टेंट मैनेजमेंट सिस्टम, पेज की सेटिंग या किसी अन्य तरीके का इस्तेमाल करके, सर्च इंजन काे यह बता सकता है कि आपके पेज को क्रॉल करना है या नहीं.

अपने किसी पेज को सर्च इंजन पर दिखाने या छिपाने के लिए, अपने कॉन्टेंट मैनेजमेंट सिस्टम की, उन सेटिंग से जुड़े निर्देश खोजें जो यह तय करते हैं कि आपके पेज किसको दिखेंगे. उदाहरण के लिए, "Wix पेज को सर्च इंजन से छिपाना" खोजें.

robots.txt फ़ाइल क्यों इस्तेमाल की जाती है?

robots.txt फ़ाइल का इस्तेमाल खास तौर पर, आपकी साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए किया जाता है. आम तौर पर, फ़ाइल के टाइप के आधार पर, Google से फ़ाइल काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:

अलग-अलग फ़ाइल टाइप पर robots.txt फ़ाइल का असर

वेब पेज

अलग-अलग फ़ाइल टाइप पर robots.txt फ़ाइल का असर
वेब पेज	अगर आपको लगता है कि Google के क्रॉलर के अनुरोधों से आपके सर्वर पर लोड बढ़ जाएगा, तो क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, वेब पेजों (जैसे, एचटीएमएल, PDF या बिना किसी मीडिया वाले पेज के ऐसे अन्य फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) पर robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, साइट के एक जैसे या गैर-ज़रूरी पेजों को क्रॉल करने से रोकने के लिए भी इसका इस्तेमाल किया जा सकता है. चेतावनी: अपने वेब पेजों को Google के खोज नतीजों में दिखाने से रोकने के लिए, robots.txt फ़ाइल का इस्तेमाल न करें. इनमें, Google पर काम करने वाले PDF और टेक्स्ट फ़ॉर्मैट वाले अन्य फ़ॉर्मैट भी शामिल हैं. अगर अन्य पेजों पर ज़्यादा जानकारी वाले टेक्स्ट के साथ आपके पेज का लिंक दिया जाता है, तो Google आपके पेज पर जाए बिना भी उस यूआरएल को इंडेक्स कर सकता है. अगर आपको अपने पेज को खोज के नतीजों में नहीं दिखाना है, तो कोई दूसरा तरीका अपनाएं. जैसे, `noindex` या पासवर्ड की मदद से पेज को सुरक्षित रखना. अगर आपके वेब पेज पर robots.txt फ़ाइल की मदद से रोक लगी है, तब भी इसका यूआरएल खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजे में पेज की कोई जानकारी नहीं दिखेगी. ब्लॉक किए गए पेज में एम्बेड की गई इमेज फ़ाइलें, वीडियो फ़ाइलें, PDF के साथ-साथ वे फ़ाइलें भी क्रॉल के दौरान नहीं दिखेंगी जो एचटीएमएल नहीं हैं. ऐसा तब तक होगा, जब तक क्रॉल करने की अनुमति वाले दूसरे पेजों में इन पेजों का ज़िक्र नहीं किया जाता. अगर आपको खोज के नतीजों में अपने पेज के लिए इस तरह का कोई नतीजा दिखता है और आपको इसे ठीक करना है, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आपको अपने पेज को Search में दिखने से पूरी तरह रोकना है, तो दूसरा तरीका इस्तेमाल करें.
मीडिया फ़ाइल	साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. इसकी मदद से, इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों में दिखने से रोका जा सकता है. हालांकि, इसके इस्तेमाल से अन्य पेजों या लोगों को आपकी इमेज, वीडियो या ऑडियो फ़ाइल को लिंक करने से रोका नहीं जा सकता. इमेज को Google के खाेज नतीजों में दिखने से रोकने के बारे में ज़्यादा जानें. अपनी वीडियो फ़ाइलों को Google के खाेज नतीजाें में न दिखाने या उनका दिखना सीमित करने के तरीकों के बारे में ज़्यादा पढ़ें.
रिसॉर्स फ़ाइल	अगर आपको लगता है कि गैर-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों, जैसे रिसॉर्स के बिना पेज को लोड करने से, पेज पर कोई खास असर नहीं पड़ेगा, तो इन रिसॉर्स फ़ाइलों पर रोक लगाने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को पेज का कॉन्टेंट समझने में मुश्किल होगी, तो उन पर रोक न लगाएं. इस तरह की रोक लगाने से, Google उन पेजों का ठीक से विश्लेषण नहीं कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं.

अगर आपको लगता है कि Google के क्रॉलर के अनुरोधों से आपके सर्वर पर लोड बढ़ जाएगा, तो क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, वेब पेजों (जैसे, एचटीएमएल, PDF या बिना किसी मीडिया वाले पेज के ऐसे अन्य फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) पर robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, साइट के एक जैसे या गैर-ज़रूरी पेजों को क्रॉल करने से रोकने के लिए भी इसका इस्तेमाल किया जा सकता है.

चेतावनी: अपने वेब पेजों को Google के खोज नतीजों में दिखाने से रोकने के लिए, robots.txt फ़ाइल का इस्तेमाल न करें. इनमें, Google पर काम करने वाले PDF और टेक्स्ट फ़ॉर्मैट वाले अन्य फ़ॉर्मैट भी शामिल हैं.

अगर अन्य पेजों पर ज़्यादा जानकारी वाले टेक्स्ट के साथ आपके पेज का लिंक दिया जाता है, तो Google आपके पेज पर जाए बिना भी उस यूआरएल को इंडेक्स कर सकता है. अगर आपको अपने पेज को खोज के नतीजों में नहीं दिखाना है, तो कोई दूसरा तरीका अपनाएं. जैसे, noindex या पासवर्ड की मदद से पेज को सुरक्षित रखना.

अगर आपके वेब पेज पर robots.txt फ़ाइल की मदद से रोक लगी है, तब भी इसका यूआरएल खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजे में पेज की कोई जानकारी नहीं दिखेगी. ब्लॉक किए गए पेज में एम्बेड की गई इमेज फ़ाइलें, वीडियो फ़ाइलें, PDF के साथ-साथ वे फ़ाइलें भी क्रॉल के दौरान नहीं दिखेंगी जो एचटीएमएल नहीं हैं. ऐसा तब तक होगा, जब तक क्रॉल करने की अनुमति वाले दूसरे पेजों में इन पेजों का ज़िक्र नहीं किया जाता. अगर आपको खोज के नतीजों में अपने पेज के लिए इस तरह का कोई नतीजा दिखता है और आपको इसे ठीक करना है, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आपको अपने पेज को Search में दिखने से पूरी तरह रोकना है, तो दूसरा तरीका इस्तेमाल करें.

मीडिया फ़ाइल

साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. इसकी मदद से, इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों में दिखने से रोका जा सकता है. हालांकि, इसके इस्तेमाल से अन्य पेजों या लोगों को आपकी इमेज, वीडियो या ऑडियो फ़ाइल को लिंक करने से रोका नहीं जा सकता.

रिसॉर्स फ़ाइल अगर आपको लगता है कि गैर-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों, जैसे रिसॉर्स के बिना पेज को लोड करने से, पेज पर कोई खास असर नहीं पड़ेगा, तो इन रिसॉर्स फ़ाइलों पर रोक लगाने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को पेज का कॉन्टेंट समझने में मुश्किल होगी, तो उन पर रोक न लगाएं. इस तरह की रोक लगाने से, Google उन पेजों का ठीक से विश्लेषण नहीं कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं.

यह समझना कि robots.txt फ़ाइल कब काम करती है और कब नहीं

robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, आपको यह पता होना चाहिए कि यूआरएल पर रोक लगाने वाला यह तरीका, कब काम करता है और कब नहीं. अपने लक्ष्यों और स्थिति के आधार पर, अपने यूआरएल को वेब पर खोज के नतीजों में दिखने से रोकने के लिए, आपको अन्य तरीकों की भी ज़रूरत पड़ सकती है.

ऐसा हो सकता है कि robots.txt के नियम सभी सर्च इंजन पर काम न करें.
robots.txt फ़ाइलों में दिए गए निर्देश, आपकी साइट पर क्रॉलर के काम करने के तरीके पर लागू नहीं होते. इन निर्देशों के हिसाब से काम करना है या नहीं, यह क्रॉलर पर निर्भर करता है. वैसे तो Googlebot और अन्य जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए निर्देशों के हिसाब से काम करते हैं. हालांकि, यह ज़रूरी नहीं है कि दूसरे वेब क्रॉलर भी ऐसा करें. इसलिए, अगर आपको किसी जानकारी को वेब क्रॉलर से सुरक्षित रखना है, तो वेब क्रॉलर पर रोक लगाने के अन्य तरीकों का इस्तेमाल करें. जैसे, सर्वर पर मौजूद निजी फ़ाइलों को पासवर्ड की मदद से सुरक्षित करना.
अलग-अलग क्रॉलर, सिंटैक्स का अलग-अलग मतलब निकालते हैं.
हालांकि जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए नियमों का पालन करते हैं, लेकिन हर क्रॉलर नियमों को अलग तरह से समझ सकता है. आपके पास अलग-अलग वेब क्रॉलर के लिए, सही सिंटैक्स की जानकारी होनी चाहिए. ऐसा हो सकता है कि कुछ वेब क्रॉलर, कुछ खास तरह के निर्देश न समझ पाएं.
अगर किसी पेज को दूसरी साइटों से लिंक किया गया है, तो robots.txt फ़ाइल में शामिल नहीं किए जाने पर भी उस पेज को इंडेक्स किया जा सकता है.
Google, robots.txt फ़ाइल का इस्तेमाल करके ब्लॉक किए गए कॉन्टेंट को क्रॉल या इंडेक्स नहीं करता. हालांकि, अगर ब्लॉक किए गए यूआरएल को वेब पर दूसरी साइटों से लिंक किया गया है, तो उसे खोजा और इंंडेक्स किया जा सकता है. इस वजह से, यूआरएल पता और पेज के लिंक में ऐंकर टेक्स्ट जैसी सार्वजनिक तौर पर मिलने वाली अन्य जानकारी, अब भी Google के खोज नतीजों में दिख सकती है. अपने यूआरएल को Google के खोज नतीजों में दिखने से रोकने के लिए, अपने सर्वर पर मौजूद फ़ाइलों को पासवर्ड की मदद से सुरक्षित करें या noindex meta टैग या रिस्पॉन्स हेडर का इस्तेमाल करें. इसके अलावा, पेज को पूरी तरह से हटाया भी जा सकता है.

robots.txt फ़ाइल बनाना या अपडेट करना

अगर आपने तय कर लिया है कि आपको robots.txt फ़ाइल की ज़रूरत है, तो robots.txt फ़ाइल बनाने का तरीका जानें. इसके अलावा, अगर आपके पास पहले से कोई robots.txt फ़ाइल है, तो उसे अपडेट करने का तरीका जानें.

क्या आपको ज़्यादा जानना है? यहां दिए गए लेख पढ़ें: