robots.txt फ़ाइल के बारे में जानकारी

robots.txt फ़ाइल क्या हाेती है?

robots.txt फ़ाइल की मदद से सर्च इंजन के क्रॉलर काे यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन पेजाें या फ़ाइलाें काे क्रॉल करने का अनुरोध कर सकता है या किन पेजों या फ़ाइलाें काे क्रॉल करने का अनुरोध नहीं कर सकता. इसका इस्तेमाल, मुख्य रूप से आपकी साइट को क्रॉल करने के अनुरोधों को कम करने के लिए किया जाता है. यह Google को वेब पेज क्रॉल करने से रोकने के लिए नहीं है. Google को वेब पेज क्रॉल करने से रोकने के लिए, आपको noindex निर्देश का इस्तेमाल करना चाहिए. इसके अलावा, आप पेज को पासवर्ड से सुरक्षित भी कर सकते हैं.

robots.txt फ़ाइल किसलिए इस्तेमाल की जाती है?

robots.txt का इस्तेमाल खास तौर पर, आपकी साइट पर आने वाले क्रॉलर को प्रबंधित करने के लिए किया जाता है. आम तौर पर, फ़ाइल टाइप के आधार पर, Google से पेज काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:

पेज किस तरह का है ट्रैफ़िक प्रबंधित करता है Google से छिपाता है जानकारी
वेब पेज

वेब पेजाें (एचटीएमएल, पीडीएफ़ या दूसरे बिना किसी मीडिया वाले पेज के ऐसे फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) के लिए robots.txt का इस्तेमाल किया जा सकता है. इससे, क्रॉलर के ट्रैफ़िक को प्रबंधित किया जा सकता है. ऐसा तब किया जा सकता है, जब आपकाे लगता है कि Google के क्रॉल करने के अनुराेधाें से आपके सर्वर में समस्या हो जाएगी. इसके अलावा, साइट के एक जैसे या गैर-ज़रूरी पेजाें काे क्रॉल करने में लगने वाले समय काे बचाने के लिए भी आप ऐसा कर सकते हैं.

robots.txt का इस्तेमाल, अपने वेब पेजों को Google के खोज नतीजों से छिपाने के लिए नहीं करना चाहिए. ऐसा इसलिए है, क्योंकि अगर अन्य पेजों पर ज़्यादा जानकारी वाले टेक्स्ट के साथ आपके पेज का लिंक दिया जाता है, ताे आपके पेज पर जाए बिना भी उसे इंडेक्स किया जा सकता है. अगर आप अपने पेज को खोज के नतीजों में नहीं दिखाना चाहते, तो पासवर्ड सुरक्षा या noindex निर्देश जैसे तरीकों का इस्तेमाल करें.

अगर आपके वेब पेज पर robots.txt फ़ाइल के ज़रिए रोक लगी है, तब भी वह खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजाें में पेज की काेई जानकारी नहीं हाेगी और यह कुछ इस तरह दिखेगा. वेब पेज में मौजूद इमेज फ़ाइलें, वीडियो फ़ाइलें, पीडीएफ़, और बिना एचटीएमएल वाली दूसरी फ़ाइलें नहीं दिखेंगी. अगर आपको अपने पेज के लिए ऐसे खोज के नतीजे दिखते हैं और आप इसे ठीक करना चाहते हैं, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आप अपने पेज को खोज के नतीजाें से पूरी तरह छिपाना चाहते हैं, तो दूसरा तरीका इस्तेमाल करें.

मीडिया फ़ाइल

साइट पर आने वाले क्रॉलर को प्रबंधित करने के साथ-साथ इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों पर दिखने से रोकने के लिए, robots.txt का इस्तेमाल करें. (ध्यान दें कि इससे दूसरे पेजाें या उपयोगकर्ताओं काे आपकी इमेज/वीडियो/ऑडियो फ़ाइल से लिंक करने से नहीं रोका जाएगा.)

रिसॉर्स फ़ाइल अगर आपको लगता है कि गैर-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों जैसे रिसॉर्स के बिना पेज को लोड करने से पेज पर कोई खास असर नहीं पड़ेगा, तो आप इन रिसॉर्स पर रोक लगाने के लिए robots.txt का इस्तेमाल कर सकते हैं. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को यह पेज समझने में मुश्किल होती है, तो आपको उन पर रोक नहीं लगानी चाहिए. इस तरह की रोक लगाने से, Google उन पेजों की सही तरह से जांच कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं.

मैं साइट होस्ट करने वाली कंपनी की सेवा का इस्तेमाल करता/करती हूं

अगर आप साइट होस्ट करने वाली किसी कंपनी, जैसे कि WIX, Drupal या Blogger की सेवा इस्तेमाल करते हैं, तो शायद आपको अपनी robots.txt फ़ाइल में सीधे तौर पर बदलाव करने की ज़रूरत न हो (या हो सकता है कि आपके पास बदलाव करने की सुविधा न हो). इसके बजाय, पेज की सेटिंग या दूसरे तरीकाें का इस्तेमाल करके, साइट को होस्ट करने वाली कंपनी, सर्च इंजन काे यह बता सकती है कि आपका पेज क्रॉल करना है या नहीं.

यह देखने के लिए कि क्या Google ने आपका पेज क्रॉल किया है, Google में पेज का यूआरएल खोजें.

अगर आप अपने पेज को सर्च इंजन से छिपाना चाहते हैं, तो पेज के लिए लॉग इन करने की ज़रूरी शर्तें जोड़ें. अगर आप पेज को सर्च इंजन पर दिखाना चाहते हैं, तो पेज के लिए लॉग इन करने की ज़रूरी शर्तें हटाएं. साथ ही, सर्च इंजन में अपने पेज के दिखने की स्थिति काे बदलने का तरीका जानने के लिए, Google पर इस बारे में खोजें. उदाहरण के लिए: wix पर, सर्च इंजन से पेज छिपाना

robots.txt फ़ाइल की सीमाओं को समझना

robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, आपको यूआरएल पर रोक लगाने वाले इस तरीके की सीमाओं के बारे में पता होना चाहिए. कई बार अपने यूआरएल को वेब पर दिखने से रोकने के लिए, आपको अन्य तरीकों की भी ज़रूरत हो सकती है.

  • ऐसा हो सकता है कि Robots.txt डायरेक्टिव सभी सर्च इंजन पर काम न करें
    robots.txt फ़ाइलों में दिए गए निर्देश, क्रॉलर के काम करने के तरीके को नियंत्रित नहीं कर सकते. इन निर्देशों का पालन करना या न करना, क्रॉलर पर निर्भर करता है. Googlebot और दूसरे जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए निर्देशों का पालन करते हैं. हालांकि, यह ज़रूरी नहीं कि दूसरे वेब क्रॉलर भी ऐसा करें. इसलिए, अगर आप वेब क्रॉलर से जानकारी सुरक्षित रखना चाहते हैं, तो रोक लगाने के दूसरे तरीके इस्तेमाल करें, जैसे कि सर्वर की निजी फ़ाइलों को पासवर्ड की मदद से सुरक्षित करना.
  • अलग-अलग क्रॉलर, अलग-अलग सिंटैक्स का इस्तेमाल करते हैं
    हालांकि, जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए दिशा-निर्देशों का पालन करते हैं, लेकिन हर क्रॉलर दिशा-निर्देशों को अलग तरह से समझ सकता है. आपको अलग-अलग वेब क्रॉलर के लिए, सही सिंटैक्स पता होने चाहिए. ऐसा हो सकता है कि कुछ वेब क्रॉलर, कुछ खास तरह के निर्देश न समझ पाएं.
  • robots.txt फ़ाइल के ज़रिए रोक लगे पेज को तब भी इंंडेक्स किया जा सकता है, जब वह दूसरी साइटों से लिंक हो
    Google, robots.txt के ज़रिए ब्लॉक किए गए कॉन्टेंट को क्रॉल या इंंडेक्स नहीं करेगा. हालांकि, अगर यूआरएल को वेब पर किसी दूसरी जगह से लिंक किया गया है, तो उसे खोजा और इंंडेक्स किया जा सकता है. इसकी वजह से यूआरएल पता और पेज के लिंक में ऐंकर टेक्स्ट जैसी सार्वजनिक तौर पर मिल सकने वाली अन्य जानकारी, अब भी Google के खोज नतीजों में दिख सकती है. अपने यूआरएल को Google के खोज नतीजों में दिखने से रोकने के लिए, सर्वर पर मौजूद फ़ाइलों को पासवर्ड से सुरक्षित करें या noindex मेटा टैग या रिस्पॉन्स हेडर का इस्तेमाल करें (या पेज को पूरी तरह से हटाएं).
ध्यान दें: अगर आप क्रॉल करने और इंंडेक्स करने के कई दिशा-निर्देश एक साथ इस्तेमाल करते हैं, तो हो सकता है कि कुछ दिशा-निर्देशों की वजह से दूसरे दिशा-निर्देश काम न करें. आप इन दिशा-निर्देशों को अच्छी तरह से कॉन्फ़िगर करने के तरीके जान सकते हैं. इसके लिए Google Developers के दस्तावेज़ में, एक साथ क्रॉल करने और इंडेक्स करने / नतीजे दिखाने से जुड़ा दिशा-निर्देश सेक्शन पढ़ें.

यह जांचना कि robots.txt के ज़रिए पेज पर रोक लगी है या नहीं

आप यह जांच कर सकते हैं कि किसी पेज या संसाधन पर robots.txt के ज़रिए राेक लगी है या नहीं.

noindex के डायरेक्टिव के बारे में जांच करने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें.