robots.txt के बारे में जानकारी

robots.txt फ़ाइल की मदद से, सर्च इंजन के क्रॉलर को यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन यूआरएल को ऐक्सेस कर सकता है. इसका इस्तेमाल खास तौर पर इसलिए किया जाता है कि आपकी साइट पर अनुरोधों का लोड ज़्यादा न हो जाए.Google को वेब पेज क्रॉल करने से रोकने के लिए, इसका इस्तेमाल नहीं किया जाता. Google को वेब पेज क्रॉल करने से रोकने के लिए, noindex का इस्तेमाल करके इंडेक्स करने पर रोक लगाएं या पेज को पासवर्ड से सुरक्षित करें.

robots.txt फ़ाइल क्यों इस्तेमाल की जाती है?

robots.txt फ़ाइल का इस्तेमाल खास तौर पर, आपकी साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए किया जाता है. आम तौर पर, फ़ाइल के टाइप के आधार पर, Google से फ़ाइल काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:

अलग-अलग फ़ाइल टाइप पर robots.txt फ़ाइल का असर
वेब पेज

अगर आपको लगता है कि आपके सर्वर पर Google के क्रॉलर के अनुरोधों से लोड बढ़ जाएगा, तो क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए आप वेब पेजों (जैसे, एचटीएमएल, PDF या बिना किसी मीडिया वाले पेज के ऐसे अन्य फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) पर robots.txt फ़ाइल का इस्तेमाल कर सकते हैं. इसके अलावा, साइट के एक जैसे या गै़र-ज़रूरी पेजों को क्रॉल करने से रोकने के लिए भी इसका इस्तेमाल किया जा सकता है.

अगर आपके वेब पेज पर robots.txt फ़ाइल के ज़रिए रोक लगी है, तब भी इसका यूआरएल खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजे में पेज की कोई जानकारी नहीं दिखेगी. वेब पेज में मौजूद इमेज फ़ाइलें, वीडियो फ़ाइलें, और पीडीएफ़ के साथ-साथ वे फ़ाइलें भी नहीं दिखेंगी जो एचटीएमएल नहीं हैं. अगर आपको खोज के नतीजों में अपने पेज के लिए इस तरह का कोई नतीजा दिखता है और आप इसे ठीक करना चाहते हैं, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आप अपने पेज को खोज के नतीजाें में दिखने से पूरी तरह रोकना चाहते हैं, तो दूसरा तरीका इस्तेमाल करें.

मीडिया फ़ाइल

साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. इसकी मदद से, आप इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों में दिखने से भी रोक सकते हैं. हालांकि, इसके इस्तेमाल से आप अन्य पेज या उपयोगकर्ताओं को, अपनी इमेज, वीडियो या ऑडियो फ़ाइल को लिंक करने से नहीं रोक पाएंगे.

रिसॉर्स फ़ाइल अगर आपको लगता है कि गै़र-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों जैसे रिसॉर्स के बिना पेज को लोड करने से, पेज पर कोई खास असर नहीं पड़ेगा, तो आप इन रिसॉर्स फ़ाइलों पर रोक लगाने के लिए, robots.txt फ़ाइल का इस्तेमाल कर सकते हैं. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को पेज का कॉन्टेंट समझने में मुश्किल होती है, तो उन पर रोक न लगाएं. इस तरह की रोक लगाने से, Google उन पेजों का ठीक से विश्लेषण नहीं कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं.

यह समझना कि robots.txt फ़ाइल कब काम करती है और कब नहीं

robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, आपको यह पता होना चाहिए कि यूआरएल पर रोक लगाने वाला यह तरीका, कब काम करता है और कब नहीं. अपने लक्ष्यों और स्थिति के आधार पर, अपने यूआरएल को वेब पर खोज में दिखने से रोकने के लिए, आपको अन्य तरीकों की भी ज़रूरत पड़ सकती है.

  • ऐसा हो सकता है कि robots.txt के डायरेक्टिव सभी सर्च इंजन पर काम न करें.
    robots.txt फ़ाइलों में दिए गए निर्देश, आपकी साइट पर क्रॉलर के काम करने के तरीके पर लागू नहीं होते. इन निर्देशों के हिसाब से काम करना या न करना, क्रॉलर पर निर्भर करता है. Googlebot और अन्य जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए निर्देशों के हिसाब से काम करते हैं. हालांकि, यह ज़रूरी नहीं है कि दूसरे वेब क्रॉलर भी ऐसा करें. इसलिए, अगर आप नहीं चाहते कि कोई जानकारी क्रॉल की जाए, तो वेब क्रॉलर पर रोक लगाने के अन्य तरीकों का इस्तेमाल करें. जैसे, सर्वर पर मौजूद निजी फ़ाइलों को पासवर्ड की मदद से सुरक्षित करना.
  • सभी क्रॉलर, सिंटैक्स को समझने के लिए अलग-अलग तरीके अपनाते हैं.
    हालांकि जाने-माने वेब क्रॉलर robots.txt फ़ाइल में दिए गए डायरेक्टिव को फ़ॉलो करते हैं, लेकिन हर क्रॉलर डायरेक्टिव को अलग तरह से समझ सकता है. आपको अलग-अलग वेब क्रॉलर के लिए, सही सिंटैक्स की जानकारी होनी चाहिए. ऐसा हो सकता है कि कुछ वेब क्रॉलर, कुछ खास तरह के निर्देश न समझ पाएं.
  • अगर किसी पेज को दूसरी साइटों से लिंक किया गया है, तो robots.txt फ़ाइल में शामिल नहीं किए जाने पर भी उस पेज को इंडेक्स किया जा सकता है.
    Google, robots.txt फ़ाइल का इस्तेमाल करके ब्लॉक किए गए कॉन्टेंट को क्रॉल या इंडेक्स नहीं करता. अगर ब्लॉक किए गए यूआरएल को वेब पर दूसरी साइटों से लिंक किया गया है, तो उसे खोजा और इंंडेक्स किया जा सकता है. इस वजह से, यूआरएल पता और पेज के लिंक में ऐंकर टेक्स्ट जैसी सार्वजनिक तौर पर मिल सकने वाली अन्य जानकारी, अब भी Google के खोज नतीजों में दिख सकती है. अपने यूआरएल को Google के खोज नतीजों में दिखने से रोकने के लिए, अपने सर्वर पर मौजूद फ़ाइलों को पासवर्ड से सुरक्षित करें या noindex मेटा टैग या रिस्पॉन्स हेडर का इस्तेमाल करें. इसके अलावा, आप पेज को पूरी तरह से हटा भी सकते हैं.

robots.txt फ़ाइल बनाना

अगर आपने तय कर लिया है कि आपको robots.txt फ़ाइल की ज़रूरत है, तो robots.txt फ़ाइल बनाने का तरीका जानें.