robots.txt में काम न करने वाले नियमों के बारे में जानकारी

मंगलवार, 2 जुलाई, 2019

कल हमने एलान किया था कि हम Google के प्रोडक्शन robots.txt पार्सर को ओपन सोर्स कर रहे हैं. यह एक बहुत ही शानदार पल था, जिसकी वजह से, आने वाले समय में Search से जुड़े और भी ओपन सोर्स प्रोजेक्ट आ सकते हैं! सुझाव, शिकायत, राय से हमें मदद मिलती है. साथ ही, हम डेवलपर और वेबमास्टर दोनों से, सवाल इकट्ठा कर रहे हैं. एक सवाल सबसे अलग था, जिसका जवाब हम इस पोस्ट में देंगे:
कोड में क्रॉल करने में देरी करने जैसे दूसरे नियमों के लिए, कोड हैंडलर क्यों नहीं दिया गया है?

हमने जो इंटरनेट ड्राफ़्ट कल पब्लिश किया था उसमें ऐसे नियमों के लिए बहुत बड़ा आर्किटेक्चर दिया गया है, जो स्टैंडर्ड का हिस्सा नहीं हैं. इसका मतलब है कि अगर कोई क्रॉलर, unicorns: allowed जैसी लाइन को क्रॉल करना चाहता है, तो वह ऐसा कर सकता है. यह दिखाने के लिए कि कोड पार्सर में कैसा दिखेगा, हमने अपने ओपन सोर्स robots.txt पार्सर में एक बहुत ही सामान्य लाइन, साइटमैप शामिल किया है.

अपनी पार्सर लाइब्रेरी को ओपन सोर्स करते हुए, हमने robots.txt के नियमों के इस्तेमाल का विश्लेषण किया. खास तौर पर, हमने उन नियमों पर ध्यान दिया जो इंटरनेट ड्राफ़्ट पर काम नहीं करते, जैसे कि crawl-delay, nofollow, और noindex. Google ने इन नियमों को कभी भी दर्ज नहीं किया. इसलिए, Googlebot के हिसाब से इनका इस्तेमाल बहुत कम होता है. और जानकारी इकट्ठा करने पर, हमने देखा कि इंटरनेट पर इस्तेमाल की जाने वाली सभी robots.txt फ़ाइलों में दूसरे नियमों का इस्तेमाल किया जा रहा था. सिर्फ़ 0.001% मामलों में ऐसा नहीं था. इन गलतियों से, Google के खोज नतीजों में वेबसाइटों के दिखने पर इस तरह का असर पड़ेगा, हमें लगता है कि वेबमास्टर ने इस तरफ़ ध्यान ही नहीं दिया.

एक बेहतर नेटवर्क बनाए रखने और आने वाले समय में ओपन सोर्स रिलीज़ की तैयारी करने के लिए, हम ऐसे सभी कोड को 1 सितंबर, 2019 से बंद कर रहे हैं जो काम नहीं करते या जिन्हें पब्लिश नहीं किया गया है. जैसे कि, noindex. जो लोग robots.txt फ़ाइल में मौजूद noindex (जो क्रॉलिंग को कंट्रोल करता है) इंडेक्स करने वाले नियम का इस्तेमाल करते हैं उनके लिए, क्रॉलिंग के कई विकल्प दिए गए हैं:

robots के meta टैग में मौजूद noindex: एचटीटीपी रिस्पॉन्स हेडर और एचटीएमएल, दोनों में काम करता है. noindex नियम, क्रॉल करने की अनुमति होने पर इंडेक्स से यूआरएल हटाने का सबसे असरदार तरीका है.
404 और 410 एचटीटीपी स्टेटस कोड: इन दोनों स्टेटस कोड का मतलब है कि पेज मौजूद नहीं है. इस वजह से, ऐसे यूआरएल को क्रॉल और प्रोसेस करने के बाद Google से हटा दिया जाएगा.
पासवर्ड की सुरक्षा: जब तक मार्कअप का इस्तेमाल सदस्यता या paywall किए गए कॉन्टेंट को दिखाने के लिए नहीं किया जाता, तब तक किसी पेज को लॉगिन के पीछे छिपाने से, वह आम तौर पर Google के इंडेक्स से हट जाएगा.
robots.txt में Disallow: सर्च इंजन सिर्फ़ उन पेजों को इंडेक्स कर सकता है जिनके बारे में उन्हें जानकारी होती है. इसलिए, पेज को क्रॉल होने से रोकने का मतलब है कि उसका कॉन्टेंट इंडेक्स नहीं किया जाएगा. सर्च इंजन, बिना कॉन्टेंट देखे, दूसरे पेजों पर मौजूद लिंक के आधार पर भी यूआरएल इंडेक्स कर सकता है. हालांकि, हमारी कोशिश होती है कि हम आने वाले समय में ऐसे पेजों को कम दिखाएं.
Search Console का यूआरएल हटाने वाला टूल: इस टूल की मदद से, यूआरएल को Google के खोज के नतीजों से कुछ समय के लिए हटाया जा सकता है.

Google के खोज नतीजों से जानकारी हटाने के तरीके के बारे में ज़्यादा जानने के लिए, हमारे सहायता केंद्र पर जाएं. अगर आपका कोई सवाल है, तो हम आपको Twitter और हमारे वेबमास्टर समुदाय पर ऑफ़लाइन और ऑनलाइन, दोनों तरीकों से मिल सकते हैं.

इस लेख को गैरी इलियस ने पोस्ट किया है