मंगलवार, 2 जुलाई, 2019
कल हमने एलान किया था कि हम
Google के प्रोडक्शन robots.txt पार्सर को ओपन सोर्स कर रहे हैं.
यह एक बहुत ही शानदार पल था, जिसकी वजह से, आने वाले समय में Search से जुड़े और भी
ओपन सोर्स प्रोजेक्ट आ सकते हैं! सुझाव, शिकायत, राय से हमें मदद मिलती है. साथ ही, हम डेवलपर और
वेबमास्टर
दोनों से, सवाल इकट्ठा कर रहे हैं. एक सवाल
सबसे अलग था, जिसका जवाब हम इस पोस्ट में देंगे:
कोड में क्रॉल करने में देरी करने जैसे दूसरे नियमों के लिए, कोड हैंडलर क्यों नहीं दिया गया है?
हमने जो इंटरनेट ड्राफ़्ट कल पब्लिश किया था उसमें ऐसे नियमों के
लिए बहुत बड़ा आर्किटेक्चर दिया गया है, जो स्टैंडर्ड का हिस्सा नहीं हैं. इसका मतलब है कि अगर कोई क्रॉलर,
unicorns: allowed
जैसी लाइन को
क्रॉल करना चाहता है, तो वह ऐसा कर सकता है. यह दिखाने के लिए कि कोड पार्सर में कैसा दिखेगा, हमने अपने ओपन सोर्स robots.txt पार्सर
में एक बहुत ही सामान्य लाइन, साइटमैप शामिल किया है.
अपनी पार्सर लाइब्रेरी को ओपन सोर्स करते हुए, हमने robots.txt के नियमों के इस्तेमाल का विश्लेषण किया. खास तौर पर,
हमने उन नियमों पर ध्यान दिया जो इंटरनेट ड्राफ़्ट पर काम नहीं करते, जैसे कि
crawl-delay
, nofollow
, और
noindex
. Google ने इन नियमों को कभी भी दर्ज नहीं किया. इसलिए,
Googlebot के हिसाब से इनका इस्तेमाल बहुत कम होता है. और जानकारी इकट्ठा करने पर, हमने देखा कि इंटरनेट पर इस्तेमाल की जाने वाली सभी robots.txt फ़ाइलों में दूसरे नियमों का इस्तेमाल किया जा रहा था.
सिर्फ़ 0.001% मामलों में ऐसा नहीं था.
इन गलतियों से, Google के खोज नतीजों में वेबसाइटों के दिखने पर इस तरह का असर पड़ेगा, हमें लगता है कि
वेबमास्टर ने इस तरफ़ ध्यान ही नहीं दिया.
एक बेहतर नेटवर्क बनाए रखने और आने वाले समय में ओपन सोर्स रिलीज़ की तैयारी करने के लिए, हम ऐसे सभी कोड
को 1 सितंबर, 2019 से बंद कर रहे हैं जो काम नहीं करते या जिन्हें पब्लिश नहीं किया गया है. जैसे कि,
noindex
. जो लोग
robots.txt
फ़ाइल में मौजूद
noindex
(जो क्रॉलिंग को कंट्रोल करता है) इंडेक्स करने वाले नियम का इस्तेमाल करते हैं
उनके लिए, क्रॉलिंग के कई विकल्प दिए गए हैं:
-
robots के
meta
टैग में मौजूदnoindex
: एचटीटीपी रिस्पॉन्स हेडर और एचटीएमएल, दोनों में काम करता है.noindex
नियम, क्रॉल करने की अनुमति होने पर इंडेक्स से यूआरएल हटाने का सबसे असरदार तरीका है. -
404
और410
एचटीटीपी स्टेटस कोड: इन दोनों स्टेटस कोड का मतलब है कि पेज मौजूद नहीं है. इस वजह से, ऐसे यूआरएल को क्रॉल और प्रोसेस करने के बाद Google से हटा दिया जाएगा. - पासवर्ड की सुरक्षा: जब तक मार्कअप का इस्तेमाल सदस्यता या paywall किए गए कॉन्टेंट को दिखाने के लिए नहीं किया जाता, तब तक किसी पेज को लॉगिन के पीछे छिपाने से, वह आम तौर पर Google के इंडेक्स से हट जाएगा.
-
robots.txt
मेंDisallow
: सर्च इंजन सिर्फ़ उन पेजों को इंडेक्स कर सकता है जिनके बारे में उन्हें जानकारी होती है. इसलिए, पेज को क्रॉल होने से रोकने का मतलब है कि उसका कॉन्टेंट इंडेक्स नहीं किया जाएगा. सर्च इंजन, बिना कॉन्टेंट देखे, दूसरे पेजों पर मौजूद लिंक के आधार पर भी यूआरएल इंडेक्स कर सकता है. हालांकि, हमारी कोशिश होती है कि हम आने वाले समय में ऐसे पेजों को कम दिखाएं. - Search Console का यूआरएल हटाने वाला टूल: इस टूल की मदद से, यूआरएल को Google के खोज के नतीजों से कुछ समय के लिए हटाया जा सकता है.
Google के खोज नतीजों से जानकारी हटाने के तरीके के बारे में ज़्यादा जानने के लिए, हमारे सहायता केंद्र पर जाएं. अगर आपका कोई सवाल है, तो हम आपको Twitter और हमारे वेबमास्टर समुदाय पर ऑफ़लाइन और ऑनलाइन, दोनों तरीकों से मिल सकते हैं.