यूआरएल हटाने के बारे में जानकारी, दूसरा भाग: किसी पेज से संवेदनशील टेक्स्ट हटाना

शुक्रवार, 06 अगस्त, 2010

अक्सर बदलाव किए जा सकते हैं—जैसा कि यूआरएल हटाने की हमारी पिछली पोस्ट में बताया गया था, मुमकिन है कि आप कभी-कभी, अपनी साइट के किसी पेज को पूरी तरह से ब्लॉक कर दें या उसे हटा दें. वहीं, अन्य मामलों में हो सकता है कि आप पेज के सिर्फ़ कुछ हिस्सों में बदलाव करें या टेक्स्ट के कुछ हिस्सों को हटाएं. किसी पेज को कितनी बार क्रॉल किया जा रहा है, इसके आधार पर, इन बदलावों को हमारे खोज के नतीजों में दिखने में कुछ समय लग सकता है. अगर हमारे खोज के नतीजों में, हटाए गए पुराने कॉन्टेंट को अब भी दिखाया जा रहा हो, तो क्या करना चाहिए, यह हम इस ब्लॉग पोस्ट में जानेंगे. इस कॉन्टेंट को "स्निपेट" के तौर पर या खोज के नतीजे से लिंक किए गए, कैश मेमोरी में सेव किए गए पेज के तौर पर दिखाया जा सकता है. अगर आपके पुराने कॉन्टेंट में ऐसी संवेदनशील जानकारी मौजूद है जिसे तुरंत हटाना है, तो यह तरीका कारगर होता है. हालांकि, वेबसाइट को सामान्य तरीके से अपडेट करने पर, ऐसा करना ज़रूरी नहीं है.

उदाहरण के तौर पर, यहां दिए गए काल्पनिक खोज के नतीजे को देखते हैं:

वॉल्टर ई. कायोटी < टाइटल

साल 1948 से 2003 तक Acme Corp में चीफ़ डेवलपमेंट ऑफ़िसर: टॉप
सीक्रेट वेलॉसिटस इनकैल्कुली को कैप्चर करने में काबिल डिवाइस पर काम किया...

< स्निपेट
www.example.com/about/waltercoyote - कैश मेमोरी में सेव किया गया < यूआरएल और कैश मेमोरी में सेव किए गए पेज का लिंक

कैश मेमोरी में सेव करके लिंक किए गए पेज या स्निपेट में दिखाए गए कॉन्टेंट को बदलने के लिए, आपको सबसे पहले कॉन्टेंट को असली (लाइव) पेज पर बदलना होगा. जब तक पेज का सार्वजनिक तौर पर दिखने वाला कॉन्टेंट नहीं बदला जाता, तब तक Google की अपने-आप होने वाली प्रोसेस, हमारे खोज के नतीजों में ओरिजनल कॉन्टेंट के कुछ हिस्से दिखाना जारी रखेगी.

एक बार पेज पर मौजूद कॉन्टेंट में बदलाव होने के बाद, इन बदलावों को खोज के नतीजों में दिखाने के लिए कई विकल्प उपलब्ध हैं:

  1. Googlebot के पेज को फिर से क्रॉल और फिर से इंडेक्स करने का इंतज़ार करें: Google पर कॉन्टेंट को अपडेट करने के लिए, आम तौर पर यह तरीका इस्तेमाल होता है. कभी-कभी इस प्रोसेस में काफ़ी समय लग सकता है. यह इस बात पर निर्भर करता है कि फ़िलहाल, Googlebot पेज को कितनी बार क्रॉल करता है. पेज को फिर से क्रॉल और फिर से इंडेक्स करने के बाद, पुराना कॉन्टेंट आम तौर पर नहीं दिखेगा, क्योंकि उसे मौजूदा कॉन्टेंट से बदल दिया जाएगा. हालांकि, इसके लिए ज़रूरी है कि Googlebot को robots.txt के ज़रिए या सर्वर को ठीक तरह से ऐक्सेस न कर पाने की वजह से, पेज क्रॉल करने से रोका न गया हो. अगर यह शर्त पूरी होती है, तो पेज को फिर से क्रॉल और इंडेक्स कराने के लिए, आपको कुछ करने की ज़रूरत नहीं होगी. आम तौर पर, क्रॉल और इंडेक्स करने की प्रोसेस की स्पीड नहीं बढ़ाई जा सकती. ऐसा इसलिए है, क्योंकि ये पूरी तरह से ऑटोमेटेड हैं और कई अन्य वजहों पर निर्भर करती हैं.

  2. किसी और के वेबपेज से हटाए गए कॉन्टेंट को हटाने का अनुरोध करने के लिए, यूआरएल हटाने वाला Google का सार्वजनिक टूल इस्तेमाल करें. इस टूल का इस्तेमाल करते हुए, उस पेज का सटीक यूआरएल डालना ज़रूरी है जिसमें बदलाव किया गया है. इसके बाद, "कॉन्टेंट को पेज से हटा दिया गया है" विकल्प चुनें और ऐसे एक या एक से ज़्यादा शब्द डालें जिन्हें उस पेज से पूरी तरह से हटा दिया गया है.

    Google का कैश मेमोरी हटाने वाला टूल

    ध्यान दें कि आपने जो शब्द डाले हैं उनमें से कोई भी शब्द, पेज पर दिखाई नहीं दे सकता. अगर किसी शब्द को पेज के एक हिस्से से हटा दिया गया है, तो पेज के दूसरे हिस्से पर उस शब्द के दिखने पर, आपका अनुरोध अस्वीकार कर दिया जाएगा. पक्का करें कि आपने ऐसे शब्द चुने हों जो पेज पर अब कहीं भी न दिखते हो. अगर ऊपर दिए गए उदाहरण में, आपने "top secret velocitus incalculii capturing device" को हटाया है, तो आपको उन शब्दों को ही सबमिट करना चाहिए, न कि "मेरा प्रोजेक्ट" जैसे शब्दों को. हालांकि, अगर "top" या "device" शब्द अब भी पेज पर कहीं मौजूद है, तो अनुरोध को अस्वीकार कर दिया जाएगा. अनुरोध स्वीकार होने की संभावनाओं को बढ़ाने के लिए, सबसे आसान तरीका यह है कि आप सिर्फ़ एक ऐसा शब्द डालें जो पक्के तौर पर, पेज पर कहीं भी न दिखता हो.

    अगर आपका अनुरोध प्रोसेस होने के बाद, यह पाया जाता है कि सबमिट किए गए शब्द अब पेज पर नहीं दिखते, तो खोज के नतीजे में अब न तो कोई स्निपेट दिखेगा और न ही कैश मेमोरी में सेव किया गया पेज उपलब्ध होगा. पेज का टाइटल और यूआरएल अब भी दिखेगा. साथ ही, हटाए गए कॉन्टेंट से जुड़ी खोज के नतीजों के लिए, एंट्री अब भी दिख सकती है. जैसे, velocitus incalculii से जुड़ी खोजों के लिए. इससे फ़र्क नहीं पड़ता कि वे शब्द अब स्निपेट में नहीं दिखते. हालांकि, पेज को फिर से क्रॉल और फिर से इंडेक्स किए जाने के बाद, नया स्निपेट और कैश मेमोरी में सेव किया गया पेज, खोज के हमारे नतीजों में दिख सकता है.

    ध्यान रखें कि हम पेज को देखकर ही इस बात की पुष्टि करेंगे कि शब्दों को हटा दिया गया है. अगर अब पेज मौजूद नहीं है और सर्वर, सही 404 या 410 एचटीटीपी नतीजे वाला कोड दिखा रहा है, तो हमें पेज नहीं दिखेगा. ऐसे में, बेहतर होगा कि आप पेज को हटाने का अनुरोध करें.

  3. अपनी वेबसाइट के किसी पेज से जानकारी हटाने का अनुरोध करने के लिए, Google वेबमास्टर टूल का यूआरएल हटाने वाला टूल इस्तेमाल करें. अगर आपके पास उस वेबसाइट का ऐक्सेस है और आपके मालिकाना हक की पुष्टि Google वेबमास्टर टूल में की जा चुकी है, तो साइट कॉन्फ़िगरेशन > क्रॉलर ऐक्सेस में जाकर, यूआरएल हटाने वाला टूल इस्तेमाल किया जा सकता है. ऐसा करके, स्निपेट और कैश मेमोरी सेव किए गए पेज को हटाने का अनुरोध तब तक किया जा सकता है, जब तक पेज को फिर से क्रॉल नहीं किया जाता. इस टूल का इस्तेमाल करने के लिए, आपको सिर्फ़ पेज का सटीक यूआरएल सबमिट करना होगा. आपको हटाए गए किसी शब्द को बताने की ज़रूरत नहीं होगी. आपका अनुरोध प्रोसेस होने के बाद, हम खोज के नतीजों से स्निपेट और कैश मेमोरी में सेव किया गया पेज हटा देंगे. हालांकि, पेज का टाइटल और यूआरएल दिखता रहेगा. साथ ही, हटाए गए कॉन्टेंट से जुड़ी क्वेरी के लिए, पेज को खोज के नतीजों में रैंक किया जा सकता है. जब पेज को फिर से क्रॉल और फिर से इंडेक्स किया जाता है, तो खोज का वह नतीजा दिख सकता है जिसमें नए कॉन्टेंट के आधार पर, अपडेट किया गया स्निपेट और कैश मेमोरी में सेव किया गया पेज शामिल है.

Google, आइटम को इंडेक्स और रैंक करने के लिए, पेज के कॉन्टेंट के साथ-साथ अन्य चीज़ों की मदद लेता है, जैसे कि यूआरएल पर लाने वाले लिंक. इस वजह से, हो सकता है कि यूआरएल उस कॉन्टेंट के लिए खोज के नतीजों में दिखता रहे जो अब उस पेज पर मौजूद नहीं है. पेज को फिर से क्रॉल और फिर से इंडेक्स करने के बाद भी ऐसा हो सकता है. यूआरएल हटाने वाला टूल, खोज के नतीजे से स्निपेट और कैश मेमोरी में सेव किए गए पेज को हटा सकता है. हालांकि, यह खोज के नतीजे के टाइटल को बदलता या हटाता नहीं है. यह टूल, दिखाए गए यूआरएल में बदलाव भी नहीं करता. इसके अलावा, मौजूदा या पुराने कॉन्टेंट के आधार पर की गई खोजों के लिए, पेज को दिखाने से भी नहीं रोकता. अगर यह आपके लिए अहम है, तो आपको यह पक्का करना होगा कि यूआरएल, खोज के हमारे नतीजों से कॉन्टेंट को पूरी तरह हटाने की ज़रूरी शर्तों को पूरा करता हो.

बिना एचटीएमएल वाले कॉन्टेंट को हटाना

यह मुमकिन है कि बदला गया कॉन्टेंट, (एक्स)एचटीएमएल में न हो, जैसे कि अगर किसी इमेज, फ़्लैश फ़ाइल या PDF फ़ाइल को बदल दिया गया हो. ऐसे में, कैश मेमोरी हटाने वाले टूल का इस्तेमाल नहीं किया जा सकेगा. इसलिए, अगर यह ज़रूरी है कि पुराना कॉन्टेंट अब खोज के नतीजों में न दिखे, तो सबसे तेज़ तरीका यह होगा कि आप फ़ाइल के यूआरएल में बदलाव करें. इससे, पुराना यूआरएल 404 एचटीटीपी नतीजे वाला कोड दिखाएगा. इसके बाद, पुराने यूआरएल को हटाने के लिए, यूआरएल हटाने वाला टूल इस्तेमाल करें. इसके अलावा, अगर आपने Google को सामान्य तरीके से जानकारी को रीफ़्रेश करने की अनुमति दी है, तो इस बात का ध्यान रखें कि फिर से क्रॉल करने के बाद, बिना एचटीएमएल वाले कॉन्टेंट, जैसे कि PDF फ़ाइलों के लिए झटपट देखें लिंक की झलक को अपडेट होने में, सामान्य एचटीएमएल पेजों के मुकाबले ज़्यादा समय लग सकता है.

स्निपेट या कैश मेमोरी में सेव किए गए वर्शन को दिखने से तुरंत रोकना

वेबमास्टर के तौर पर, आपके पास रोबोट meta टैग इस्तेमाल करने का विकल्प है. इससे, स्निपेट या कैश मेमोरी में सेव किए गए वर्शन को दिखने से रोका जा सकता है. ऐसा करने के लिए, आपको यूआरएल हटाने वाले टूल का इस्तेमाल करने की ज़रूरत नहीं होगी. हम डिफ़ॉल्ट तरीके के तौर पर, इसे इस्तेमाल करने का सुझाव नहीं देते. ऐसा इसलिए है, क्योंकि स्निपेट की मदद से, लोग अपने काम के खोज के नतीजे को जल्दी पहचान सकते हैं. साथ ही, कैश मेमोरी में सेव किए गए पेज की मदद से, आपका सर्वर उपलब्ध नहीं होने की स्थिति में भी लोग, आपका कॉन्टेंट देख सकते हैं. हालांकि, आपके पास, "nosnippet" रोबोट meta टैग को इस्तेमाल करने का विकल्प है. इससे, स्निपेट दिखने से रोका जा सकता है. इसके अलावा, "noarchive" robots meta टैग का इस्तेमाल करके, पेज को कैश मेमोरी में सेव करना बंद किया जा सकता है. ध्यान दें कि अगर यह बदलाव मौजूदा और ऐसे पेजों के लिए किया गया है जिनकी जानकारी Google को पहले से है, तो Googlebot को इन पेजों को फिर से क्रॉल और फिर से इंडेक्स करना होगा. इसके बाद ही, यह बदलाव खोज के नतीजों में दिखेगा.

हमें उम्मीद है कि इस ब्लॉग पोस्ट से, अपडेट किए गए पेजों के यूआरएल हटाने वाले टूल से जुड़ीं कुछ प्रोसेस को समझने में मदद मिलेगी. अपनी अगली ब्लॉग पोस्ट में, हम ऐसे कॉन्टेंट को हटाने के लिए अनुरोध करने के तरीके जानेंगे जिस पर आपका मालिकाना हक नहीं है. इसलिए, हमारे साथ जुड़े रहें!

हमेशा की तरह, अगर आपका कोई सुझाव, शिकायत, राय या सवाल है, तो हमारे वेबमास्टर सहायता फ़ोरम के ज़रिए संपर्क करें.

आखिर में, हो सकता है कि आप अपने बारे में ऑनलाइन उपलब्ध जानकारी को मैनेज करने के बारे में पढ़ना चाहें.