Google के खोज नतीजों में PDF दिखने से जुड़ी जानकारी

गुरुवार, 01 सितंबर, 2011

हमारा मकसद दुनिया भर की जानकारी को इकट्ठा करके, इस तरह व्यवस्थित करना है कि लोग अपने काम की जानकारी को आसानी से ऐक्सेस कर सकें. इस मकसद को पूरा करने की प्रक्रिया में, कभी-कभी हमें ऐसी फ़ाइलें मिलती हैं जो एचटीएमएल फ़ॉर्मैट में नहीं होतीं. जैसे, PDF, स्प्रेडशीट, और प्रज़ेंटेशन. अलग-अलग फ़ॉर्मैट की फ़ाइलों से हमारे एल्गोरिदम की काम करने की रफ़्तार धीमी नहीं होती है. हालांकि, हमारी कोशिश रहती है कि इन फ़ाइलों में मौजूद काम के कॉन्टेंट को निकाला जाए और उसे हमारे खोज के नतीजों में दिखाने के लिए सही तरीके से इंडेक्स किया जाए. हालांकि, इन फ़ाइलों का फ़ॉर्मैट स्टैंडर्ड एचटीएमएल से अलग होता है. इसलिए, अब सवाल आता है कि हम इन फ़ॉर्मैट वाली फ़ाइलों को इंडेक्स कैसे करते हैं और इन फ़ाइलों पर कौनसे दिशा-निर्देश लागू होते हैं? अगर वेबमास्टर इन फ़ाइलों को इंडेक्स न करवाना चाहे, तो क्या होगा?

Google ने साल 2001 में पहली बार PDF फ़ाइलों को इंडेक्स करना शुरू किया था. फ़िलहाल, Google करोड़ों PDF फ़ाइलें इंडेक्स कर चुका है. हमने PDF को इंडेक्स करने से जुड़े, अक्सर पूछे जाने वाले सवालों को इकट्ठा किया है. यहां उन सभी सवालों के जवाब दिए गए हैं:

सवाल: क्या Google किसी भी तरह की PDF फ़ाइल को इंडेक्स कर सकता है?
जवाब: आम तौर पर, हम PDF फ़ाइलों से टेक्स्ट के रूप में मौजूद कॉन्टेंट को इंडेक्स करते हैं, भले ही उसे किसी भी भाषा में लिखा गया हो. इन फ़ाइलों में अलग-अलग तरह के कैरेक्टर एन्कोडिंग का इस्तेमाल किया जाता है. हालांकि, यह ज़रूरी है कि इन फ़ाइलों को पासवर्ड से सुरक्षित न किया गया हो या एन्क्रिप्ट न किया गया हो. अगर टेक्स्ट को इमेज के रूप में एम्बेड किया गया है, तो इमेज से टेक्स्ट को निकालने के लिए, हम इमेज को OCR एल्गोरिदम की मदद से प्रोसेस कर सकते हैं. बुनियादी नियम यह है कि अगर PDF दस्तावेज़ से किसी टेक्स्ट को कॉपी करके, टेक्स्ट फ़ॉर्मैट वाले सामान्य दस्तावेज़ में चिपकाया जा सकता है, तो हम उस टेक्स्ट को इंडेक्स कर सकते हैं.

सवाल: क्या PDF फ़ाइलों में मौजूद इमेज को इंडेक्स किया जाता है?
जवाब: फ़िलहाल, इमेज को इंडेक्स नहीं किया जाता है. अगर आपको अपनी इमेज इंडेक्स करवानी हैं, तो आपको उनके लिए एचटीएमएल पेज बनाने होंगे. खोज के नतीजों में आपकी इमेज को दिखाने की संभावना को बढ़ाने के लिए, कृपया Google Images काे इस्तेमाल करने के सबसे सही तरीके पढ़ें.

सवाल: PDF दस्तावेज़ों में मौजूद लिंक कैसे इस्तेमाल किए जाते हैं?
जवाब: आम तौर पर, PDF फ़ाइलों में मौजूद लिंक को एचटीएमएल में मौजूद लिंक की तरह ही माना जाता है. उनके लिए PageRank और इंडेक्स करने से जुड़े अन्य सिग्नल का इस्तेमाल किया जा सकता है. साथ ही, PDF फ़ाइल को क्रॉल करने के बाद, हम उन लिंक पर जा सकते हैं. फ़िलहाल, PDF दस्तावेज़ में nofollow लिंक इस्तेमाल नहीं किए जा सकते.

सवाल: PDF फ़ाइलों को खोज के नतीजों में दिखने से कैसे रोका जा सकता है? अगर PDF फ़ाइलें पहले से ही खोज के नतीजों में दिख रही हैं, तो उन्हें कैसे हटाया जा सकता है?
जवाब: PDF दस्तावेज़ों को आसानी से खोज के नतीजों में दिखने से रोका जा सकता है. इसके लिए, फ़ाइल को खोज के नतीजों में दिखाने के लिए इस्तेमाल किए गए एचटीटीपी हेडर में X-Robots-Tag: noindex जोड़ना होगा. अगर PDF दस्तावेज़ों को पहले ही इंडेक्स किया जा चुका है, तो noindex नियम के साथ X-Robot-Tag का इस्तेमाल करने से, दस्तावेज़ समय के साथ खोज के नतीजों से हट जाएंगे. दस्तावेज़ को खोज के नतीजों से जल्दी हटाने के लिए, Google Search Console में यूआरएल हटाने वाला टूल का इस्तेमाल किया जा सकता है.

सवाल: क्या खोज के नतीजों में PDF फ़ाइलों को अच्छी रैंकिंग मिल सकती है?
जवाब: बिल्कुल! आम तौर पर, इन्हें दूसरे वेबपेजों की तरह ही रैंक किया जाता है. उदाहरण के लिए, यह पोस्ट करते समय, mortgage market review, irs form 2011 या paracetamol expert report को खोजने पर, खोज के नतीजों में सभी के लिए PDF दस्तावेज़ दिखाए जाते हैं. इन दस्तावेज़ों को खोज के नतीजों में अच्छी रैंक मिली है. इसकी वजह, दस्तावेज़ में मौजूद कॉन्टेंट और इन्हें एम्बेड करने और दूसरे वेबपेजों से लिंक करने का तरीका है.

सवाल: अगर मेरे पेज की कॉपी एचटीएमएल और PDF, दोनों फ़ॉर्मैट में मौजूद है, तो क्या इसे डुप्लीकेट कॉन्टेंट माना जाएगा?
जवाब: हमारा सुझाव है कि जहां तक हो सके, कॉन्टेंट को एक ही फ़ॉर्मैट में रखें. अगर आप ऐसा न कर पाएं, तो पक्का करें कि आप कॉन्टेंट के अपने पसंदीदा वर्शन के बारे में हमें बताएं. ऐसा करने के लिए, कॉन्टेंट के पसंदीदा वर्शन के यूआरएल को साइटमैप में शामिल किया जा सकता है. इसके अलावा, एचटीएमएल या PDF रिसॉर्स के एचटीटीपी हेडर में कॉन्टेंट के कैननिकल वर्शन के बारे में जानकारी दी जा सकती है. ज़्यादा सलाह पाने के लिए, यूआरएल के कैननिकल होने की जांच करने के बारे में हमारे सहायता केंद्र का लेख पढ़ें.

सवाल: खोज के नतीजों में PDF दस्तावेज़ के लिए दिखने वाले शीर्षक में कैसे बदलाव किया जा सकता है?
जवाब: हम खोज के नतीजों में दिखने वाले शीर्षक को तय करने के लिए, दो मुख्य एलिमेंट का इस्तेमाल करते हैं: फ़ाइल में मौजूद शीर्षक का मेटाडेटा और PDF फ़ाइल पर ले जाने वाले लिंक का ऐंकर टेक्स्ट. हमारे एल्गोरिदम को सही शीर्षक इस्तेमाल करने के बारे में बताने के लिए, हमारा सुझाव है कि आप मेटाडेटा और ऐंकर टेक्स्ट, दोनों को ही अपडेट करें.

अगर आपको ज़्यादा जानना है, तो खोज के लिए PDF फ़ाइलों को ऑप्टिमाइज़ करने के तरीकों के बारे में जानकारी देने वाला मैट कट का वीडियो देखें. साथ ही, हम किस तरह का कॉन्टेंट इंडेक्स करते हैं, इस बारे में जानकारी पाने के लिए, हमारे सहायता केंद्र पर जाएं. अगर आपकी कोई शिकायत, राय या सुझाव है, तो कृपया हमें वेबमास्टर सहायता फ़ोरम पर बताएं.

इसे वेबमास्टर ट्रेंड एनालिस्ट, गैरी इलेयेस ने पोस्ट किया है