डुप्लीकेट कॉन्टेंट बनाने से बचना

आम तौर पर, डुप्लीकेट कॉन्टेंट का मतलब होता है कि डोमेन के अंदर या सभी डोमेन पर मिलने वाले कॉन्टेंट के ऐसे बड़े हिस्से जो उसी भाषा के दूसरे कॉन्टेंट से पूरी तरह मेल खाते हैं या काफ़ी हद तक उससे मिलते-जुलते हैं. ज़्यादातर मामलों में, इसका असली मकसद धोखाधड़ी नहीं होता है. नुकसान न पहुंचाने वाले डुप्लीकेट कॉन्टेंट के ये उदाहरण हो सकते हैं:

  • चर्चा वाले ऐसे फ़ोरम जो मोबाइल डिवाइसों के लिए बनाए गए स्ट्रिप-डाउन पेज और सामान्य पेज, दोनों जनरेट कर सकते हैं
  • किसी ऑनलाइन स्टोर में मौजूद ऐसे आइटम जिन्हें कई अलग-अलग यूआरएल से दिखाया जाता है या उनसे लिंक किया जाता है
  • वेब पेजों के सिर्फ़ प्रिंटर वाले वर्शन

अगर आपकी साइट में ऐसे कई पेज हैं जिनमें काफ़ी हद तक एक जैसा कॉन्टेंट है, तो Google को कई तरीकों से अपने पसंदीदा यूआरएल के बारे में बताया जा सकता है. (इसे "यूआरएल के कैननिकल होने की जांच करना" कहते हैं.) यूआरएल के कैननिकल होने की जांच करने के बारे में ज़्यादा जानकारी.

हालांकि, कुछ मामलों में सर्च इंजन रैंकिंग में हेर-फेर करने या ज़्यादा ट्रैफ़िक हासिल करने के मकसद से, कॉन्टेंट को सभी डोमेन पर जान-बूझकर डुप्लीकेट किया जाता है. धोखाधड़ी वाली ऐसी गतिविधियों की वजह से, उपयोगकर्ता का अनुभव खराब हो सकता है. ऐसा तब होता है, जब वेबसाइट पर आने वाले किसी व्यक्ति को, खोज के नतीजों में काफ़ी हद तक एक जैसा कॉन्टेंट बार-बार दिखता है.

Google, अलग जानकारी वाले पेजों को इंडेक्स करने और दिखाने की पूरी कोशिश करता है. उदाहरण के लिए, इस फ़िल्टर को इस्तेमाल करने का मतलब है कि अगर आपकी साइट पर हर लेख का एक "सामान्य" और "प्रिंटर" वर्शन मौजूद है और इनमें से किसी को भी noindex टैग से ब्लॉक नहीं किया गया है, तो हम लिस्ट करने के लिए उनमें से किसी एक को चुनेंगे. ऐसे बहुत कम मामले होते हैं जिनमें Google मानता है कि डुप्लीकेट कॉन्टेंट को, हमारी रैंकिंग में हेर-फेर करने और उपयोगकर्ताओं को धोखा देने के मकसद से दिखाया जा सकता है. ऐसे मामलों में, हम इनमें शामिल साइटों को इंडेक्स करने और उनकी रैंकिंग करने के लिए ज़रूरी बदलाव भी करेंगे. इस वजह से, साइट की रैंकिंग कम हो सकती है. साइट को Google इंडेक्स से पूरी तरह हटाया भी जा सकता है, इससे वह खोज के नतीजों में नहीं दिखेगी.

डुप्लीकेट कॉन्टेंट से जुड़ी समस्याओं को समय पर हल करने के लिए, ये कदम उठाएं. इससे आपको यह पक्का करने में मदद मिलेगी कि साइट पर आने वाले लोगों को, वही कॉन्टेंट दिखे जो आपको उन्हें दिखाना है.

  • 301 का इस्तेमाल करना: अगर आपने अपनी साइट का स्ट्रक्चर बदला है, तो उपयोगकर्ताओं, Googlebot, और दूसरे स्पाइडर को सही तरीके से रीडायरेक्ट करने के लिए, अपनी .htaccess फ़ाइल में 301 रीडायरेक्ट ("RedirectPermanent") का इस्तेमाल करें. (Apache में, .htaccess फ़ाइल और IIS में एडमिन कंसोल की मदद से ऐसा किया जा सकता है.)
  • एक ही तरह से लिंक करना: अंदरूनी लिंकिंग को एक ही तरह का बनाए रखने की कोशिश करें. उदाहरण के लिए, http://www.example.com/page/, http://www.example.com/page, और http://www.example.com/page/index.htm से लिंक न करें.
  • टॉप लेवल डोमेन का इस्तेमाल करना: किसी दस्तावेज़ का सबसे सही वर्शन दिखाने में हमारी मदद करने के लिए जब भी हो सके, किसी खास देश के हिसाब से बनाए गए कॉन्टेंट को मैनेज करने के लिए टॉप लेवल डोमेन इस्तेमाल करें. उदाहरण के लिए, हम आम तौर पर http://www.example.com/de या http://de.example.com के बजाय, http://www.example.de को देखकर यह जान लेते हैं कि इसमें जर्मनी के हिसाब से कॉन्टेंट दिया गया है.
  • कॉन्टेंट को सावधानी से बांटना: अगर आप दूसरी साइटों को अपना कॉन्टेंट प्रकाशित करने के लिए देते हैं, तो Google हमेशा वह वर्शन दिखाएगा जो हमारे मुताबिक हर खोज में उपयोगकर्ताओं के लिए सबसे सही है. हो सकता है कि यह आपका पसंदीदा वर्शन हो या न हो. हालांकि, यह पक्का कर लेना सही रहता है कि आपका कॉन्टेंट प्रकाशित करने वाली हर साइट पर, आपके ओरिजनल लेख पर वापस जाने के लिए एक लिंक शामिल हो. आप अपने बांटे गए कॉन्टेंट का इस्तेमाल करने वालों को, noindex टैग का इस्तेमाल करने के लिए भी कहें, ताकि सर्च इंजन उनके वर्शन को इंंडेक्स न करे.
  • बार-बार मौजूद कॉन्टेंट को कम से कम करना: उदाहरण के लिए, हर पेज के नीचे कॉपीराइट से जुड़ा लंबा टेक्स्ट शामिल करने के बजाय, कम शब्दों में खास जानकारी दें. इसके बाद, उसे ज़्यादा जानकारी वाले किसी पेज से लिंक करें.
  • स्टब को पब्लिश करने से बचना: उपयोगकर्ता "खाली" पेजों को देखना पसंद नहीं करते हैं. इसलिए, जहां तक हो सके, प्लेसहोल्डर का इस्तेमाल करने से बचें. उदाहरण के लिए, ऐसे पेजों को प्रकाशित न करें जिनके लिए आपके पास अभी तक असली कॉन्टेंट नहीं है. प्लेसहोल्डर वाले पेज बनाते समय, noindex टैग का इस्तेमाल करें, ताकि इन पेजों को इंडेक्स होने से रोका जा सके.
  • अपने कॉन्टेंट मैनेजमेंट सिस्टम को समझना: पक्का करें कि आपको अपनी वेबसाइट पर कॉन्टेंट दिखाए जाने का तरीका पता हो. ब्लॉग, फ़ोरम, और ऐसे दूसरे सिस्टम अक्सर कई फ़ॉर्मैट में एक जैसा कॉन्टेंट दिखाते हैं. उदाहरण के लिए, कोई ब्लॉग एंट्री किसी ब्लॉग के होम पेज, संग्रह वाले पेज, और एक जैसे लेबल वाली दूसरी एंट्री के किसी पेज पर दिख सकती है.
  • एक जैसा कॉन्टेंट कम से कम दिखाना: अगर आपके पास एक जैसे कई पेज हैं, तो हर एक पेज पर अलग तरह का और कॉन्टेंट जोड़ने या पेजों को एक ही पेज में मिलाने के बारे में सोचें. उदाहरण के लिए, अगर आपके पास ट्रैवल की ऐसी साइट है जिसमें दो शहरों के लिए अलग-अलग पेज मौजूद हैं, लेकिन दोनों पेजों पर एक जैसी जानकारी है, तो आप पेजों को मर्ज करके, दोनों शहरों के बारे में एक पेज बनाएं या फिर हर एक पेज पर हर शहर के बारे में कॉन्टेंट डालकर, उसे बड़ा करें.

Google आपकी वेबसाइट पर डुप्लीकेट कॉन्टेंट के लिए, क्रॉलर ऐक्सेस को robots.txt फ़ाइल या किसी दूसरे तरीके से ब्लॉक करने का सुझाव नहीं देता है. अगर सर्च इंजन, डुप्लीकेट कॉन्टेंट वाले पेजों को क्रॉल नहीं कर पाएंगे, तो वे अपने-आप यह पता नहीं लगा सकते कि ये यूआरएल एक ही कॉन्टेंट पर ले जाते हैं. इस वजह से, वे डुप्लीकेट कॉन्टेंट वाले पेजों को अलग-अलग पेजों के तौर पर देखेंगे. इस समस्या को हल करने का बेहतर तरीका यह है कि सर्च इंजन को, इन यूआरएल को क्रॉल करने की अनुमति दी जाए. हालांकि, इन यूआरएल को rel="canonical" लिंक ऐलीमेंट या 301 रीडायरेक्ट का इस्तेमाल करके, डुप्लीकेट के तौर पर मार्क किया जाना चाहिए. अगर डुप्लीकेट कॉन्टेंट की वजह से हमें आपकी वेबसाइट को बहुत ज़्यादा क्रॉल करना पड़ता है, तो ऐसे मामलों में Search Console पर जाकर, क्रॉल दर की सेटिंग में बदलाव भी किए जा सकते हैं.

किसी साइट पर डुप्लीकेट कॉन्टेंट होने से उस साइट पर तब तक कार्रवाई नहीं की जाती, जब तक यह पता न चले कि डुप्लीकेट कॉन्टेंट का मकसद, धोखाधड़ी करना और सर्च इंजन के नतीजों में हेर-फेर करना है. अगर आपकी साइट में डुप्लीकेट कॉन्टेंट की समस्याएं हैं और दस्तावेज़ में बताई गई सलाह को नहीं माना जाता है, तो हम अपने खोज के नतीजों में दिखाने के लिए, कॉन्टेंट का कोई एक वर्शन चुन लेंगे.

हालांकि, जब हमारी समीक्षा में पता चले कि आप धोखाधड़ी वाले काम करते हैं और आपकी साइट को हमारे खोज के नतीजों से हटा दिया गया है, तो अपनी साइट को ध्यान से देखें. अगर आपकी साइट को हमारे खोज के नतीजों से हटा दिया गया है, तो ज़्यादा जानकारी के लिए हमारी वेबमास्टर गाइडलाइन देखें. जब आप बदलाव कर लें और आपको भरोसा हो जाए कि अब आपकी साइट से हमारे दिशा-निर्देशों का उल्लंघन नहीं होगा, तो साइट को खोज के नतीजों में फिर से शामिल करने का अनुरोध सबमिट करें.

बहुत कम मामलों में, हमारा एल्गोरिदम बाहरी साइट से एक यूआरएल चुन सकता है. यह वह साइट होती है जो आपके कॉन्टेंट को आपकी अनुमति के बिना होस्ट कर रही है. अगर आपको लगता है कि कोई दूसरी साइट, आपके कॉन्टेंट को डुप्लीकेट करके कॉपीराइट कानून का उल्लंघन कर रही है, तो कॉन्टेंट हटाने के लिए उस साइट के होस्ट से अनुरोध करें. Google से भी यह अनुरोध किया जा सकता है कि कॉपीराइट के नियमों का उल्लंघन करने वाले पेज को, खोज के नतीजों से हटा दिया जाए. इसके लिए, आप डिजिटल मिलेनियम कॉपीराइट ऐक्ट के तहत अनुरोध करें.