डुप्लीकेट कॉन्टेंट बनाने से बचना

आम तौर पर, डुप्लीकेट कॉन्टेंट का मतलब सभी डोमेन के अंदर या उन पर मिलने वाले कॉन्टेंट के ऐसे बड़े हिस्सों से है जो या तो दूसरे कॉन्टेंट से पूरी तरह मेल खाते हैं या काफ़ी हद तक उससे मिलते-जुलते हैं. ज़्यादातर मामलों में, यह असल में भ्रामक नहीं होता. नुकसान नहीं पहुंचाने वाले डुप्लीकेट कॉन्टेंट के उदाहरणों में ये शामिल हो सकते हैं:

  • चर्चा फ़ोरम, जो मोबाइल डिवाइस पर टारगेट किए गए नियमित और स्ट्रिप-डाउन पेज, दोनों जनरेट कर सकते हैं
  • एक से ज़्यादा अलग-अलग यूआरएल के ज़रिए दिखाए या लिंक किए गए स्टोर आइटम
  • वेब पेजों के सिर्फ़ प्रिंटर वाले वर्शन

अगर आपकी साइट में बहुत हद तक एक जैसे कॉन्टेंट वाले कई पेज हैं, तो आप Google को कई तरीकों से अपना पसंदीदा यूआरएल बता सकते हैं. (इसे "यूआरएल के कैननिकल होने की जांच करना" कहते हैं.) यूआरएल के कैननिकल होने की जांच करने के बारे में ज़्यादा जानकारी.

हालांकि, कुछ मामलों में, सभी डोमेन पर सर्च इंजन रैंकिंग में हेर-फेर करने या ज़्यादा ट्रैफ़िक हासिल करने की कोशिश में कॉन्टेंट को जान-बूझकर डुप्लीकेट किया जाता है. ऐसी धोखाधड़ी वाली गतिविधियों का नतीजा उस समय खराब उपयोगकर्ता अनुभव हो सकता है, जब साइट पर आने वाले किसी व्यक्ति को, खोज नतीजों में बार-बार एक ही तरह का कॉन्टेंट दिखाई देता है.

Google अलग जानकारी वाले पेज इंडेक्स करने और दिखाने की पूरी कोशिश करता है. उदाहरण के लिए, इस फ़िल्टर करने का मतलब यह है कि अगर आपकी साइट के पास हर लेख का एक "सामान्य" और "प्रिंटर" वर्शन है और इनमें से किसी को भी noindex मेटा टैग से ब्लॉक नहीं किया गया है, तो हम लिस्ट करने के लिए उनमें से किसी एक को चुनेंगे. ऐसे बहुत ही कम मामलों में, जिनमें Google मानता है कि डुप्लीकेट कॉन्टेंट को हमारी रैंकिंग में हेर-फेर करने और हमारे उपयोगकर्ताओं को धोखा देने के मकसद से दिखाया जा सकता है, हम इसमें शामिल साइटों की इंडेक्सिंग और रैंकिंग में ज़रूरी बदलाव भी करते हैं. नतीजतन, साइट की रैंकिंग को नुकसान हो सकता है या साइट को Google इंडेक्स से पूरी तरह हटाया जा सकता है, जिसके चलते वह फिर खोज नतीजों में दिखाई नहीं देगी.

डुप्लीकेट कॉन्टेंट की समस्या का आगे बढ़कर हल करने के लिए, आप कुछ कदम उठा सकते हैं और पक्का कर सकते हैं कि साइट पर आने वालों को वही कॉन्टेंट दिखे जो आप उन्हें दिखाना चाहते हैं.

  • 301 का इस्तेमाल करना: अगर आपने अपनी साइट का स्ट्रक्चर बदला है, तो उपयोगकर्ताओं, Googlebot, और दूसरे स्पाइडर को समझदारी से रीडायरेक्ट करने के लिए अपनी .htaccess फ़ाइल में 301 रीडायरेक्ट ("RedirectPermanent") का इस्तेमाल करें. (Apache में, आप .htaccess फ़ाइल से ऐसा कर सकते हैं; IIS में, आप एडमिन कंसोल से ऐसा कर सकते हैं.)
  • एक ही तरह से लिंक करना: अंदरूनी लिंकिंग को एक ही तरह का बनाए रखने की कोशिश करें. उदाहरण के लिए, http://www.example.com/page/, http://www.example.com/page, और http://www.example.com/page/index.htm से लिंक न करें.
  • डोमेन नाम में डॉट के बाद के हिस्से का इस्तेमाल करना: किसी दस्तावेज़ का सबसे सही वर्शन दिखाने में हमारी मदद करने के लिए जब भी हो सके, देश के हिसाब से कॉन्टेंट प्रबंधित करने के लिए डोमेन नाम में डॉट के बाद के हिस्से का इस्तेमाल करें. आम तौर पर, हम http://www.example.com/de या http://de.example.com के बजाय http://www.example.de को देखकर यह जान लेते हैं कि इसमें जर्मनी के हिसाब से कॉन्टेंट दिया गया है.
  • कॉन्टेंट को सावधानी से बांटें: अगर आप अपने कॉन्टेंट को दूसरी साइटों पर बांटते हैं, तो Google हमेशा वही वर्शन दिखाएगा जो हमारे मुताबिक हर एक दी गई खोज में उपयोगकर्ताओं के लिए सबसे सही है. हो सकता है कि यह आपका पसंदीदा वर्शन हो या ऐसा नहीं भी हो सकता है. हालांकि, यह देख लेने से मदद मिलती है कि हर वह साइट जिस पर आपका कॉन्टेंट बांटा जाता है, उसमें आपके मूल लेख में वापस जाने के लिए एक लिंक शामिल हो. आप अपने बांटे गए कॉन्टेंट का इस्तेमाल करने वालों से यह भी कह सकते हैं कि वे कॉन्टेंट के अपने वर्शन को सर्च इंजन से इंडेक्स किए जाने से रोकने के लिए noindex मेटा टैग का इस्तेमाल करें.
  • बॉइलरप्लेट दोहराव को कम से कम करें: उदाहरण के लिए, हर पेज के नीचे लंबे कॉपीराइट लेख को शामिल करने के बजाय, एक छोटी-सी खास जानकारी शामिल करें; फिर उसे ज़्यादा जानकारी वाले किसी पेज से लिंक करें. साथ ही, आप यह बताने के लिए पैरामीटर हैंडलिंग टूल का इस्तेमाल कर सकते हैं कि आप Google से यूआरएल पैरामीटर को किस तरह प्रबंधित कराना पसंद करते हैं.
  • स्टब प्रकाशित करने से बचें: उपयोगकर्ता "खाली" पेज देखना पसंद नहीं करते, इसलिए जहां तक हो सके प्लेसहोल्डर से बचें. उदाहरण के लिए, ऐसे पेज प्रकाशित न करें जिनके लिए आपके पास अभी तक असली कॉन्टेंट नहीं है. अगर आप प्लेसहोल्डर वाले पेज बनाते हैं, तो इन पेजों को इंडेक्स होने से ब्लॉक करने के लिए noindex मेटा टैग का इस्तेमाल करें.
  • अपने कॉन्टेंट मैनेजमेंट सिस्टम को समझें: पक्का करें कि आप अपनी वेबसाइट पर कॉन्टेंट दिखाए जाने का तरीका जानते हैं. ब्लॉग, फ़ोरम और संबंधित सिस्टम अक्सर कई फ़ॉर्मैट में एक जैसा कॉन्टेंट दिखाते हैं. उदाहरण के लिए, ब्लॉग एंट्री किसी ब्लॉग के होम पेज, किसी संग्रह पेज, और समान लेबल वाली दूसरी एंट्री के किसी पेज में दिखाई दे सकती है.
  • एक जैसा कॉन्टेंट कम से कम दिखाएं: अगर आपके पास एक जैसे कई पेज हैं, तो कृपया हर एक पेज को बड़ा करने या पेजों को एक ही पेज में मिलाने के बारे में सोचें. उदाहरण के लिए, अगर आपके पास दो शहरों के लिए अलग-अलग पेजों वाली कोई यात्रा साइट है, लेकिन दोनों पेजों पर समान जानकारी है, तो या तो आप पेजों को एक करके दोनों शहरों के बारे में एक पेज बना सकते हैं या आप हर एक पेज में हर एक शहर के बारे में अलग कॉन्टेंट शामिल करके उन्हें बड़ा कर सकते हैं.

Google आपकी वेबसाइट पर डुप्लीकेट कॉन्टेंट के लिए क्रॉलर ऐक्सेस को robots.txt फ़ाइल के साथ या किसी दूसरे तरीके से ब्लॉक करने का सुझाव नहीं देता. अगर सर्च इंजन डुप्लीकेट कॉन्टेंट वाले पेजों को क्रॉल नहीं कर सकते, तो वे अपने-आप यह पता नहीं लगा सकते कि ये यूआरएल एक ही कॉन्टेंट पर ले जाते हैं. इसलिए, यह डुप्लीकेट कॉन्टेंट को अलग-अलग पेजों के तौर पर देखते हैं. इस समस्या को हल करने का बेहतर तरीका यह है कि सर्च इंजन को इन यूआरएल को क्रॉल करने की अनुमति दे दी जाए. हालांकि, rel="canonical" लिंक ऐलीमेंट, यूआरएल पैरामीटर हैंडलिंग टूल या 301 रीडायरेक्ट का इस्तेमाल करके, इन यूआरएल को डुप्लीकेट के तौर पर मार्क कर देना चाहिए. ऐसे मामलों में जहां डुप्लीकेट कॉन्टेंट की वजह से हम आपकी वेबसाइट को बहुत ज़्यादा क्रॉल करते हैं, आप Search Console में क्रॉल दर की सेटिंग को कम-ज़्यादा भी कर सकते हैं.

किसी साइट पर डुप्लीकेट कॉन्टेंट का होना उस साइट पर कार्रवाई करने का आधार तब तक नहीं होता, जब तक यह न लगे कि डुप्लीकेट कॉन्टेंट का मकसद भ्रामक और सर्च इंजन के नतीजों में हेर-फेर करना है. अगर आपकी साइट में डुप्लीकेट कॉन्टेंट की समस्याएं हैं और आप ऊपर सूची में दी गई सलाह को नहीं मानते, तो हम अपने खोज नतीजों में दिखाने के लिए कॉन्टेंट का वर्शन चुनने में अच्छी मदद करते हैं.

हालांकि, अगर हमारी समीक्षा यह दिखाती है कि आप धोखाधड़ी वाले काम करते हैं और आपकी साइट को हमारे खोज नतीजों से हटा दिया गया है, तो अपनी साइट की सावधानी से समीक्षा करें. अगर आपकी साइट को हमारे खोज नतीजों से हटा दिया गया है, तो ज़्यादा जानकारी के लिए हमारी वेबमास्टर गाइडलाइन देखें. जब आप बदलाव कर लें और आपको भरोसा हो जाए कि आपकी साइट अब हमारे दिशा-निर्देशों का उल्लंघन नहीं करती है, तो साइट को खोज के नतीजों में फिर से दिखाने का अनुरोध सबमिट करें.

बहुत कम मामलों में, हमारा एल्गोरिदम बाहरी साइट से एक यूआरएल चुन सकता है, जो आपके कॉन्टेंट को आपकी अनुमति के बिना होस्ट कर रही है. अगर आपको लगता है कि कोई अन्य साइट, आपके कॉन्टेंट को डुप्लीकेट करके कॉपीराइट के कानून का उल्लंघन कर रही है, तो आप उस साइट के होस्ट से कॉन्टेंट हटाने का अुरोध कर सकते हैं. इसके अलावा, आप डिजिटल मिलेनियम कॉपीराइट ऐक्ट के तहत एक अनुरोध भरकर Google से, हमारे खोज नतीजों का उल्लंघन करने वाले पेजों को हटाने का अनुरोध कर सकते हैं.