साइट के मालिकों के लिए Search कैसे काम करता है

Google Search पूरी तरह से अपने-आप काम करने वाला सर्च इंजन है, जो वेब क्रॉलर सॉफ़्टवेयर का इस्तेमाल करता है. यह सॉफ़्टवेयर, नियमित तौर पर पेज खोजता रहता है, ताकि उन्हें हमारे इंडेक्स में जोड़ सके. असल में, खोज के नतीजों में दिखने वाले ज़्यादातर पेज मैन्युअल तौर पर सबमिट नहीं किए जाते हैं. हमारा वेब क्रॉलर जब वेब पर पेजों को एक्सप्लोर करता है, तब वह पेजों को ढूंढकर अपने-आप हमारे इंडेक्स में जोड़ देता है. इस दस्तावेज़ में बताया गया है कि आपकी वेबसाइट के लिए Search कैसे काम करता है. इस बुनियादी जानकारी की मदद से, क्रॉलिंग से जुड़ी समस्याओं को ठीक किया जा सकता है और अपने पेजों को इंडेक्स कराया जा सकता है. साथ ही, यह जाना जा सकता है कि Google Search में अपनी साइट के दिखने के तरीके को ऑप्टिमाइज़ कैसे किया जाए.

शुरू करने से पहले, ध्यान रखने लायक कुछ बातें

Search के काम करने का तरीका जानने से पहले, यह जानना ज़रूरी है कि Google, किसी साइट को ज़्यादा बार क्रॉल करने या उसकी रैंकिंग बढ़ाने के लिए पैसे नहीं लेता है. अगर किसी व्यक्ति से आपको यह जानकारी मिलती है कि Google ऐसा करने के लिए पैसे लेता है, तो वह गलत है.

Google इस बात की गारंटी नहीं देता कि वह आपके पेज को क्रॉल करेगा, उसे इंडेक्स करेगा या उसे नतीजों में दिखाएगा. भले ही, आपका पेज साइट के मालिकों के लिए Google के दिशा-निर्देशों और नीतियों का पालन करता हो.

Google Search तीन चरणों में काम करता है. हालांकि, हर पेज सभी चरणों तक नहीं पहुंच पाता. ये तीन चरण हैं:

  1. क्रॉल करना: क्रॉलर की मदद से Google, इंटरनेट पर मिले पेजों के टेक्स्ट, इमेज, और वीडियो को डाउनलोड कर लेता है. क्रॉलर अपने-आप काम करने वाला एक प्रोग्राम होता है.
  2. इंडेक्स करना: पेज के टेक्स्ट, इमेज, और वीडियो का विश्लेषण करने के बाद, Google इस जानकारी को Google इंडेक्स में सेव करता है. Google इंडेक्स एक बहुत बड़ा डेटाबेस है.
  3. खोज के नतीजे दिखाना: जब कोई उपयोगकर्ता Google पर कुछ खोजता है, तब Google, उपयोगकर्ता की क्वेरी के हिसाब से नतीजे दिखाता है.

क्रॉल करना

पहला चरण में यह पता लगाया जाता है कि वेब पर कौन-कौनसे पेज मौजूद हैं. सभी वेब पेजों के लिए कोई एक रजिस्ट्री नहीं है, इसलिए Google लगातार नए और अपडेट किए गए पेजों को ढूंढता है. साथ ही, वह उन्हें ऐसे पेजों की सूची में जोड़ता रहता है जिनकी उसे पहले से जानकारी है. इस प्रोसेस को "यूआरएल की खोज" कहा जाता है. Google के पास कुछ पेजों के बारे में पहले से जानकारी होती है, क्योंकि वे पहले ही क्रॉल किए जा चुके होते हैं. जब क्रॉल किए जा चुके किसी पेज से Google को नए पेज का लिंक मिलता है, तब उसे दूसरे पेजों का पता चलता है: उदाहरण के लिए, कैटगरी वाले पेज जैसा कोई हब पेज, जिसमें किसी नए ब्लॉग पोस्ट का लिंक मौजूद हो. कुछ पेज तब मिलते हैं, जब पेजों को क्रॉल करवाने के लिए, उनकी सूची (साइटमैप) Google को सबमिट की जाती है.

पेज का यूआरएल खोजने के बाद Google, पेज पर मौजूद कॉन्टेंट का पता लगाने के लिए, उस पेज पर जा सकता है या उसे क्रॉल कर सकता है. हम वेब पर अरबों पेजों को क्रॉल करने के लिए बहुत सारे कंप्यूटर का इस्तेमाल करते हैं. पेज फ़ेच करने वाले प्रोग्राम को Googlebot कहा जाता है. इसे रोबोट, बॉट या स्पाइडर भी कहा जाता है. Googlebot, एल्गोरिदम प्रोसेस का इस्तेमाल करके यह तय करता है कि किस साइट को क्रॉल करना है, उसे कितनी बार क्रॉल करना है, और हर साइट के कितने पेज क्रॉल करने हैं. Google के क्रॉलर की प्रोग्रामिंग करते हुए यह भी ध्यान रखा गया है कि वे साइट को बहुत तेज़ी से क्रॉल न करें, ताकि साइट ओवरलोड न हो. यह तरीका साइट के रिस्पॉन्स (जैसे कि HTTP 500 गड़बड़ी, जिसका मतलब "धीमा होना" है) और Search Console की सेटिंग के हिसाब से काम करता है.

हालांकि, Googlebot खोजे गए सभी पेजों को क्रॉल नहीं करता है. हो सकता है कि साइट के मालिक की तरफ़ से कुछ पेजों को क्रॉल करने की अनुमति न हो, कुछ पेजों को साइट पर लॉगिन किए बिना ऐक्सेस न किया जा सकता हो, और कुछ पेज पहले क्रॉल किए गए पेजों के डुप्लीकेट हों. उदाहरण के लिए, ज़्यादातर साइटों को डोमेन नेम के www (www.example.com) और बिना www (example.com) वाले वर्शन से ऐक्सेस किया जा सकता है. साथ ही, दोनों वर्शन का कॉन्टेंट बिल्कुल एक जैसा होता है.

क्रॉल करते समय Google, पेज को रेंडर करता है और Chrome के हाल ही के वर्शन का इस्तेमाल करके, पेज पर मिली JavaScript को चलाता है. यह ठीक उसी तरह होता है जिस तरह आपका ब्राउज़र आपके विज़िट किए गए पेजों को रेंडर करता है. रेंडरिंग अहम है, क्योंकि पेज पर कॉन्टेंट लाने के लिए, वेबसाइटें अक्सर JavaScript पर भरोसा करती हैं. इसलिए, हो सकता है कि रेंडरिंग के बिना Google को वह कॉन्टेंट न दिखे.

क्रॉलिंग इस बात पर निर्भर करती है कि Google के क्रॉलर, साइट को ऐक्सेस कर पा रहे हैं या नहीं. साइट ऐक्सेस करने से जुड़ी, Googlebot की कुछ सामान्य समस्याएं ये हैं:

इंडेक्स करना

पेज को क्रॉल करने के बाद, Google यह समझने की कोशिश करता है कि पेज किस बारे में है. इस चरण को इंडेक्स करना कहते हैं. इसमें, टेक्स्ट कॉन्टेंट के साथ-साथ अहम कॉन्टेंट टैग और एट्रिब्यूट को प्रोसेस करना और उनका विश्लेषण करना शामिल है, जैसे कि<title> एलिमेंट और ऑल्ट एट्रिब्यूट, इमेज, वीडियो वगैरह.

इंडेक्स करते समय, Google यह पता लगाता है कि कोई पेज, इंटरनेट पर मौजूद किसी दूसरे पेज का डुप्लीकेट या कैननिकल है या नहीं. कैननिकल वह पेज होता है जिसे खोज के नतीजों में दिखाया जा सकता है. कैननिकल चुनने के लिए, हम सबसे पहले इंटरनेट पर मिले उन पेजों का क्लस्टर बनाते हैं जिनमें मिलता-जुलता कॉन्टेंट हो. इसके बाद, हम उस पेज को चुनते हैं जो उस ग्रुप का सबसे अच्छी तरह प्रतिनिधित्व करता हो. ग्रुप के बाकी पेज वैकल्पिक वर्शन होते हैं. इन्हें अलग-अलग संदर्भों में दिखाया जा सकता है. जैसे- जब कोई उपयोगकर्ता मोबाइल डिवाइस से कुछ खोज रहा हो या उस क्लस्टर के किसी खास पेज को ढूंढा जा रहा हो.

Google, कैननिकल पेज और उसके कॉन्टेंट से जुड़े सिग्नल भी इकट्ठा करता है. इनका इस्तेमाल अगले चरण में किया जा सकता है. अगले चरण में पेज को खोज के नतीजों में दिखाया जाता है. कुछ सिग्नल में पेज की भाषा, कॉन्टेंट किस देश में बनाया गया है, और पेज की उपयोगिता जैसी जानकारी शामिल होती है.

कैननिकल पेज और इसके क्लस्टर के बारे में इकट्ठा की गई जानकारी को Google इंडेक्स में सेव किया जा सकता है. Google इंडेक्स एक बहुत बड़ा डेटाबेस है, जिसे हजारों कंप्यूटर पर होस्ट किया गया है. Google, इंडेक्स करने की गारंटी नहीं देता. ऐसा ज़रूरी नहीं है कि उन सभी पेजों को इंडेक्स किया जाए जिन्हें Google ने प्रोसेस किया हो.

इंडेक्स करना, पेज के कॉन्टेंट और उसके मेटाडेटा पर भी निर्भर करता है. इंडेक्स करने से जुड़ी कुछ सामान्य समस्याएं ये हैं:

खोज के नतीजे दिखाना

जब कोई उपयोगकर्ता कोई क्वेरी डालता है, तो हमारी मशीनें क्वेरी से मिलते-जुलते पेजों को इंडेक्स में खोजती हैं. इसके बाद, वे ऐसे नतीजे दिखाती हैं जिन्हें हम सबसे अच्छी क्वालिटी वाला और उपयोगकर्ता के लिए सबसे ज़्यादा काम का मानते हैं. कॉन्टेंट काम का है या नहीं, यह सैकड़ों बातों पर निर्भर करता है. इनमें उपयोगकर्ता की जगह, भाषा, और डिवाइस (डेस्कटॉप या फ़ोन) जैसी जानकारी शामिल होती है. उदाहरण के लिए, अगर पेरिस में कोई उपयोगकर्ता इंटरनेट पर "साइकल की मरम्मत करने वाली दुकान" के बारे में खोजता है और हॉन्ग कॉन्ग में भी कोई उपयोगकर्ता इंटरनेट पर यही खोज करता है, तो दोनों को अलग-अलग खोज नतीजे दिखेंगे.

हो सकता है कि Search Console आपको यह बताए कि पेज इंडेक्स हो गया है, लेकिन आपको वह खोज के नतीजों में न दिखता हो. ऐसा इन वजहों से हो सकता है:

इस गाइड में Search के काम करने का तरीका बताया गया है. हालांकि, हम अपने एल्गोरिदम को बेहतर बनाने के लिए लगातार काम कर रहे हैं. Google Search Central के ब्लॉग को फ़ॉलो करके, इन बदलावों के बारे में जानकारी पाई जा सकती है.