इस लेसन में, उन सवालों पर फ़ोकस किया गया है जो आपको प्रोडक्शन सिस्टम में अपने डेटा और मॉडल के बारे में पूछने चाहिए.
क्या हर सुविधा काम की है?
आपको अपने मॉडल पर लगातार नज़र रखनी चाहिए, ताकि ऐसी सुविधाओं को हटाया जा सके जिनसे मॉडल की अनुमान लगाने की क्षमता पर ज़्यादा असर नहीं पड़ता या कोई असर नहीं पड़ता. अगर उस सुविधा के लिए, इनपुट डेटा अचानक बदल जाता है, तो हो सकता है कि आपके मॉडल का व्यवहार भी अचानक, गलत तरीके से बदल जाए.
इस बारे में यह सवाल भी देखें:
- क्या इस सुविधा को शामिल करने की लागत, इसके फ़ायदों के हिसाब से सही है?
मॉडल में ज़्यादा सुविधाएं जोड़ने का हमेशा मन करता है. उदाहरण के लिए,
मान लें कि आपको एक नई सुविधा मिलती है. इस सुविधा को जोड़ने से, आपके मॉडल के अनुमान थोड़े बेहतर हो जाते हैं. थोड़े बेहतर अनुमान, थोड़े खराब अनुमान से ज़्यादा बेहतर होते हैं. हालांकि, अतिरिक्त सुविधा से, रखरखाव का बोझ बढ़ जाता है.
क्या आपका डेटा सोर्स भरोसेमंद है?
इनपुट डेटा के भरोसेमंद होने के बारे में पूछे जाने वाले कुछ सवाल:
- क्या सिग्नल हमेशा उपलब्ध रहेगा या यह किसी भरोसेमंद सोर्स से नहीं आ रहा है? उदाहरण के लिए:
- क्या सिग्नल किसी ऐसे सर्वर से आ रहा है जो ज़्यादा लोड होने पर क्रैश हो जाता है?
- क्या यह सिग्नल उन लोगों से मिल रहा है जो हर अगस्त में छुट्टी पर जाते हैं?
- क्या आपके मॉडल के इनपुट डेटा का हिसाब लगाने वाला सिस्टम कभी बदलता है? अगर हां, तो:
- कितनी बार?
- आपको कैसे पता चलेगा कि सिस्टम में बदलाव हुआ है?
अपस्ट्रीम प्रोसेस से मिलने वाले डेटा की अपनी कॉपी बनाएं. इसके बाद, अपस्ट्रीम डेटा के अगले वर्शन पर सिर्फ़ तब जाएं, जब आपको यह पक्का हो कि ऐसा करना सुरक्षित है.
क्या आपका मॉडल, फ़ीडबैक लूप का हिस्सा है?
कभी-कभी मॉडल, अपने ट्रेनिंग डेटा पर असर डाल सकता है. उदाहरण के लिए, कुछ मॉडल के नतीजे, सीधे या अप्रत्यक्ष रूप से उसी मॉडल के इनपुट फ़ीचर बन जाते हैं.
कभी-कभी, एक मॉडल का असर दूसरे मॉडल पर पड़ सकता है. उदाहरण के लिए, स्टॉक की कीमतों का अनुमान लगाने के लिए, दो मॉडल देखें:
- मॉडल A, जो अनुमान लगाने वाला खराब मॉडल है.
- मॉडल B.
मॉडल A में गड़बड़ी है, इसलिए यह गलती से स्टॉक X में स्टॉक खरीदने का फ़ैसला लेता है.
इन खरीदारी से स्टॉक X की कीमत बढ़ जाती है. मॉडल B, स्टॉक X की कीमत का इस्तेमाल इनपुट फ़ीचर के तौर पर करता है. इसलिए, मॉडल B, स्टॉक X की वैल्यू के बारे में कुछ गलत नतीजे दे सकता है. इसलिए, मॉडल A के गड़बड़ी वाले व्यवहार के आधार पर, मॉडल B, स्टॉक X के शेयर खरीद या बेच सकता है.
मॉडल B के व्यवहार से, मॉडल A पर असर पड़ सकता है. इससे, ट्यूलिप मनिया या कंपनी X के स्टॉक में गिरावट आ सकती है.
एक्सरसाइज़: देखें कि आपको क्या समझ आया
इनमें से तीन मॉडल, फ़ीडबैक लूप के शिकार हो सकते हैं?
ट्रैफ़िक का अनुमान लगाने वाला मॉडल, जो समुद्र के किनारे हाइवे के एग्ज़िट पर होने वाली भीड़ का अनुमान लगाता है. इसके लिए, समुद्र के किनारे मौजूद लोगों की संख्या का इस्तेमाल किया जाता है.
समुद्र तट पर जाने वाले कुछ लोग, ट्रैफ़िक के अनुमान के आधार पर अपने प्लान बना सकते हैं. अगर समुद्र तट पर बहुत ज़्यादा भीड़ है और ट्रैफ़िक के ज़्यादा होने का अनुमान है, तो हो सकता है कि कई लोग कोई दूसरा प्लान बना लें. इससे समुद्र तट पर आने वाले लोगों की संख्या कम हो सकती है. इस वजह से, ट्रैफ़िक के कम होने का अनुमान लगाया जा सकता है. इससे, समुद्र तट पर आने वाले लोगों की संख्या बढ़ सकती है और यह सिलसिला दोहराया जा सकता है.
किताब के सुझाव देने वाला मॉडल, जो किताबों की लोकप्रियता (यानी किताबों को खरीदे जाने की संख्या) के आधार पर, उपयोगकर्ताओं को उनकी पसंद के उपन्यासों के सुझाव देता है.
किताबों के सुझावों से खरीदारी बढ़ सकती है. साथ ही, इन बिक्री की जानकारी को मॉडल में इनपुट के तौर पर फिर से डाला जाएगा. इससे, आने वाले समय में इन किताबों के सुझाव मिलने की संभावना बढ़ जाएगी.
यह यूनिवर्सिटी की रैंकिंग का एक मॉडल है. इसमें स्कूलों को, उनके चुने जाने के आधार पर रैंक दी जाती है. चुने जाने का मतलब है कि आवेदन करने वाले छात्र-छात्राओं में से कितने को स्वीकार किया गया.
मॉडल की रैंकिंग से, सबसे ज़्यादा रेटिंग वाले स्कूलों में ज़्यादा दिलचस्पी बढ़ सकती है. इससे उन्हें आवेदनों की संख्या में बढ़ोतरी मिल सकती है. अगर ये स्कूल, पहले की तरह ही छात्र-छात्राओं को दाखिला देते रहेंगे, तो चुनिंदा छात्र-छात्राओं को दाखिला देने की संख्या बढ़ जाएगी. साथ ही, दाखिला लेने वाले छात्र-छात्राओं का प्रतिशत कम हो जाएगा. इससे इन स्कूलों की रैंकिंग बेहतर होगी. इससे, संभावित छात्र-छात्राओं की दिलचस्पी भी बढ़ेगी.
चुनाव के नतीजों का एक मॉडल, जो मतदान खत्म होने के बाद 2% मतदाताओं का सर्वे करके, महापौर के चुनाव में जीतने वाले उम्मीदवार का अनुमान लगाता है.
अगर मॉडल, मतदान की प्रक्रिया खत्म होने के बाद ही अपना अनुमान पब्लिश करता है, तो उसके अनुमान से मतदाताओं के व्यवहार पर असर नहीं पड़ सकता.
हाउसिंग-वैल्यू मॉडल, जो घर की कीमतों का अनुमान लगाता है. इसके लिए, यह घर के साइज़ (वर्ग मीटर में क्षेत्र), बेडरूम की संख्या, और भौगोलिक जगह को फ़ीचर के तौर पर इस्तेमाल करता है.
किराये के अनुमान के हिसाब से, घर की जगह, साइज़ या बेडरूम की संख्या में तुरंत बदलाव नहीं किया जा सकता. इसलिए, फ़ीडबैक लूप की संभावना कम हो जाती है. हालांकि, हो सकता है कि बिस्तरों के कमरे के साइज़ और संख्या के बीच कोई संबंध हो. बड़े घरों में ज़्यादा कमरे हो सकते हैं. इसलिए, इन दोनों को अलग-अलग इकाइयों के तौर पर देखा जा सकता है.
यह चेहरे की विशेषताओं का एक मॉडल है. इससे पता चलता है कि फ़ोटो में कोई व्यक्ति मुस्कुरा रहा है या नहीं. इसे स्टॉक फ़ोटोग्राफ़ी के डेटाबेस पर नियमित तौर पर ट्रेनिंग दी जाती है. यह डेटाबेस हर महीने अपने-आप अपडेट होता है.
यहां कोई फ़ीडबैक लूप नहीं है, क्योंकि मॉडल के अनुमान से फ़ोटो डेटाबेस पर कोई असर नहीं पड़ता. हालांकि, इनपुट डेटा के वर्शन को मैनेज करना एक समस्या है, क्योंकि हर महीने होने वाले इन अपडेट से मॉडल पर अनचाहे असर पड़ सकते हैं.