प्रोडक्शन एमएल सिस्टम: पूछे जाने वाले सवाल

इस लेसन में, उन सवालों पर फ़ोकस किया गया है जो आपको प्रोडक्शन सिस्टम में अपने डेटा और मॉडल के बारे में पूछने चाहिए.

क्या हर सुविधा काम की है?

आपको अपने मॉडल पर लगातार नज़र रखनी चाहिए, ताकि ऐसी सुविधाओं को हटाया जा सके जिनसे मॉडल की अनुमान लगाने की क्षमता पर ज़्यादा असर नहीं पड़ता या कोई असर नहीं पड़ता. अगर उस सुविधा के लिए, इनपुट डेटा अचानक बदल जाता है, तो हो सकता है कि आपके मॉडल का व्यवहार भी अचानक, गलत तरीके से बदल जाए.

इस बारे में यह सवाल भी देखें:

  • क्या इस सुविधा को शामिल करने की लागत, इसके फ़ायदों के हिसाब से सही है?

मॉडल में ज़्यादा सुविधाएं जोड़ने का हमेशा मन करता है. उदाहरण के लिए, मान लें कि आपको एक नई सुविधा मिलती है. इस सुविधा को जोड़ने से, आपके मॉडल के अनुमान थोड़े बेहतर हो जाते हैं. थोड़े बेहतर अनुमान, थोड़े खराब अनुमान से ज़्यादा बेहतर होते हैं. हालांकि, अतिरिक्त सुविधा से, रखरखाव का बोझ बढ़ जाता है.

क्या आपका डेटा सोर्स भरोसेमंद है?

इनपुट डेटा के भरोसेमंद होने के बारे में पूछे जाने वाले कुछ सवाल:

  • क्या सिग्नल हमेशा उपलब्ध रहेगा या यह किसी भरोसेमंद सोर्स से नहीं आ रहा है? उदाहरण के लिए:
    • क्या सिग्नल किसी ऐसे सर्वर से आ रहा है जो ज़्यादा लोड होने पर क्रैश हो जाता है?
    • क्या यह सिग्नल उन लोगों से मिल रहा है जो हर अगस्त में छुट्टी पर जाते हैं?
  • क्या आपके मॉडल के इनपुट डेटा का हिसाब लगाने वाला सिस्टम कभी बदलता है? अगर हां, तो:
    • कितनी बार?
    • आपको कैसे पता चलेगा कि सिस्टम में बदलाव हुआ है?

अपस्ट्रीम प्रोसेस से मिलने वाले डेटा की अपनी कॉपी बनाएं. इसके बाद, अपस्ट्रीम डेटा के अगले वर्शन पर सिर्फ़ तब जाएं, जब आपको यह पक्का हो कि ऐसा करना सुरक्षित है.

क्या आपका मॉडल, फ़ीडबैक लूप का हिस्सा है?

कभी-कभी मॉडल, अपने ट्रेनिंग डेटा पर असर डाल सकता है. उदाहरण के लिए, कुछ मॉडल के नतीजे, सीधे या अप्रत्यक्ष रूप से उसी मॉडल के इनपुट फ़ीचर बन जाते हैं.

कभी-कभी, एक मॉडल का असर दूसरे मॉडल पर पड़ सकता है. उदाहरण के लिए, स्टॉक की कीमतों का अनुमान लगाने के लिए, दो मॉडल देखें:

  • मॉडल A, जो अनुमान लगाने वाला खराब मॉडल है.
  • मॉडल B.

मॉडल A में गड़बड़ी है, इसलिए यह गलती से स्टॉक X में स्टॉक खरीदने का फ़ैसला लेता है. इन खरीदारी से स्टॉक X की कीमत बढ़ जाती है. मॉडल B, स्टॉक X की कीमत का इस्तेमाल इनपुट फ़ीचर के तौर पर करता है. इसलिए, मॉडल B, स्टॉक X की वैल्यू के बारे में कुछ गलत नतीजे दे सकता है. इसलिए, मॉडल A के गड़बड़ी वाले व्यवहार के आधार पर, मॉडल B, स्टॉक X के शेयर खरीद या बेच सकता है. मॉडल B के व्यवहार से, मॉडल A पर असर पड़ सकता है. इससे, ट्यूलिप मनिया या कंपनी X के स्टॉक में गिरावट आ सकती है.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

इनमें से तीन मॉडल, फ़ीडबैक लूप के शिकार हो सकते हैं?
यह यूनिवर्सिटी की रैंकिंग का एक मॉडल है. इसमें स्कूलों को, उनके चुने जाने के आधार पर रैंक दी जाती है. चुने जाने का मतलब है कि आवेदन करने वाले छात्र-छात्राओं में से कितने को स्वीकार किया गया.
यह चेहरे की विशेषताओं का एक मॉडल है. इससे पता चलता है कि फ़ोटो में कोई व्यक्ति मुस्कुरा रहा है या नहीं. इसे स्टॉक फ़ोटोग्राफ़ी के डेटाबेस पर नियमित तौर पर ट्रेनिंग दी जाती है. यह डेटाबेस हर महीने अपने-आप अपडेट होता है.
ट्रैफ़िक का अनुमान लगाने वाला मॉडल, जो समुद्र के किनारे हाइवे के एग्ज़िट पर होने वाली भीड़ का अनुमान लगाता है. इसके लिए, समुद्र के किनारे मौजूद लोगों की संख्या का इस्तेमाल किया जाता है.
हाउसिंग-वैल्यू मॉडल, जो घर की कीमतों का अनुमान लगाता है. इसके लिए, यह घर के साइज़ (वर्ग मीटर में क्षेत्र), बेडरूम की संख्या, और भौगोलिक जगह को फ़ीचर के तौर पर इस्तेमाल करता है.
किताब के सुझाव देने वाला मॉडल, जो किताबों की लोकप्रियता (यानी किताबों को खरीदे जाने की संख्या) के आधार पर, उपयोगकर्ताओं को उनकी पसंद के उपन्यासों के सुझाव देता है.
चुनाव के नतीजों का एक मॉडल, जो मतदान खत्म होने के बाद 2% मतदाताओं का सर्वे करके, महापौर के चुनाव में जीतने वाले उम्मीदवार का अनुमान लगाता है.