समस्या को समझना

समस्या को समझने के लिए, ये काम करें:

उस प्रॉडक्ट का लक्ष्य बताएं जिसे डेवलप किया जा रहा है या जिसे रीफ़ैक्टर किया जा रहा है.
यह तय करें कि लक्ष्य को अनुमानित एमएल, जनरेटिव एआई या एमएल के अलावा किसी अन्य सलूशन का इस्तेमाल करके हल किया जा सकता है या नहीं.
अगर अनुमानित एमएल तरीके का इस्तेमाल किया जा रहा है, तो पुष्टि करें कि आपके पास मॉडल को ट्रेन करने के लिए ज़रूरी डेटा है.

लक्ष्य बताएं

अपने लक्ष्य को बिना मशीन लर्निंग वाले शब्दों में बताकर शुरुआत करें. लक्ष्य, "मुझे क्या हासिल करना है?" सवाल का जवाब होता है.

नीचे दी गई टेबल में, काल्पनिक ऐप्लिकेशन के लक्ष्यों के बारे में साफ़ तौर पर बताया गया है:

ऐप्लिकेशन	लक्ष्य
मौसम बताने वाला ऐप्लिकेशन	किसी भौगोलिक क्षेत्र के लिए, छह घंटे के अंतराल में बारिश की गिनती करें.
फ़ैशन ऐप्लिकेशन	शर्ट के अलग-अलग डिज़ाइन जनरेट करें.
वीडियो ऐप्लिकेशन	काम के वीडियो के सुझाव देना.
Mail ऐप्लिकेशन	स्पैम का पता लगाना.
वित्तीय ऐप्लिकेशन	अलग-अलग खबरों के सोर्स से मिली वित्तीय जानकारी को कम शब्दों में बताएं.
मैप ऐप्लिकेशन	यात्रा में लगने वाले समय का हिसाब लगाएं.
बैंकिंग ऐप्लिकेशन	धोखाधड़ी वाले लेन-देन की पहचान करना.
डाइनिंग ऐप्लिकेशन	रेस्टोरेंट के मेन्यू से, खाने के अलग-अलग तरह के पकवानों की पहचान करना.
ई-कॉमर्स ऐप्लिकेशन	मददगार जवाब देकर, समीक्षाओं का जवाब दें.

मशीन लर्निंग के लिए इस्तेमाल का उदाहरण

कुछ लोग एमएल को एक ऐसा टूल मानते हैं जिसे सभी समस्याओं पर लागू किया जा सकता है. असल में, एमएल एक खास टूल है, जो सिर्फ़ चुनिंदा समस्याओं के लिए सही है. जब कोई आसान गैर-एमएल समाधान काम करेगा, तो आपको एमएल का जटिल समाधान लागू नहीं करना है.

एमएल सिस्टम को दो बड़ी कैटगरी में बांटा जा सकता है: प्रेडिकटिव एमएल और जनरेटिव एआई. यहां दी गई टेबल में, इनकी खास विशेषताओं के बारे में बताया गया है:

	इनपुट	आउटपुट	ट्रेनिंग की तकनीक
प्रेडिकटिव एमएल	टेक्स्ट इमेज ऑडियो वीडियो अंकीय	अनुमान लगाता है. उदाहरण के लिए, किसी ईमेल को स्पैम या नॉन-स्पैम के तौर पर बांटना, कल होने वाली बारिश का अनुमान लगाना या किसी स्टॉक की कीमत का अनुमान लगाना. आम तौर पर, नतीजे की पुष्टि असल चीज़ों से की जा सकती है.	आम तौर पर, किसी खास टास्क को पूरा करने के लिए, सुपरवाइज़्ड, बिना निगरानी वाले या रिनफ़ोर्समेंट लर्निंग मॉडल को ट्रेन करने के लिए, बहुत ज़्यादा डेटा का इस्तेमाल किया जाता है.
जनरेटिव एआई	टेक्स्ट इमेज ऑडियो वीडियो अंक	उपयोगकर्ता के इंटेंट के आधार पर आउटपुट जनरेट करता है. उदाहरण के लिए, किसी लेख की खास जानकारी देना या कोई ऑडियो क्लिप या शॉर्ट वीडियो बनाना.	आम तौर पर, यह लार्ज लैंग्वेज मॉडल या इमेज जनरेटर को ट्रेन करने के लिए, बिना लेबल वाले काफ़ी डेटा का इस्तेमाल करता है, ताकि छूटे हुए डेटा को भरा जा सके. इसके बाद, इस मॉडल का इस्तेमाल उन टास्क के लिए किया जा सकता है जिन्हें खाली जगहों को भरने वाले टास्क के तौर पर फ़्रेम किया जा सकता है. इसके अलावा, इसे किसी खास टास्क के लिए लेबल किए गए डेटा पर ट्रेनिंग देकर, बेहतर बनाया जा सकता है. जैसे, क्लासिफ़िकेशन.

यह पुष्टि करने के लिए कि एमएल सही तरीका है, सबसे पहले पुष्टि करें कि आपका मौजूदा नॉन-एमएल सलूशन ऑप्टिमाइज़ किया गया है. अगर आपने मशीन लर्निंग के अलावा कोई दूसरा समाधान लागू नहीं किया है, तो हेयुरिस्टिक का इस्तेमाल करके, समस्या को मैन्युअल तरीके से हल करने की कोशिश करें.

बिना मशीन लर्निंग वाले समाधान को मानदंड के तौर पर इस्तेमाल करके, यह तय किया जा सकता है कि आपकी समस्या के लिए मशीन लर्निंग का इस्तेमाल करना सही है या नहीं. किसी मशीन लर्निंग (एमएल) मॉडल के मुकाबले, बिना एमएल वाले मॉडल की तुलना करते समय, इन सवालों पर विचार करें:

क्वालिटी. आपके हिसाब से, एमएल का समाधान कितना बेहतर हो सकता है? अगर आपको लगता है कि एमएल से मिलने वाला समाधान, मौजूदा समाधान से थोड़ा बेहतर है, तो इसका मतलब है कि मौजूदा समाधान सबसे अच्छा है.
लागत और रखरखाव. कम और ज़्यादा समय के लिए, एमएल का समाधान कितना महंगा है? कुछ मामलों में, मशीन लर्निंग को लागू करने के लिए, कंप्यूट संसाधनों और समय के हिसाब से काफ़ी ज़्यादा खर्च होता है. इन सवालों पर ध्यान दें:
- क्या एमएल से जुड़ा समाधान, लागत में हुई बढ़ोतरी को सही ठहरा सकता है? ध्यान दें कि बड़े सिस्टम में छोटे सुधार करने से, मशीन लर्निंग के सलूशन को लागू करने की लागत और रखरखाव की लागत को आसानी से पूरा किया जा सकता है.
- समाधान को कितना रखरखाव करना होगा? कई मामलों में, एमएल को लागू करने के लिए लंबे समय तक रखरखाव की ज़रूरत होती है.
- क्या आपके प्रॉडक्ट में, एमएल विशेषज्ञों को ट्रेनिंग देने या उन्हें हायर करने के लिए संसाधन हैं?

देखें कि आपको विषय की कितनी समझ है

किसी एमएल सलूशन का विश्लेषण करने से पहले, गैर-एमएल सलूशन या अनुमानी तरीके का इस्तेमाल करना क्यों ज़रूरी है?

एमएल समाधान को मेज़र करने के लिए, नॉन-एमएल समाधान को मानदंड के तौर पर इस्तेमाल किया जाता है.

बिना मशीन लर्निंग वाले समाधानों की मदद से, यह तय किया जा सकता है कि मशीन लर्निंग वाले समाधान की लागत कितनी होगी.

अनुमानित मशीन लर्निंग और डेटा

डेटा, अनुमानित एमएल की मुख्य ताकत है. अच्छे अनुमान लगाने के लिए, आपको ऐसे डेटा की ज़रूरत होती है जिसमें अनुमान लगाने की सुविधाओं के साथ सुविधाएं शामिल हों. आपके डेटा में ये चीज़ें होनी चाहिए:

ज़्यादा. आपके डेटासेट में जितने ज़्यादा काम के और काम के उदाहरण होंगे, आपका मॉडल उतना ही बेहतर होगा.
एक जैसे और भरोसेमंद. लगातार और भरोसेमंद तरीके से इकट्ठा किया गया डेटा, बेहतर मॉडल बनाता है. उदाहरण के लिए, मौसम के लिए एआई (AI) पर आधारित मॉडल को, कई सालों से एक ही भरोसेमंद इंस्ट्रूमेंट से इकट्ठा किए गए डेटा से फ़ायदा मिलेगा.
भरोसेमंद. यह समझना कि आपका डेटा कहां से आएगा. क्या डेटा, आपके प्रॉडक्ट के लॉग जैसे भरोसेमंद सोर्स से लिया जाएगा जिनका कंट्रोल आपके पास है या किसी दूसरे एमएल सिस्टम के आउटपुट जैसे ऐसे सोर्स से लिया जाएगा जिनके बारे में आपके पास ज़्यादा जानकारी नहीं है?
उपलब्ध है. पक्का करें कि अनुमान लगाने के समय सभी इनपुट सही फ़ॉर्मैट में उपलब्ध हों. अगर अनुमान लगाने के समय कुछ सुविधाओं की वैल्यू हासिल करना मुश्किल होगा, तो अपने डेटासेट से उन सुविधाओं को हटा दें.
सही. बड़े डेटासेट में, यह ज़रूरी है कि कुछ लेबल की वैल्यू गलत हों. हालांकि, अगर लेबल का कुछ प्रतिशत से ज़्यादा हिस्सा गलत है, तो मॉडल खराब अनुमान देगा.
प्रतिनिधि. डेटासेट, ज़्यादा से ज़्यादा असल दुनिया के बारे में बताने वाले होने चाहिए. दूसरे शब्दों में, डेटासेट में, मॉडल किए जा रहे असल दुनिया के इवेंट, उपयोगकर्ता के व्यवहार, और/या घटनाओं को सटीक तरीके से दिखाया जाना चाहिए. जब मॉडल से असल दुनिया के बारे में अनुमान लगाने के लिए कहा जाता है, तो गलत डेटासेट पर ट्रेनिंग करने से परफ़ॉर्मेंस खराब हो सकती है.

अगर आपको ज़रूरी फ़ॉर्मैट में डेटा नहीं मिलता है, तो आपका मॉडल खराब अनुमान लगाएगा.

अनुमान लगाने की क्षमता

मॉडल के अच्छे अनुमान लगाने के लिए, आपके डेटासेट की सुविधाओं में अनुमान लगाने की क्षमता होनी चाहिए. किसी लेबल के साथ किसी सुविधा का ज़्यादा संबंध होने पर, उसका अनुमान लगाने की संभावना ज़्यादा होती है.

कुछ सुविधाओं में, अनुमान लगाने की क्षमता दूसरे की तुलना में ज़्यादा होगी. उदाहरण के लिए, मौसम के डेटासेट में, cloud_coverage, temperature, और dew_point जैसी सुविधाएं, moon_phase या day_of_week की तुलना में बारिश का बेहतर अनुमान लगाती हैं. वीडियो ऐप्लिकेशन के उदाहरण के लिए, यह अनुमान लगाया जा सकता है कि video_description, length, और views जैसी सुविधाओं से यह पता चल सकता है कि उपयोगकर्ता कौनसे वीडियो देखना चाहता है.

यह पता लगाना कि किन सुविधाओं में अनुमान लगाने की सुविधा है, इसमें काफ़ी समय लग सकता है. मॉडल को ट्रेनिंग देते समय, किसी सुविधा को हटाकर और फिर से जोड़कर, मैन्युअल तरीके से यह पता लगाया जा सकता है कि वह सुविधा कितनी अच्छी तरह से अनुमान लगा सकती है. किसी एलिमेंट की अनुमान लगाने की क्षमता का पता लगाने के लिए, एल्गोरिदम का इस्तेमाल किया जा सकता है. जैसे, पियरसन कोरिलेशन, अडजस्टेड म्यूचुअल इन्फ़ॉर्मेशन (एएमआई), और शापली वैल्यू. ये एल्गोरिदम, किसी एलिमेंट की अनुमान लगाने की क्षमता का आकलन करने के लिए संख्यात्मक आकलन देते हैं.

देखें कि आपको विषय की कितनी समझ है

अपने डेटासेट का विश्लेषण करते समय, आपको किन तीन मुख्य एट्रिब्यूट पर ध्यान देना चाहिए?

असल दुनिया से जुड़ी जानकारी.

इसमें सही वैल्यू शामिल हों.

सुविधाओं की मदद से, लेबल के लिए अनुमान लगाया जा सकता है.

यह इतना छोटा हो कि उसे लोकल मशीन पर लोड किया जा सके.

यह जानकारी अलग-अलग सोर्स से इकट्ठा की जाती है.

अपने डेटासेट का विश्लेषण करने और उन्हें तैयार करने के बारे में ज़्यादा जानकारी के लिए, मशीन लर्निंग के लिए डेटा तैयार करना और फ़ीचर इंजीनियरिंग लेख पढ़ें.

अनुमान बनाम कार्रवाइयां

अगर अनुमान को उपयोगकर्ताओं की मदद करने वाली कार्रवाई में नहीं बदला जा सकता, तो अनुमान लगाने का कोई फ़ायदा नहीं है. इसका मतलब है कि आपके प्रॉडक्ट को मॉडल के आउटपुट के आधार पर कार्रवाई करनी चाहिए.

उदाहरण के लिए, किसी मॉडल से यह अनुमान लगाया जा सकता है कि किसी उपयोगकर्ता को कोई वीडियो काम का लगेगा या नहीं. इस मॉडल को ऐसे ऐप्लिकेशन में फ़ीड किया जाना चाहिए जो काम के वीडियो के सुझाव देता हो. बारिश होने का अनुमान लगाने वाले मॉडल को मौसम के पूर्वानुमान बताने वाले ऐप्लिकेशन में फ़ीड किया जाना चाहिए.

देखें कि आपको विषय की कितनी समझ है

नीचे दी गई स्थिति के आधार पर, यह तय करें कि समस्या को हल करने के लिए, एमएल का इस्तेमाल करना सबसे अच्छा तरीका है या नहीं.

किसी बड़े संगठन की इंजीनियरिंग टीम, इनकमिंग फ़ोन कॉल मैनेज करने की ज़िम्मेदारी होती है.

लक्ष्य: कॉल करने वाले लोगों को यह बताना कि मौजूदा कॉल वॉल्यूम के हिसाब से, उन्हें कितनी देर इंतज़ार करना पड़ेगा.

उनके पास कोई समाधान नहीं है, लेकिन उन्हें लगता है कि एक तरीका यह हो सकता है कि वे कॉल का इंतज़ार कर रहे मौजूदा ग्राहकों की संख्या को, फ़ोन का जवाब देने वाले कर्मचारियों की संख्या से divide करें और फिर उसे 10 मिनट से multiply करें. हालांकि, उन्हें पता है कि कुछ ग्राहकों की समस्याएं दो मिनट में हल हो जाती हैं, जबकि अन्य ग्राहकों की समस्याओं को हल करने में 45 मिनट या उससे ज़्यादा समय लग सकता है.

ऐसा हो सकता है कि उनके हेयुरिस्टिक्स से उन्हें सटीक संख्या न मिले. वे इन कॉलम के साथ डेटासेट बना सकते हैं: number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold.

मशीन लर्निंग का इस्तेमाल करें. इंजीनियरिंग टीम का लक्ष्य साफ़ तौर पर तय हो. उनके इस्तेमाल के उदाहरण के लिए, उनके एल्गोरिदम का तरीका उतना अच्छा नहीं होगा. डेटासेट में, time_on_hold लेबल के लिए अनुमानित सुविधाएं दिख रही हैं.

मशीन लर्निंग का इस्तेमाल न करें. हालांकि, उनके पास साफ़ तौर पर तय किया गया लक्ष्य है, लेकिन उन्हें पहले बिना एमएल वाले सलूशन को लागू और ऑप्टिमाइज़ करना चाहिए. साथ ही, ऐसा लगता है कि उनके डेटासेट में, अनुमान लगाने की सुविधा के साथ ज़रूरत के मुताबिक सुविधाएं नहीं हैं.