समस्या को समझने के लिए, ये काम करें:
- उस प्रॉडक्ट का लक्ष्य बताएं जिसे डेवलप या रीफ़ैक्टर किया जा रहा है.
- अनुमानित एमएल का इस्तेमाल करके यह पता करना कि लक्ष्य बेहतर तरीके से हल हुआ है या नहीं, जनरेटिव एआई या बिना मशीन लर्निंग वाला कोई टूल.
- पुष्टि करें कि अगर किसी मॉडल को ट्रेनिंग देने के लिए ज़रूरी डेटा मौजूद है, तो अनुमानित एमएल अप्रोच.
लक्ष्य बताएं
शुरुआत करने के लिए अपना लक्ष्य बिना मशीन वाले शब्दों में बताएं. लक्ष्य, "मुझे क्या हासिल करना है?" सवाल का जवाब होता है.
नीचे दी गई टेबल में, काल्पनिक ऐप्लिकेशन के लक्ष्यों के बारे में साफ़ तौर पर बताया गया है:
ऐप्लिकेशन | लक्ष्य |
---|---|
मौसम बताने वाला ऐप्लिकेशन | किसी भौगोलिक क्षेत्र के लिए, छह घंटे के अंतराल में बारिश की गिनती करना. |
फ़ैशन ऐप्लिकेशन | शर्ट के अलग-अलग डिज़ाइन जनरेट करें. |
वीडियो ऐप्लिकेशन | काम के वीडियो के सुझाव देना. |
Mail ऐप्लिकेशन | स्पैम का पता लगाना. |
वित्तीय ऐप्लिकेशन | अलग-अलग खबरों के सोर्स से मिली वित्तीय जानकारी को कम शब्दों में बताएं. |
मैप ऐप्लिकेशन | यात्रा में लगने वाले समय का हिसाब लगाएं. |
बैंकिंग ऐप्लिकेशन | धोखाधड़ी वाले लेन-देन की पहचान करना. |
डाइनिंग ऐप्लिकेशन | रेस्टोरेंट के मेन्यू से पकवान की पहचान करें. |
ई-कॉमर्स ऐप्लिकेशन | मददगार जवाब देकर, समीक्षाओं का जवाब दें. |
एमएल के लिए इस्तेमाल का उदाहरण
कुछ लोग एमएल को एक ऐसा टूल मानते हैं जिसका इस्तेमाल सभी समस्याओं के लिए किया जा सकता है. असल में, एमएल एक खास टूल है, जो सिर्फ़ कुछ खास समस्याओं के लिए सही है. आपने लोगों तक पहुंचाया मुफ़्त में कोई आसान गैर-एमएल समाधान होने पर, कोई कॉम्प्लेक्स एमएल समाधान लागू नहीं करना चाहते काम करेगी.
एमएल सिस्टम को दो कैटगरी में बांटा जा सकता है: अनुमानित ML और जनरेटिव एआई. नीचे दिए गए टेबल में इन प्रॉडक्ट की खास बातें बताई गई हैं:
इनपुट | आउटपुट | ट्रेनिंग की तकनीक | |
---|---|---|---|
प्रेडिक्टिव एमएल |
टेक्स्ट इमेज ऑडियो वीडियो अंकीय |
अनुमान लगाता है. उदाहरण के लिए, ईमेल को स्पैम के तौर पर भेजना हो या स्पैम के तौर पर नहीं भेजना, शेड्यूल करना हो कि आने वाले समय में बारिश होगी या किसी स्टॉक की कीमत का पहले से अनुमान लगा सकता है. आम तौर पर, आउटपुट की पुष्टि असल चीज़ों के आधार पर की जा सकती है. | आम तौर पर, निगरानी में रखे गए डिवाइस को ट्रेनिंग देने के लिए, बहुत सारे डेटा का इस्तेमाल होता है. बिना निगरानी के या रीइन्फ़ोर्समेंट लर्निंग मॉडल का इस्तेमाल करके, किसी खास टास्क को पूरा करने के लिए है. |
जनरेटिव एआई |
टेक्स्ट इमेज ऑडियो वीडियो अंकों में |
उपयोगकर्ता के इंटेंट के हिसाब से आउटपुट जनरेट करता हो, उदाहरण के लिए, किसी लेख के बारे में ख़ास जानकारी देना या कोई ऑडियो क्लिप या शॉर्ट वीडियो बनाना. | आम तौर पर, बड़े लैंग्वेज मॉडल को ट्रेनिंग देने के लिए, बिना लेबल वाले बहुत सारे डेटा का इस्तेमाल करता है या इमेज जनरेटर का इस्तेमाल करें. इसके बाद, इस मॉडल का इस्तेमाल उन टास्क के लिए किया जा सकता है जिन्हें खाली जगहों को भरने वाले टास्क के तौर पर फ़्रेम किया जा सकता है. इसके अलावा, इसे किसी खास टास्क के लिए लेबल किए गए डेटा पर ट्रेनिंग देकर, बेहतर बनाया जा सकता है. जैसे, क्लासिफ़िकेशन. |
यह पुष्टि करने के लिए कि एमएल सही तरीका है, सबसे पहले पुष्टि करें कि आपका मौजूदा नॉन-एमएल सलूशन ऑप्टिमाइज़ किया गया है. अगर आपने मशीन लर्निंग के अलावा कोई दूसरा समाधान लागू नहीं किया है, तो हेयुरिस्टिक का इस्तेमाल करके, समस्या को मैन्युअल तरीके से हल करने की कोशिश करें.
गैर-एमएल वाला सलूशन वह बेंचमार्क है जिसका इस्तेमाल, यह तय करने के लिए किया जाएगा कि मशीन लर्निंग है या नहीं आपकी समस्या के लिए इस्तेमाल किया जा सकता है. तुलना करते समय, इन सवालों पर ध्यान दें तो मशीन लर्निंग का इस्तेमाल करने के बजाय, मशीन लर्निंग का इस्तेमाल करने वाला तरीका:
क्वालिटी. आपके हिसाब से, एमएल का समाधान कितना बेहतर हो सकता है? अगर आपको लगता है कि एमएल से जुड़ा समाधान, सिर्फ़ थोड़ा सुधार हो सकता है, तो इसका मतलब है कि मौजूदा समाधान सबसे अच्छा है.
लागत और रखरखाव. कम और ज़्यादा समय के लिए, एमएल का समाधान कितना महंगा है? कुछ मामलों में, इसकी लागत काफ़ी ज़्यादा होती है, क्योंकि एमएल (मशीन लर्निंग) को लागू करने में लगने वाले समय और संसाधनों की गिनती करें. इन सवालों पर ध्यान दें:
- क्या मशीन लर्निंग का इस्तेमाल करके कीमत में बढ़ोतरी करना सही है? ध्यान दें कि बड़े सिस्टम में छोटे सुधार करने से, मशीन लर्निंग के सलूशन को लागू करने की लागत और रखरखाव की लागत को आसानी से पूरा किया जा सकता है.
- समाधान के लिए कितने रखरखाव की ज़रूरत होगी? कई मामलों में, एमएल को लागू करने के लिए लंबे समय तक रखरखाव की ज़रूरत होती है.
- क्या आपके प्रॉडक्ट में एमएल विशेषज्ञों को ट्रेनिंग देने या उन्हें हायर करने के लिए संसाधन हैं?
अपनी समझ को परखें
अनुमानित एमएल और डेटा
अनुमानित एमएल को बनाने की वजह डेटा है. अच्छे अनुमान लगाने के लिए, आपको ऐसा डेटा चाहिए जिसमें अनुमान लगाने की सुविधाओं के साथ सुविधाएं शामिल हों. आपके डेटा में ये विशेषताएं होनी चाहिए:
बहुत ज़्यादा. आपके डेटासेट में जितने ज़्यादा काम के और काम के उदाहरण होंगे, आपका मॉडल उतना ही बेहतर होगा.
लगातार और भरोसेमंद. ऐसा डेटा होना जो लगातार और भरोसेमंद हो बेहतर मॉडल तैयार करने में मदद मिलेगी. उदाहरण के लिए, मशीन लर्निंग (ML) आधारित मौसम मॉडल को उसी भरोसेमंद सोर्स से, कई सालों से इकट्ठा किए गए डेटा का फ़ायदा मिलेगा वाद्ययंत्र.
भरोसेमंद. यह समझना कि आपका डेटा कहां से आएगा. क्या डेटा, आपके प्रॉडक्ट के लॉग जैसे भरोसेमंद सोर्स से लिया जाएगा जिनका कंट्रोल आपके पास है या किसी दूसरे एआई सिस्टम के आउटपुट जैसे ऐसे सोर्स से लिया जाएगा जिनके बारे में आपके पास ज़्यादा जानकारी नहीं है?
उपलब्ध है. पक्का करें कि सभी इनपुट, अनुमान के समय उपलब्ध हों सही प्रारूप. अगर अनुमान लगाने के समय कुछ सुविधाओं की वैल्यू हासिल करना मुश्किल होगा, तो अपने डेटासेट से उन सुविधाओं को हटा दें.
सही. बड़े डेटासेट में, यह ज़रूरी है कि कुछ लेबल की वैल्यू गलत हों. हालांकि, अगर लेबल का कुछ प्रतिशत से ज़्यादा हिस्सा गलत है, तो मॉडल खराब अनुमान देगा.
प्रतिनिधि. डेटासेट, असली डेटासेट के तौर पर होने चाहिए दुनिया को बचाने की कोशिश कर रहे हैं. दूसरे शब्दों में, डेटासेट को सटीक रूप से इवेंट, उपयोगकर्ता के व्यवहार, और/या असल दुनिया की घटनाएं मॉडल किया गया. ऐसे डेटासेट पर ट्रेनिंग देने से परफ़ॉर्मेंस खराब हो सकती है. जब मॉडल को असल दुनिया का अनुमान लगाने के लिए कहा जाता है.
अगर आपको ज़रूरी फ़ॉर्मैट में डेटा नहीं मिलता है, तो आपका मॉडल खराब अनुमान.
अनुमानित पावर
मॉडल के अच्छे अनुमान लगाने के लिए, आपके डेटासेट की सुविधाओं में अनुमान लगाने की क्षमता होनी चाहिए. कोई सुविधा, लेबल से जितना ज़्यादा जुड़ी होगी, उसकी वह इसका अनुमान लगाना है.
कुछ सुविधाओं में, अनुमान लगाने की क्षमता दूसरे की तुलना में ज़्यादा होगी. उदाहरण के लिए, मौसम के डेटासेट में, cloud_coverage
, temperature
, और dew_point
जैसी सुविधाएं, moon_phase
या day_of_week
की तुलना में बारिश का बेहतर अनुमान लगाती हैं. वीडियो ऐप्लिकेशन के उदाहरण के लिए, यह अनुमान लगाया जा सकता है कि video_description
, length
, और views
जैसी सुविधाओं से यह पता चल सकता है कि उपयोगकर्ता कौनसे वीडियो देखना चाहता है.
ध्यान रखें कि किसी सुविधा का अनुमान लगाने की क्षमता बदल सकती है, क्योंकि कॉन्टेक्स्ट या
डोमेन परिवर्तन. उदाहरण के लिए, वीडियो ऐप्लिकेशन में upload_date
जैसी सुविधा
शायद—सामान्य तौर पर—लेबल के साथ इसका कोई संबंध न हो. हालांकि, गेमिंग वीडियो के सब-डोमेन में, upload_date
का लेबल से बहुत ज़्यादा संबंध हो सकता है.
यह पता लगाने में काफ़ी समय लग सकता है कि किन सुविधाओं में अनुमान लगाने की क्षमता है प्रोसेस. किसी सुविधा के अनुमान लगाने की क्षमता का अनुमान लगाने के लिए, मैन्युअल तौर पर पहले मॉडल को ट्रेनिंग देते समय इसका इस्तेमाल करें. आप किसी सुविधा के एल्गोरिदम की मदद से, अनुमानित पावर का अनुमान लगाने के लिए, पीयर्सन कोरिलेशन, बदली गई म्यूचुअल जानकारी (एएमआई), और Shapley वैल्यू, इस डेटा की मदद से, feature.
देखें कि आपको विषय की कितनी समझ है
अपने डेटासेट का विश्लेषण करने और उन्हें तैयार करने के बारे में ज़्यादा जानकारी के लिए, मशीन लर्निंग के लिए डेटा तैयार करना और फ़ीचर इंजीनियरिंग लेख पढ़ें.
अनुमान बनाम कार्रवाइयां
अगर आप पूर्वानुमान को ऐसी कार्रवाई जिससे लोगों को मदद मिलती है. इसका मतलब है कि आपके प्रॉडक्ट को मॉडल' के आउटपुट में बदल जाता है.
उदाहरण के लिए, ऐसा मॉडल जो यह अनुमान लगाता है कि उपयोगकर्ता को कोई वीडियो काम का दिखेगा या नहीं को किसी ऐसे ऐप्लिकेशन में फ़ीड करना चाहिए जो काम के वीडियो के सुझाव देता है. बारिश होने का अनुमान लगाने वाले मॉडल को मौसम के पूर्वानुमान बताने वाले ऐप्लिकेशन में फ़ीड किया जाना चाहिए.
अपनी समझ को परखें
नीचे दी गई स्थिति के आधार पर, यह तय करें कि समस्या को हल करने के लिए, एमएल का इस्तेमाल करना सबसे अच्छा तरीका है या नहीं.
किसी बड़े संगठन की इंजीनियरिंग टीम, इनकमिंग फ़ोन कॉल मैनेज करने की ज़िम्मेदारी होती है.
लक्ष्य: कॉल करने वाले लोगों को यह बताना कि मौजूदा कॉल वॉल्यूम के हिसाब से, उन्हें कितनी देर इंतज़ार करना पड़ेगा.
उनके पास कोई समाधान नहीं है, लेकिन उन्हें लगता है कि एक तरीका यह हो सकता है कि वे कॉल का इंतज़ार कर रहे मौजूदा ग्राहकों की संख्या को, फ़ोन का जवाब देने वाले कर्मचारियों की संख्या से divide करें और फिर उसे 10 मिनट से multiply करें. हालांकि, उन्हें पता है कि कुछ ग्राहकों की समस्याएं दो मिनट में हल हो जाती हैं, जबकि अन्य ग्राहकों की समस्याओं को हल करने में 45 मिनट या उससे ज़्यादा समय लग सकता है.
उनके अनुभव के आधार पर शायद उन्हें संख्या की सटीक जानकारी नहीं मिल पाएगी. वे
नीचे दिए गए कॉलम के साथ डेटासेट बना सकता है:
number_of_callcenter_phones
, user_issue
,
time_to_resolve
, call_time
,
time_on_hold
.
time_on_hold
लेबल के लिए अनुमानित सुविधाएं दिख रही हैं.