अगर आपको AutoML का इस्तेमाल करना है, तो हो सकता है कि आपके मन में इसके काम करने के तरीके और इसे इस्तेमाल करने के लिए ज़रूरी चरणों के बारे में सवाल हों. इस सेक्शन में, AutoML के सामान्य पैटर्न के बारे में ज़्यादा जानकारी दी गई है. साथ ही, AutoML के काम करने के तरीके के बारे में भी बताया गया है. साथ ही, यह भी बताया गया है कि अपने प्रोजेक्ट के लिए AutoML का इस्तेमाल शुरू करने से पहले, आपको क्या करना होगा.
AutoML टूल
ऑटोएमएल टूल दो मुख्य कैटगरी में आते हैं:
- बिना कोडिंग वाले टूल आम तौर पर वेब ऐप्लिकेशन के तौर पर काम करते हैं. इनकी मदद से, उपयोगकर्ता इंटरफ़ेस के ज़रिए प्रयोगों को कॉन्फ़िगर और चलाया जा सकता है. इससे, बिना कोई कोड लिखे अपने डेटा के लिए सबसे अच्छा मॉडल ढूंढा जा सकता है.
- एपीआई और सीएलआई टूल, ऑटोमेशन की बेहतर सुविधाएं देते हैं. हालांकि, इसके लिए ज़्यादा प्रोग्रामिंग और एमएल विशेषज्ञता की ज़रूरत होती है.
कोडिंग की ज़रूरत वाले ऑटोएमएल टूल, बिना कोड वाले टूल की तुलना में ज़्यादा बेहतर और ज़्यादा सुविधाजनक हो सकते हैं. हालांकि, इनका इस्तेमाल करना ज़्यादा मुश्किल हो सकता है. इस मॉड्यूल में, मॉडल डेवलपमेंट के लिए कोड के बिना काम करने वाले विकल्पों पर फ़ोकस किया गया है. हालांकि, ध्यान रखें कि अगर आपको पसंद के मुताबिक ऑटोमेशन की ज़रूरत है, तो एपीआई और सीएलआई के विकल्प मददगार हो सकते हैं.
AutoML वर्कफ़्लो
आइए, एक सामान्य एमएल वर्कफ़्लो के बारे में जानें और देखें कि AutoML का इस्तेमाल करने पर चीज़ें कैसे काम करती हैं. वर्कफ़्लो में मौजूद मुख्य चरण, कस्टम ट्रेनिंग के लिए इस्तेमाल किए जाने वाले चरण जैसे ही होते हैं. हालांकि, इनमें मुख्य अंतर यह है कि AutoML आपके लिए कुछ टास्क मैनेज करता है.
समस्या की परिभाषा
किसी भी एमएल वर्कफ़्लो में पहला चरण, अपनी समस्या को तय करना होता है. AutoML का इस्तेमाल करते समय, पक्का करें कि आपने जो टूल चुना है वह आपके एमएल प्रोजेक्ट के लक्ष्यों के मुताबिक हो. ज़्यादातर ऑटोएमएल टूल, सुपरवाइज़्ड मशीन लर्निंग के अलग-अलग एल्गोरिदम और इनपुट डेटा टाइप के साथ काम करते हैं.
समस्या को फ़्रेम करने के बारे में ज़्यादा जानने के लिए, मशीन लर्निंग की समस्या को फ़्रेम करने के बारे में जानकारी वाला मॉड्यूल देखें.
डेटा इकट्ठा करना
AutoML टूल का इस्तेमाल शुरू करने से पहले, आपको अपना डेटा एक ही डेटा सोर्स में इकट्ठा करना होगा. प्रॉडक्ट के दस्तावेज़ देखकर पक्का करें कि आपका टूल इनके साथ काम करता हो: आपका डेटा सोर्स, आपके डेटासेट में मौजूद डेटा टाइप, और आपके डेटासेट का साइज़.
डेटा तैयार करना
डेटा तैयार करने में, ऑटोएमएल टूल आपकी मदद कर सकते हैं. हालांकि, कोई भी टूल अपने-आप सब कुछ नहीं कर सकता. इसलिए, टूल में अपना डेटा इंपोर्ट करने से पहले, कुछ काम करने की ज़रूरत होगी. AutoML के लिए डेटा तैयार करने का तरीका, मैन्युअल तरीके से मॉडल को ट्रेन करने के तरीके से मिलता-जुलता है. अगर आपको ट्रेनिंग के लिए डेटा तैयार करने के तरीके के बारे में ज़्यादा जानना है, तो 'डेटा तैयार करना' सेक्शन देखें.
डेटा तैयार करने के बारे में ज़्यादा जानने के लिए, नंबर वाले डेटा के साथ काम करना और कैटगरी वाले डेटा के साथ काम करना मॉड्यूल देखें.
AutoML ट्रेनिंग के लिए अपना डेटा इंपोर्ट करने से पहले, आपको ये चरण पूरे करने होंगे:
अपने डेटा को लेबल करना
आपके डेटासेट में मौजूद हर उदाहरण के लिए लेबल ज़रूरी है.
डेटा को क्लीन और फ़ॉर्मैट करना
असल दुनिया का डेटा अक्सर गड़बड़ियों वाला होता है. इसलिए, इसका इस्तेमाल करने से पहले, डेटा को ठीक करें. AutoML का इस्तेमाल करने पर भी, आपको अपने खास डेटासेट और समस्या के लिए सबसे सही तरीके तय करने होंगे. बेहतर नतीजे पाने के लिए, आपको कुछ एक्सप्लोरेशन की ज़रूरत पड़ सकती है. साथ ही, हो सकता है कि AutoML को कई बार चलाना पड़े.
सुविधाओं में बदलाव करना
ऑटोमेटेड मशीन लर्निंग (AutoML) के कुछ टूल, आपके लिए कुछ खास सुविधाओं को ट्रांसफ़ॉर्म करते हैं. हालांकि, अगर इस्तेमाल किए जा रहे टूल में, आपको जिस फ़ीचर ट्रांसफ़ॉर्म की ज़रूरत है वह काम नहीं करता है या ठीक से काम नहीं करता है, तो आपको समय से पहले ट्रांसफ़ॉर्मेशन करने पड़ सकते हैं.
मॉडल डेवलपमेंट (कोडिंग के बिना AutoML की मदद से)
ट्रेनिंग के दौरान, AutoML आपके लिए काम करता है. हालांकि, ट्रेनिंग शुरू करने से पहले, आपको अपना एक्सपेरिमेंट कॉन्फ़िगर करना होगा. AutoML ट्रेनिंग रन सेट अप करने के लिए, आम तौर पर आपको ये बड़े चरण बताने होंगे:
अपना डेटा इंपोर्ट करना
अपना डेटा इंपोर्ट करने के लिए, अपना डेटा सोर्स बताएं. इंपोर्ट की प्रोसेस के दौरान, AutoML टूल हर डेटा वैल्यू को सेमैंटिक डेटा टाइप असाइन करता है.
अपने डेटा का विश्लेषण करना
आम तौर पर, ऑटोमेटेड मशीन लर्निंग (AutoML) वाले प्रॉडक्ट, ट्रेनिंग से पहले और बाद में आपके डेटासेट का विश्लेषण करने के लिए टूल उपलब्ध कराते हैं. सबसे सही तरीका यह है कि AutoML को चलाने से पहले, अपने डेटा को समझने और उसकी पुष्टि करने के लिए, विश्लेषण करने वाले इन टूल का इस्तेमाल करें.
अपने डेटा को बेहतर बनाना
ऑटोमेटेड मशीन लर्निंग (AutoML) टूल, डेटा को इंपोर्ट करने के बाद और ट्रेनिंग से पहले, उसे बेहतर बनाने के लिए अक्सर तरीके उपलब्ध कराते हैं. अपने डेटा को बेहतर बनाने के लिए, यहां दिए गए कुछ टास्क पूरे किए जा सकते हैं:
सेमांटिक जांच: इंपोर्ट के दौरान, AutoML टूल हर सुविधा के लिए सही सेमांटिक टाइप तय करने की कोशिश करते हैं. हालांकि, ये सिर्फ़ अनुमान होते हैं. आपको सभी सुविधाओं के लिए तय किए गए टाइप की जांच करनी चाहिए और अगर उन्हें गलत तरीके से असाइन किया गया है, तो उन्हें बदलना चाहिए.
उदाहरण के लिए, हो सकता है कि आपके डेटाबेस के किसी कॉलम में पिन कोड, संख्याओं के तौर पर सेव हों. ज़्यादातर AutoML सिस्टम, डेटा को लगातार बढ़ने वाले संख्यात्मक डेटा के तौर पर पहचानेंगे. यह पिन कोड के लिए गलत होगा और हो सकता है कि उपयोगकर्ता इस फ़ीचर कॉलम के लिए, सीमेंटिक टाइप को लगातार के बजाय कैटगरी में बदलना चाहे.
डेटा में बदलाव: कुछ टूल की मदद से, डेटा को बेहतर बनाने की प्रोसेस के तहत, उपयोगकर्ता डेटा में बदलाव कर सकते हैं. कभी-कभी ऐसा तब ज़रूरी होता है, जब किसी डेटासेट में ऐसी संभावित अनुमानित सुविधाएं होती हैं जिन्हें इस तरह बदलना या जोड़ना ज़रूरी होता है कि AutoML टूल के लिए, बिना किसी मदद के यह तय करना मुश्किल हो.
उदाहरण के लिए, किसी घर की बिक्री की कीमत का अनुमान लगाने के लिए, घर से जुड़े डेटासेट का इस्तेमाल किया जा रहा है. मान लें कि कोई ऐसी सुविधा है जो
description
नाम की किसी हाउस लिस्टिंग के ब्यौरे को दिखाती है और आपकोdescription_length
नाम की नई सुविधा बनाने के लिए, इस डेटा का इस्तेमाल करना है. कुछ AutoML सिस्टम, पसंद के मुताबिक ट्रांसफ़ॉर्मेशन का इस्तेमाल करने के तरीके उपलब्ध कराते हैं. इस उदाहरण के लिए, ब्यौरे की लंबाई की नई सुविधा जनरेट करने के लिए,LENGTH
फ़ंक्शन हो सकता है. जैसे:LENGTH(description)
.
AutoML के रन पैरामीटर कॉन्फ़िगर करना
ट्रेनिंग एक्सपेरिमेंट चलाने से पहले, आपको कुछ कॉन्फ़िगरेशन सेटिंग चुननी होंगी. इससे टूल को यह बताया जा सकेगा कि आपको मॉडल को कैसे ट्रेन करना है. हालांकि, हर AutoML टूल में कॉन्फ़िगरेशन के विकल्पों का अपना यूनीक सेट होता है, लेकिन यहां कॉन्फ़िगरेशन से जुड़े कुछ अहम टास्क दिए गए हैं, जिन्हें आपको पूरा करना पड़ सकता है:
- एमएल से जुड़ी वह समस्या चुनें जिसे आपको हल करना है. उदाहरण के लिए, क्या आपको किसी क्लासिफ़िकेशन या रिग्रेशन समस्या को हल करना है?
- चुनें कि आपके डेटासेट में कौनसा कॉलम लेबल है.
- मॉडल को ट्रेनिंग देने के लिए, सुविधाओं का सेट चुनें.
- मॉडल खोजने के लिए, AutoML का इस्तेमाल करने वाले एमएल एल्गोरिदम का सेट चुनें.
- सबसे अच्छा मॉडल चुनने के लिए, AutoML का इस्तेमाल करने वाली आकलन मेट्रिक चुनें.
AutoML एक्सपेरिमेंट को कॉन्फ़िगर करने के बाद, ट्रेनिंग शुरू की जा सकती है. ट्रेनिंग पूरी होने में कुछ समय लग सकता है.
मॉडल का आकलन करना
ट्रेनिंग के बाद, AutoML प्रॉडक्ट में दिए गए टूल का इस्तेमाल करके नतीजों की जांच की जा सकती है:
- सुविधाओं की अहमियत की मेट्रिक की जांच करके, अपनी सुविधाओं का आकलन करें.
- अपने मॉडल को समझने के लिए, उसे बनाने के लिए इस्तेमाल किए गए आर्किटेक्चर और हाइपरपैरामीटर की जांच करें.
- आउटपुट मॉडल के लिए ट्रेनिंग के दौरान इकट्ठा किए गए प्लॉट और मेट्रिक की मदद से, टॉप-लेवल मॉडल की परफ़ॉर्मेंस का आकलन करें.
प्रोडक्शन में शामिल करना
हालांकि, यह इस मॉड्यूल के दायरे से बाहर है, लेकिन कुछ AutoML सिस्टम की मदद से, अपने मॉडल को टेस्ट करने और डिप्लॉय करने में मदद मिल सकती है.
मॉडल को फिर से ट्रेनिंग देना
आपको नए डेटा के साथ मॉडल को फिर से ट्रेन करना पड़ सकता है. ऐसा तब हो सकता है, जब आपने AutoML की ट्रेनिंग के नतीजों का आकलन कर लिया हो या आपका मॉडल कुछ समय के लिए प्रोडक्शन में हो. दोनों ही स्थितियों में, AutoML सिस्टम, मॉडल को फिर से ट्रेन करने में भी मदद कर सकते हैं. AutoML के इस्तेमाल के बाद, अपने डेटा की फिर से समीक्षा करना और बेहतर डेटासेट के साथ फिर से ट्रेनिंग देना आम बात है.
आगे क्या करना है
इस मॉड्यूल को पूरा करने के लिए बधाई!
हमारा सुझाव है कि आप अपनी पसंद और गति के हिसाब से, अलग-अलग एमएलसीसी मॉड्यूल के बारे में जानें. अगर आपको सुझाए गए क्रम का पालन करना है, तो हमारा सुझाव है कि आप अगले मॉड्यूल पर जाएं: एमएल फ़ेयरनेस.