मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज में ML की बुनियादी जानकारी देने वाले शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

सटीक

#fundamentals

सही कैटगरी के अनुमानों की संख्या को, अनुमानों की कुल संख्या से भाग दिया जाता है. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, 40 सही अनुमान और 10 गलत अनुमान देने वाले मॉडल की सटीक जानकारी होगी:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन में, सही अनुमानों और गलत अनुमानों की अलग-अलग कैटगरी के लिए, खास नाम दिए जाते हैं. इसलिए, बाइनरी क्लासिफ़िकेशन के लिए सटीक फ़ॉर्मूला इस तरह है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

सटीक तरीके और रीकॉल से, सटीक जानकारी की तुलना करें और उसके बीच अंतर बताएं.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

एक ऐसा फ़ंक्शन जो सुविधाओं और लेबल के बीच nonlinear (जटिल) रिलेशनशिप को सीखने में न्यूरल नेटवर्क की मदद करता है.

ऐक्टिवेशन के ये लोकप्रिय फ़ंक्शन हैं:

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी सीधी रेखा नहीं होते. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में दो सीधी लाइनें होती हैं:

दो लाइनों का कार्टिज़न प्लॉट. पहली लाइन का स्थिर
          y मान 0 है, जो x-ऐक्सिस पर -इनफ़िनिटी,0 से 0,-0 तक चलता है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है. इसलिए, यह 0,0 से +infinity,+infinity तक चलती है.

सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

दो-डाइमेंशन वाला घुमावदार प्लॉट, जिसमें x वैल्यू हैं और जो डोमेन - इनफ़िनिटी से +पॉज़िटिव तक होते हैं, जबकि y वैल्यू की रेंज 0 से 1 तक होती है. जब x की वैल्यू 0 होती है, तो y का मतलब 0.5 होता है. कर्व का स्लोप हमेशा पॉज़िटिव होता है. सबसे ज़्यादा स्लोप 0, 0.5 पर होता है. साथ ही,x की कुल वैल्यू बढ़ने पर धीरे-धीरे ढलान कम होती है.

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

ऐसा गैर-मानव प्रोग्राम या model जो मुश्किल टास्क को पूरा कर सकता है. उदाहरण के लिए, टेक्स्ट का अनुवाद करने वाला प्रोग्राम या मॉडल, ऐसे प्रोग्राम या मॉडल जो रेडियोलॉजिक इमेज की मदद से बीमारियों की पहचान करते हैं, दोनों आर्टिफ़िशियल इंटेलिजेंस दिखाते हैं.

मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक सब-फ़ील्ड है. हालांकि, हाल के कुछ सालों में कुछ संगठनों ने आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग जैसे शब्दों का इस्तेमाल एक-दूसरे के बदले शुरू किया है.

AUC (आरओसी कर्व के दायरे में आने वाला एरिया)

#fundamentals

0.0 से 1.0 के बीच की संख्या, जो दिखाती है कि बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग कर सकता है. AUC 1.0 के जितना करीब होगा, मॉडल की क्लास को एक-दूसरे से अलग करने की क्षमता उतनी ही बेहतर होगी.

उदाहरण के लिए, नीचे दिया गया उदाहरण एक क्लासिफ़ायर मॉडल दिखाता है, जो पॉज़िटिव क्लास (हरे अंडाकार) को नेगेटिव क्लास (बैंगनी रेक्टैंगल) से पूरी तरह अलग करता है. इस बिलकुल सटीक मॉडल का AUC 1.0 है:

नंबर लाइन, जिसके एक तरफ़ आठ पॉज़िटिव उदाहरण और दूसरी तरफ़ नौ नेगेटिव उदाहरण दिए गए हैं.

इसके ठीक उलट, नीचे दिया गया उदाहरण, कैटगरी तय करने वाले ऐसे मॉडल के नतीजे दिखाता है जो रैंडम तरीके से नतीजे जनरेट करता है. इस मॉडल का AUC 0.5 है:

संख्या की लाइन, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण हैं.
          उदाहरणों का क्रम पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव होता है.

हां, पिछले मॉडल का AUC 0.5 है, न कि 0.0.

ज़्यादातर मॉडल, दो चरम सीमाओं के बीच में होते हैं. उदाहरण के लिए, नीचे दिया गया मॉडल, पॉज़िटिव और नेगेटिव को कुछ हद तक अलग करता है. इसलिए, इसका AUC 0.5 और 1.0 के बीच कहीं भी है:

संख्या की लाइन, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण हैं.
          उदाहरणों का क्रम नेगेटिव, नेगेटिव, नेगेटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, पॉज़िटिव है.

AUC, कैटगरी तय करने के थ्रेशोल्ड के लिए सेट की गई किसी भी वैल्यू को अनदेखा करता है. इसके बजाय, AUC, कैटगरी तय करने के सभी थ्रेशोल्ड को ध्यान में रखता है.

B

बैकप्रोपैगेशन

#fundamentals

वह एल्गोरिदम जो न्यूरल नेटवर्क में ग्रेडिएंट डिसेंट को लागू करता है.

न्यूरल नेटवर्क को ट्रेनिंग देने में, यहां दिए गए टू-पास साइकल के कई दोहराव शामिल होते हैं:

  1. फ़ॉरवर्ड पास के दौरान, यह अनुमान लगाने के लिए सिस्टम उदाहरण के बैच को प्रोसेस करता है. सिस्टम हर अनुमान की तुलना, हर लेबल की वैल्यू से करता है. इस उदाहरण के लिए, अनुमान और लेबल वैल्यू के बीच का अंतर लॉस है. सिस्टम, मौजूदा बैच के कुल नुकसान का हिसाब लगाने के लिए, सभी उदाहरणों के नुकसानों को एक जगह इकट्ठा करता है.
  2. बैकवर्ड पास (बैकप्रोपेगेशन) के दौरान, सिस्टम सभी छिपी हुई लेयर में मौजूद सभी न्यूरॉन के वेट में बदलाव करके, नुकसान को कम करता है.

न्यूरल नेटवर्क में अक्सर कई छिपी हुई लेयर में कई न्यूरॉन होते हैं. ये सभी न्यूरॉन, नुकसान की कुल घटनाओं में अलग-अलग तरह से योगदान देते हैं. बैकप्रोपैगेशन से, यह तय होता है कि किसी खास न्यूरॉन पर लागू होने वाले वज़न को बढ़ाना है या घटाना है.

लर्निंग रेट एक मल्टीप्लायर है, जो उस डिग्री को कंट्रोल करता है जिसमें हर बैकवर्ड पास के वज़न को बढ़ाया या घटाया जाता है. सीखने की छोटी दर की तुलना में, सीखने की ज़्यादा दर होने से हर वज़न में बढ़ोतरी या वज़न घटता है.

कैलक्युलस की शर्तों में, बैकप्रोपेगेशन, कैलक्युलस से चेन नियम को लागू करता है. इसका मतलब है कि बैकप्रोपेगेशन, हर पैरामीटर के हिसाब से, गड़बड़ी के पार्शियल डेरिवेटिव का हिसाब लगाता है.

सालों पहले, मशीन लर्निंग का इस्तेमाल करने वाले लोगों को बैकप्रोपेगेशन को लागू करने के लिए कोड लिखना पड़ता था. TensorFlow जैसे आधुनिक ML API, अब आपके लिए बैकप्रोपैगेशन लागू करते हैं. वाह!

बैच

#fundamentals

उदाहरण का एक सेट, जिसे एक ट्रेनिंग में इस्तेमाल किया जाता है. इसे दोहराया जाता है. बैच का साइज़, बैच में उदाहरणों की संख्या तय करता है.

बैच का किसी epoch के साथ क्या संबंध है, इस बारे में जानने के लिए, epoch देखें.

बैच का आकार

#fundamentals

किसी बैच में मौजूद उदाहरणों की संख्या. उदाहरण के लिए, अगर बैच साइज़ 100 है, तो मॉडल हर दोहराव के 100 उदाहरणों को प्रोसेस करता है.

बैच साइज़ की लोकप्रिय रणनीतियां ये हैं:

  • स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच का साइज़ एक है.
  • पूरा बैच, जिसमें बैच का साइज़, पूरे ट्रेनिंग सेट में मौजूद उदाहरणों की संख्या है. उदाहरण के लिए, अगर ट्रेनिंग सेट में एक लाख उदाहरण हैं, तो बैच साइज़ लाखों उदाहरण होगा. आम तौर पर, पूरा बैच एक अच्छी रणनीति नहीं होती है.
  • मिनी-बैच, जिसमें आम तौर पर बैच का साइज़ 10 से 1000 के बीच होता है. आम तौर पर, मिनी-बैच सबसे असरदार रणनीति होती है.

पक्षपात (नैतिक/निष्पक्षता)

#fairness
#fundamentals

1. कुछ चीज़ों, लोगों या समूहों के बारे में दूसरों की तुलना में रूढ़िवादी, पक्षपात या पक्षपात करना. ये पूर्वाग्रह डेटा के संग्रह और व्याख्या करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके को प्रभावित कर सकते हैं. इस तरह के पूर्वाग्रह में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग प्रोसेस के दौरान होने वाली व्यवस्थित गड़बड़ी. इस तरह के पूर्वाग्रह में ये शामिल हैं:

मशीन लर्निंग मॉडल में, पूर्वाग्रह वाले शब्द या पूर्वाग्रह को समझने की कोशिश न करें.

बायस (गणित) या बायस टर्म

#fundamentals

किसी ऑरिजिन से इंटरसेप्ट या ऑफ़सेट. बायस, मशीन लर्निंग मॉडल में एक पैरामीटर है, जिसे इनमें से किसी एक के रूप में दिखाया गया है:

  • b
  • 0

उदाहरण के लिए, बायस इस फ़ॉर्मूला में b है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

सरल द्वि-आयामी रेखा में, पूर्वाग्रह का सिर्फ़ "y-इंटरसेप्ट" मतलब है. उदाहरण के लिए, नीचे दिए गए उदाहरण में लाइन का बायस 2 है.

0.5 के स्लोप और 2 के बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट.

पूर्वाग्रह मौजूद है, क्योंकि सभी मॉडल ऑरिजिन (0,0) से शुरू नहीं होते हैं. उदाहरण के लिए, मान लें कि किसी मनोरंजन पार्क में जाने के लिए दो यूरो का खर्च होता है और ग्राहक के ठहरने के हर घंटे के लिए 5 यूरो अलग से देना पड़ता है. इसलिए, कुल लागत को मैप करने वाले मॉडल में बायस 2 होता है, क्योंकि सबसे कम लागत दो यूरो की होती है.

पूर्वाग्रह का मतलब नैतिकता और निष्पक्षता में पक्षपात या पूर्वाग्रह से नहीं है.

बाइनरी क्लासिफ़िकेशन

#fundamentals

कैटगरी तय करने वाला एक ऐसा टास्क जो म्युचुअली एक्सक्लूसिव दो में से किसी एक क्लास के बारे में अनुमान लगाता है:

उदाहरण के लिए, नीचे दिए गए दो मशीन लर्निंग मॉडल में से हर एक बाइनरी क्लासिफ़िकेशन करता है:

  • वह मॉडल जो तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) हैं या स्पैम नहीं (नेगेटिव क्लास).
  • ऐसा मॉडल जो स्वास्थ्य के लक्षणों का आकलन करके यह पता लगाता है कि किसी व्यक्ति को कोई खास बीमारी (पॉज़िटिव क्लास) है या उसे कोई ऐसी बीमारी (नेगेटिव क्लास) तो नहीं है.

कई कैटगरी में बांटी जाने वाली कैटगरी के बीच अंतर करें.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड भी देखें.

बकेटिंग

#fundamentals

आम तौर पर, वैल्यू की रेंज के आधार पर किसी एक सुविधा को बकेट या बिन नाम की कई बाइनरी सुविधाओं में बदलता है. कटी हुई सुविधा, आम तौर पर लगातार रहने वाली एक सुविधा होती है.

उदाहरण के लिए, तापमान को एक लगातार फ़्लोटिंग-पॉइंट सुविधा के तौर पर दिखाने के बजाय, तापमान की रेंज को अलग-अलग बकेट में बांटा जा सकता है, जैसे कि:

  • <= 10 डिग्री सेल्सियस का मान "ठंडा" बकेट होगा.
  • 11 से 24 डिग्री सेल्सियस का मतलब "सामान्य" बकेट है.
  • "वॉर्म " बकेट>= 25 डिग्री सेल्सियस होगी.

यह मॉडल, एक ही बकेट में मौजूद सभी वैल्यू को एक जैसा मानेगा. उदाहरण के लिए, 13 और 22 दोनों मान समशीतोष बकेट में हैं, इसलिए मॉडल दोनों मानों को समान रूप से मानता है.

C

कैटगरी से जुड़ा डेटा

#fundamentals

ऐसी सुविधाएं जिनमें संभावित वैल्यू का एक खास सेट होता है. उदाहरण के लिए, traffic-light-state नाम की कैटगरी के आधार पर दी गई सुविधा का इस्तेमाल करें. इसकी वैल्यू, इन तीन संभावित वैल्यू में से सिर्फ़ एक हो सकती है:

  • red
  • yellow
  • green

traffic-light-state को कैटगरी वाली सुविधा के तौर पर दिखाकर, कोई मॉडल ड्राइवर के व्यवहार पर red, green, और yellow के अलग-अलग असर के बारे में जान सकता है.

कैटगरी के हिसाब से मिलने वाली सुविधाओं को कभी-कभी अलग-अलग सुविधाएं कहा जाता है.

संख्या वाले डेटा के बीच अंतर करें.

क्लास

#fundamentals

एक ऐसी कैटगरी जिससे label जुड़ा हो सकता है. उदाहरण के लिए:

क्लासिफ़िकेशन मॉडल किसी क्लास का अनुमान लगाता है. वहीं दूसरी ओर, रिग्रेशन मॉडल, क्लास के बजाय नंबर का अनुमान लगाता है.

क्लासिफ़िकेशन मॉडल

#fundamentals

ऐसा model जिसका अनुमान, model होता है. उदाहरण के लिए, नीचे दिए गए सभी क्लासिफ़िकेशन मॉडल देखें:

  • ऐसा मॉडल जो किसी इनपुट वाक्य की भाषा का अनुमान लगाता है (फ़्रेंच? स्पैनिश? इटैलियन?).
  • वह मॉडल जो पेड़ों की प्रजातियों का अनुमान लगाता है (मेपल? Oak? बेओबैब?)
  • ऐसा मॉडल जो किसी खास मेडिकल स्थिति के लिए पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है.

वहीं दूसरी ओर, रिग्रेशन मॉडल, क्लास के बजाय संख्याओं का अनुमान लगाते हैं.

आम तौर पर, क्लासिफ़िकेशन मॉडल दो तरह के होते हैं:

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 और 1 के बीच की कोई संख्या होती है, जो किसी लॉजिस्टिक रिग्रेशन मॉडल के रॉ आउटपुट को पॉज़िटिव क्लास या नेगेटिव क्लास के अनुमान में बदल देती है. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड वह वैल्यू होती है जिसे कोई व्यक्ति चुनता है, न कि मॉडल ट्रेनिंग से चुनी गई वैल्यू.

लॉजिस्टिक रिग्रेशन मॉडल, 0 और 1 के बीच की रॉ वैल्यू देता है. इसके बाद:

  • अगर यह रॉ वैल्यू, क्लासिफ़िकेशन के थ्रेशोल्ड से ज़्यादा है, तो पॉज़िटिव क्लास का अनुमान लगाया जाता है.
  • अगर यह रॉ वैल्यू, क्लासिफ़िकेशन के थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लें कि कैटगरी तय करने की सीमा 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल नेगेटिव क्लास का अनुमान लगाता है.

कैटगरी तय करने के लिए थ्रेशोल्ड चुनने का असर, फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव की संख्या पर भी पड़ता है.

क्लास-असंतुलित डेटासेट

#fundamentals

कैटगरी की समस्या के लिए ऐसा डेटासेट जिसमें हर क्लास के लेबल की कुल संख्या काफ़ी अलग हो. उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन डेटासेट देखें, जिसके दो लेबल को इस तरह बांटा गया है:

  • 10,00,000 नेगेटिव लेबल
  • 10 पॉज़िटिव लेबल

नेगेटिव और पॉज़िटिव लेबल का अनुपात 1,00,000 से 1 है. इसलिए, यह क्लास-असंतुलित डेटासेट है.

इसके उलट, नीचे दिया गया डेटासेट क्लास-असंतुलित नहीं है, क्योंकि पॉज़िटिव लेबल के लिए नेगेटिव लेबल का अनुपात, एक के करीब है:

  • 517 नेगेटिव लेबल
  • 483 पॉज़िटिव लेबल

मल्टी-क्लास डेटासेट भी क्लास-असंतुलित हो सकते हैं. उदाहरण के लिए, नीचे दी गई एक से ज़्यादा क्लास वाला यह डेटासेट क्लास-असंतुलित है, क्योंकि एक लेबल में बाकी दो की तुलना में ज़्यादा उदाहरण हैं:

  • "ग्रीन" क्लास के साथ 10,00,000 लेबल
  • "बैंगनी" क्लास के साथ 200 लेबल
  • "नारंगी" क्लास के साथ 350 लेबल

एंट्रॉपी, मेजरिटी क्लास, और अल्पसंख्यक क्लास भी देखें.

क्लिपिंग

#fundamentals

इनमें से कोई एक या दोनों काम करके, आउटलेयर से निपटने की तकनीक:

  • feature की उन वैल्यू को कम करना जो थ्रेशोल्ड की तय सीमा से ज़्यादा हों.
  • सुविधा की वैल्यू को कम से कम थ्रेशोल्ड तक बढ़ाना.

उदाहरण के लिए, मान लें कि किसी सुविधा के लिए <0.5% वैल्यू, 40-60 की सीमा से बाहर हैं. इस स्थिति में, ये काम किए जा सकते हैं:

  • ज़्यादा से ज़्यादा 60 से ज़्यादा वैल्यू को क्लिप करके, ठीक 60 पर सेट करें.
  • अगर सभी वैल्यू को 40 (कम से कम थ्रेशोल्ड) से कम पर सेट करना है, तो उन्हें 40 पर सेट करें.

आउटलेयर से मॉडल को नुकसान पहुंच सकता है. इसकी वजह से कभी-कभी ट्रेनिंग के दौरान वज़न ओवरफ़्लो हो जाता है. कुछ आउटलायर भी मेट्रिक को बहुत खराब कर सकते हैं, जैसे कि सटीक काम करना. नुकसान को कम करने के लिए, क्लिपिंग एक आम तकनीक है.

ग्रेडिएंट क्लिपिंग की मदद से, ट्रेनिंग के दौरान तय रेंज में ग्रेडिएंट की वैल्यू सेट की जाती है.

कन्फ़ेशन मैट्रिक्स

#fundamentals

NxN टेबल में, किसी क्लासिफ़िकेशन मॉडल की मदद से लगाए गए सही और गलत अनुमानों की जानकारी होती है. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल के लिए, भ्रम की स्थिति वाले इस तरह के मैट्रिक्स पर विचार करें:

ट्यूमर (अनुमानित) ट्यूमर के अलावा (अनुमानित)
ट्यूमर (ग्राउंड ट्रूथ) 18 (टीपी) 1 (एफ़एन)
नॉन-ट्यूमर (ग्राउंड ट्रूथ) 6 (FP) 452 (टीएन)

भ्रम की स्थिति से पहले का भ्रम यह दिखाता है कि:

  • जिन 19 अनुमानों में ग्राउंड ट्रुथ, Tumor था, उसके अनुमान को सही तरीके से 18 की कैटगरी में रखा गया और 1 को गलत कैटगरी में रखा गया.
  • इनमें से 458 अनुमानों में नॉन-ट्यूमर था. मॉडल ने सही कैटगरी में 452 और 6 को गलत कैटगरी में रखा.

मल्टी-क्लास क्लासिफ़िकेशन से जुड़ी समस्या के लिए, भ्रम की मैट्रिक्स से, गलतियों के पैटर्न को पहचानने में मदद मिल सकती है. उदाहरण के लिए, तीन-क्लास मल्टी-क्लास क्लासिफ़िकेशन मॉडल के लिए यहां दिए गए भ्रम की मैट्रिक्स पर विचार करें. यह मॉडल तीन अलग-अलग आइरिस टाइप (वर्जीनिका, वर्सीकलर, और सेतोसा) को कैटगरी में बांटता है. जब ज़मीनी हकीकत वर्ज़िनिका थी, तो कन्फ़्यूजन मैट्रिक्स दिखाता है कि सेटोसा की तुलना में मॉडल में गलती से वर्सिकलर का अनुमान लगाने की संभावना ज़्यादा है:

  Setosa (अनुमानित) वर्सिकलर (अनुमानित) वर्जीनिया (अनुमानित)
सेटोसा (ग्राउंड ट्रुथ) 88 12 0
वर्सिकलर (ग्राउंड ट्रूथ) 6 141 7
वर्ज़िनिका (ग्राउंड ट्रुथ) 2 27 109

इसी तरह, एक और उदाहरण से यह पता चल सकता है कि हाथ से लिखे गए अंकों की पहचान करने वाला मॉडल, ग़लती से 4 के बजाय 9 का अनुमान लगाता है या ग़लती से 7 के बजाय 1 का अनुमान लगाता है.

कन्फ़्यूजन मैट्रिक्स में कई तरह की परफ़ॉर्मेंस मेट्रिक का हिसाब लगाने के लिए ज़रूरी जानकारी होती है. इसमें सटीक जानकारी और रीकॉल भी शामिल होती है.

लगातार मिलने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट सुविधा जिसमें तापमान या वज़न जैसे वैल्यू की अनगिनत वैल्यू दी गई हों.

अलग-अलग सुविधा के बीच अंतर है.

अभिसरण

#fundamentals

वह स्थिति जब लॉस की वैल्यू में हर दोहराव के साथ बहुत कम या बिलकुल भी बदलाव न हो. उदाहरण के लिए, यहां दिया गया लॉस कर्व, करीब 700 बार कन्वर्जन पर स्विच करने का सुझाव देता है:

कार्टीज़न प्लॉट. X-ऐक्सिस में कोई बदलाव नहीं हुआ है. Y-ऐक्सिस, ट्रेनिंग के दोहराए जाने की संख्या है. शुरुआत के कुछ बार में बहुत ज़्यादा नुकसान होता है, लेकिन
          धीरे-धीरे कम हो जाता है. करीब 100 बार कोशिश करने के बाद भी, नुकसान की संख्या घटते जा रही है. हालांकि, यह धीरे-धीरे बढ़ रही है. करीब 700 बार कोशिश करने के बाद भी,
          किसी भी नुकसान की स्थिति बनी रहती है.

जब अतिरिक्त ट्रेनिंग से मॉडल में सुधार नहीं होता, तो मॉडल एक जैसा होता है.

डीप लर्निंग में, नुकसान की वैल्यू कभी-कभी स्थिर रहती है या कई बार में इतनी बार बदलाव होती है कि आखिर में वैल्यू घटती या बढ़ जाती है. लंबे समय तक लगातार वैल्यू खोने होने पर, हो सकता है कि कुछ समय के लिए आपको एक जैसा अनुभव न हो.

तय समय से पहले रुकने के बारे में भी जानें.

D

DataFrame

#fundamentals

एक लोकप्रिय पांडा डेटा टाइप, जो मेमोरी में डेटासेट को दिखाता है.

DataFrame, किसी टेबल या स्प्रेडशीट के जैसा होता है. DataFrame के हर कॉलम का एक नाम (हेडर) होता है और हर लाइन की पहचान एक यूनीक नंबर से की जाती है.

DataFrame के हर कॉलम को 2D कलेक्शन की तरह बनाया जाता है. हालांकि, हर कॉलम को अपना डेटा टाइप असाइन किया जा सकता है.

आधिकारिक pandas.DataFrame रेफ़रंस पेज भी देखें.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन, आम तौर पर (हालांकि, खास तौर पर नहीं), यहां दिए गए किसी एक फ़ॉर्मैट में व्यवस्थित किया जाता है:

  • एक स्प्रेडशीट
  • CSV (कॉमा से अलग की गई वैल्यू) फ़ॉर्मैट में कोई फ़ाइल

डीप मॉडल

#fundamentals

ऐसा न्यूरल नेटवर्क जिसमें एक से ज़्यादा छिपी हुई लेयर हों.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

चौड़ा मॉडल के साथ कंट्रास्ट.

सघन सुविधा

#fundamentals

ऐसी सुविधा जिसमें ज़्यादातर या सभी वैल्यू ज़ीरो नहीं हैं. आम तौर पर, फ़्लोटिंग-पॉइंट वैल्यू का टेन्सर होता है. उदाहरण के लिए, यहां दिए गए 10 एलिमेंट Tensor काफ़ी सघन हैं, क्योंकि इसकी 9 वैल्यू ज़ीरो नहीं हैं:

8 3 7 5 2 4 0 4 9 6

स्पार्स सुविधा के बीच अंतर है.

गहराई

#fundamentals

न्यूरल नेटवर्क में इन चीज़ों का योग:

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाले न्यूरल नेटवर्क की गहराई 6 है.

ध्यान दें कि इनपुट लेयर, डेप्थ पर असर नहीं डालती है.

डिस्क्रीट सुविधा

#fundamentals

ऐसी सुविधा जिसमें संभावित वैल्यू के सीमित सेट हों. उदाहरण के लिए, ऐसी सुविधा जिसकी वैल्यू सिर्फ़ जानवर, सब्ज़ियां या मिनरल हो सकती हैं, वह अलग (या कैटगरी के हिसाब से) सुविधा है.

लगातार मिलने वाली सुविधा के बीच अंतर है.

डाइनैमिक

#fundamentals

कुछ ऐसा जो बार-बार या लगातार होता रहे. डाइनैमिक और ऑनलाइन शब्द, मशीन लर्निंग में एक जैसे मतलब वाले शब्द हैं. मशीन लर्निंग में डाइनैमिक और ऑनलाइन इस्तेमाल के कुछ सामान्य तरीके यहां दिए गए हैं:

  • डाइनैमिक मॉडल (या ऑनलाइन मॉडल) ऐसा मॉडल है जिसे बार-बार या लगातार फिर से ट्रेनिंग दी जाती है.
  • डाइनैमिक ट्रेनिंग (या ऑनलाइन ट्रेनिंग), बार-बार या लगातार होने वाली ट्रेनिंग की प्रोसेस है.
  • डाइनैमिक अनुमान (या ऑनलाइन अनुमान), मांग के आधार पर अनुमान जनरेट करने की प्रोसेस है.

डाइनैमिक मॉडल

#fundamentals

ऐसा model जिसे बार-बार (बार-बार भी हो सकता है) फिर से ट्रेनिंग दी जाती है. डाइनैमिक मॉडल, "हमेशा सीखते रहने वाला व्यक्ति" होता है. यह लगातार बदलते डेटा के हिसाब से ढलता रहता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल भी कहा जाता है.

स्टैटिक मॉडल के बीच कंट्रास्ट करें.

E

तय समय से पहले रुकना

#fundamentals

रेगुलराइज़ेशन का एक तरीका, जिसमें ट्रेनिंग में कमी खत्म होने से पहले ट्रेनिंग खत्म की जाती है. शुरुआत में, जब पुष्टि किए जाने वाले डेटासेट की परफ़ॉर्मेंस में गिरावट बढ़ने लगती है, तब आप जान-बूझकर मॉडल को ट्रेनिंग देना बंद कर देते हैं. इसका मतलब है कि जब सामान्य तौर पर लागू होने वाली सुविधा की परफ़ॉर्मेंस खराब हो जाती है.

लेयर एम्बेड करना

#language
#fundamentals

एक खास छिपी हुई लेयर, जो हाई-डाइमेंशन वाली कैटगरिकल सुविधा की मदद से धीरे-धीरे ट्रेनिंग लेती है, ताकि लो डाइमेंशन एम्बेडिंग वेक्टर को धीरे-धीरे समझा जा सके. एम्बेड करने वाली लेयर, न्यूरल नेटवर्क को सिर्फ़ हाई-डाइमेंशन कैटगरीकल सुविधा की ट्रेनिंग देने के बजाय, बेहतर तरीके से ट्रेनिंग देने में मदद करती है.

उदाहरण के लिए, फ़िलहाल पृथ्वी में पेड़ों की करीब 73,000 प्रजातियों को इकट्ठा किया जाता है. मान लीजिए कि आपके मॉडल में पेड़ों की प्रजातियां एक सुविधा है. इसलिए, आपके मॉडल की इनपुट लेयर में 73,000 एलिमेंट लंबा वन-हॉट वेक्टर है. उदाहरण के लिए, शायद baobab को कुछ इस तरह से दिखाया जाएगा:

73,000 एलिमेंट का कलेक्शन. पहले 6,232 एलिमेंट की वैल्यू
     0 होती है. अगले एलिमेंट की वैल्यू एक होती है. आखिरी 66,767 एलिमेंट में
     वैल्यू शून्य होती है.

73,000 एलिमेंट वाला कलेक्शन बहुत बड़ा होता है. अगर मॉडल में एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो ट्रेनिंग में बहुत समय लग सकता है. ऐसा 72,999 शून्य को गुणा करने की वजह से होता है. हो सकता है कि आपने 12 डाइमेंशन शामिल करने के लिए, एम्बेड करने वाली लेयर चुनी हो. ऐसे में, एम्बेड करने वाली लेयर, पेड़ की हर प्रजाति के लिए धीरे-धीरे एक नया एम्बेडिंग वेक्टर सीखेगी.

कुछ मामलों में, एम्बेड करने वाली लेयर का हैशिंग एक अच्छा विकल्प है.

epoch

#fundamentals

पूरे ट्रेनिंग सेट के लिए एक पूरा ट्रेनिंग पास, जैसे कि हर उदाहरण को एक बार प्रोसेस किया गया हो.

epoch N/बैच साइज़ की ट्रेनिंग दोहरावों को दिखाता है. यहां N, उदाहरणों की कुल संख्या है.

उदाहरण के लिए, मान लें कि:

  • इस डेटासेट में 1,000 उदाहरण हैं.
  • बैच साइज़ में 50 उदाहरण दिए गए हैं.

इसलिए, एक epoch को 20 बार दोहराने की ज़रूरत होती है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

उदाहरण

#fundamentals

सुविधाओं की एक पंक्ति की वैल्यू और किसी लेबल की वैल्यू. सुपरवाइज़्ड लर्निंग के उदाहरणों की ये दो सामान्य कैटगरी हैं:

  • लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. ट्रेनिंग के दौरान लेबल किए गए उदाहरणों का इस्तेमाल किया जाता है.
  • लेबल नहीं किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. बिना लेबल वाले उदाहरणों का इस्तेमाल अनुमान के दौरान किया जाता है.

उदाहरण के लिए, मान लें कि आपको किसी मॉडल को ट्रेनिंग देनी है, ताकि यह छात्र-छात्राओं के टेस्ट स्कोर पर मौसम की स्थितियों के असर का पता लगा सके. लेबल किए गए तीन उदाहरण यहां दिए गए हैं:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट के स्कोर
15 47 998 पसंद आया
19 34 1020 बहुत बढ़िया
18 92 1012 खराब

यहां बिना लेबल वाले तीन उदाहरण दिए गए हैं:

तापमान नमी दबाव  
12 62 1014  
21 47 1017  
19 41 1021  

उदाहरण के लिए, डेटासेट की लाइन आम तौर पर रॉ सोर्स होती है. आम तौर पर, उदाहरण में डेटासेट में कॉलम का सबसेट होता है. उदाहरण में दिए गए सुविधाओं में, सिंथेटिक सुविधाएं भी शामिल हो सकती हैं, जैसे कि फ़ीचर क्रॉस.

म॰

फ़ॉल्स नेगेटिव (एफ़एन)

#fundamentals

एक उदाहरण, जिसमें मॉडल गलती से नेगेटिव क्लास का अनुमान लगा लेता है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास है), लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (एफ़पी)

#fundamentals

एक उदाहरण, जिसमें मॉडल गलती से पॉज़िटिव क्लास का अनुमान लगा लेता है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई खास ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन वह ईमेल मैसेज असल में स्पैम नहीं है.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

उन असल नेगेटिव उदाहरणों का अनुपात जिनके लिए मॉडल ने गलती से पॉज़िटिव क्लास का अनुमान लगाया था. यह फ़ॉर्मूला, फ़ॉल्स पॉज़िटिव रेट का हिसाब लगाता है:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में x-ऐक्सिस है.

सुविधा

#fundamentals

मशीन लर्निंग मॉडल के लिए इनपुट वैरिएबल. किसी उदाहरण में एक या एक से ज़्यादा सुविधाएं होती हैं. उदाहरण के लिए, मान लीजिए कि आपको किसी मॉडल को ट्रेनिंग देनी है, ताकि यह पता लगाया जा सके कि छात्र-छात्राओं के टेस्ट स्कोर पर मौसम की स्थितियों का क्या असर होता है. नीचे दी गई टेबल में तीन उदाहरण दिए गए हैं, जिनमें से हर एक में तीन सुविधाएं और एक लेबल है:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट के स्कोर
15 47 998 92
19 34 1020 84
18 92 1012 87

label से कंट्रास्ट करें.

फ़ीचर क्रॉस

#fundamentals

यह एक सिंथेटिक सुविधा है, जिसे "क्रॉसिंग" कैटगरीकल या बकेट की गई सुविधाओं से बनाया जाता है.

उदाहरण के लिए, एक "मूड पूर्वानुमान" मॉडल पर विचार करें, जो इन चार में से किसी एक बकेट में तापमान को दिखाता है:

  • freezing
  • chilly
  • temperate
  • warm

साथ ही, यहां दिए गए तीन बकेट में से किसी एक में हवा की रफ़्तार दिखाता है:

  • still
  • light
  • windy

फ़ीचर क्रॉस के बिना, लीनियर मॉडल, पहले से मौजूद सात अलग-अलग बकेट पर अलग-अलग ट्रेनिंग देता है. इसलिए, मॉडल freezing को ट्रेनिंग के बिना, windy पर ट्रेनिंग देता है.

इसके अलावा, आपके पास तापमान और हवा की रफ़्तार का एक फ़ीचर क्रॉस बनाने का विकल्प भी है. इस सिंथेटिक सुविधा की ये 12 संभावित वैल्यू हो सकती हैं:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

क्रॉस की सुविधा की मदद से यह मॉडल, freezing-windy दिन और freezing-still दिन के बीच के मूड के अंतर के बारे में जान सकता है.

अगर आप दो सुविधाओं से कोई सिंथेटिक सुविधा बनाते हैं, जिनमें से हर एक में बहुत सारे अलग-अलग बकेट हैं, तो नतीजे देने वाली सुविधा के क्रॉस को एक बड़ी संख्या में संभावित कॉम्बिनेशन मिलेंगे. उदाहरण के लिए, अगर एक सुविधा में 1,000 बकेट और दूसरी सुविधा में 2,000 बकेट हैं, तो नई सुविधा के क्रॉस में 20,00,000 बकेट होंगी.

औपचारिक तौर पर, क्रॉस एक कार्टीज़न प्रॉडक्ट होता है.

फ़ीचर क्रॉस का इस्तेमाल ज़्यादातर लीनियर मॉडल के साथ किया जाता है और न्यूरल नेटवर्क के साथ बहुत ही कम इस्तेमाल किया जाता है.

फ़ीचर इंजीनियरिंग

#fundamentals
#TensorFlow

ऐसी प्रोसेस जिसमें ये चरण शामिल होते हैं:

  1. यह तय करना कि किसी मॉडल की ट्रेनिंग के लिए कौनसी सुविधाएं काम की हो सकती हैं.
  2. डेटासेट से रॉ डेटा को उन सुविधाओं के बेहतर वर्शन में बदलना.

उदाहरण के लिए, आपको यह तय करना पड़ सकता है कि temperature काम की सुविधा हो सकती है. इसके बाद, बकेटिंग का इस्तेमाल करके एक्सपेरिमेंट किया जा सकता है, ताकि यह ऑप्टिमाइज़ किया जा सके कि मॉडल, अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी सुविधा से हटाना या फ़ेचुरेशन कहा जाता है.

सुविधाओं का सेट

#fundamentals

आपकी मशीन लर्निंग मॉडल की ट्रेनिंग के लिए इस्तेमाल होने वाली सुविधाओं का ग्रुप. उदाहरण के लिए, पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति, ऐसे मॉडल के लिए एक सामान्य सुविधा सेट हो सकती है जो घरों की कीमतों का अनुमान लगाती है.

फ़ीचर वेक्टर

#fundamentals

feature की वैल्यू के कलेक्शन में एक उदाहरण शामिल है. फ़ीचर वेक्टर को ट्रेनिंग के दौरान और अनुमान लगने के दौरान डाला जाता है. उदाहरण के लिए, दो अलग-अलग सुविधाओं वाले मॉडल के लिए फ़ीचर वेक्टर ये हो सकता है:

[0.92, 0.56]

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.
          इनपुट लेयर में दो नोड होते हैं, एक में
          0.92 की वैल्यू और दूसरे में 0.56 की वैल्यू है.

हर उदाहरण, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू देता है. इसलिए, अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ इस तरह हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग से यह तय होता है कि फ़ीचर वेक्टर में सुविधाओं को कैसे दिखाया जाए. उदाहरण के लिए, पांच संभावित वैल्यू वाली बाइनरी कैटगरी वाली सुविधा को वन-हॉट एन्कोडिंग के साथ दिखाया जा सकता है. इस मामले में, किसी खास उदाहरण के लिए फ़ीचर वेक्टर के हिस्से में चार शून्य और तीसरी स्थिति में एक 1.0 होगा, जो इस तरह है:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक अन्य उदाहरण के रूप में, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

  • एक बाइनरी कैटगरीकल सुविधा जिसमें पांच संभावित वैल्यू होती हैं. इन्हें एक-हॉट एन्कोडिंग से दिखाया जाता है; उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
  • अन्य बाइनरी कैटगरी से जुड़ी सुविधा, जिसमें तीन संभावित वैल्यू होती हैं. इन्हें वन-हॉट एन्कोडिंग के साथ दिखाया जाता है; उदाहरण के लिए: [0.0, 0.0, 1.0]
  • फ़्लोटिंग-पॉइंट वाली सुविधा का इस्तेमाल करें; उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को नौ वैल्यू से दिखाया जाएगा. पिछली सूची में उदाहरण के तौर पर दी गई वैल्यू दी गई हैं, तो फ़ीचर वेक्टर यह होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, एक ऐसी स्थिति जिसमें किसी मॉडल के अनुमान, उसी मॉडल या दूसरे मॉडल के ट्रेनिंग डेटा पर असर डालते हैं. उदाहरण के लिए, फ़िल्मों का सुझाव देने वाला मॉडल, लोगों को दिखने वाली फ़िल्मों पर असर डालेगा. इसके बाद, फ़िल्मों के सुझाव देने वाले मॉडल पर इसका असर पड़ेगा.

G

सामान्य बनाना

#fundamentals

किसी मॉडल की मदद से, नए और अनदेखे डेटा का सही अनुमान लगाया जा सकता है. जो मॉडल सामान्य हो सकता है वह ओवरफ़िट करने वाले मॉडल के उलट होता है.

सामान्यीकरण कर्व

#fundamentals

ट्रेनिंग में होने वाली कमी और पुष्टि करने में होने वाली कमी, दोनों का एक प्लॉट. इसमें दोहरावों की संख्या बताई गई है.

जनरलाइज़ेशन कर्व की मदद से, ओवरफ़िट का पता लगाया जा सकता है. उदाहरण के लिए, नीचे दिया गया सामान्यीकरण का कर्व ओवरफ़िटिंग का सुझाव देता है, क्योंकि पुष्टि में होने वाली कमी ट्रेनिंग में होने वाली कमी से काफ़ी ज़्यादा हो जाती है.

एक कार्टीज़न ग्राफ़, जिसमें y-ऐक्सिस को नुकसान का लेबल और x-ऐक्सिस को &#39;दोहराव&#39; के तौर पर लेबल किया गया है. दो प्लॉट दिखाई देते हैं. एक प्लॉट में,
          ट्रेनिंग में हुए नुकसान को दिखाया गया है और दूसरे प्लॉट में, पुष्टि करने में हुई कमी को दिखाया गया है.
          दोनों प्लॉट की शुरुआत एक ही तरह से होती है, लेकिन बाद में ट्रेनिंग में होने वाली कमी,
          पुष्टि किए जाने की संख्या के मुकाबले काफ़ी कम हो जाती है.

ग्रेडिएंट डिसेंट

#fundamentals

लॉस को कम करने की गणित की तकनीक. ग्रेडिएंट डिसेंट, धीरे-धीरे वज़न और बायस को अडजस्ट करता है, ताकि नुकसान को कम करने के लिए धीरे-धीरे सबसे अच्छा कॉम्बिनेशन ढूंढा जा सके.

ग्रेडिएंट डिसऑर्डर, मशीन लर्निंग से काफ़ी पुराना होता है.

ज़मीनी हकीकत

#fundamentals

हकीकत.

असल में जो कुछ हुआ था.

उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन मॉडल देखें, जो अनुमान लगाता है कि यूनिवर्सिटी के पहले साल का कोई छात्र छह साल में ग्रैजुएट होगा या नहीं. इस मॉडल की बुनियादी बात यह है कि उस छात्र/छात्रा ने छह साल में ग्रैजुएट किया है या नहीं.

H

छिपी हुई लेयर

#fundamentals

इनपुट लेयर और आउटपुट लेयर (अनुमान) के बीच, न्यूरल नेटवर्क में मौजूद एक लेयर. हर छिपी हुई लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में दो छिपी हुई लेयर होती हैं. पहली में तीन न्यूरॉन और दूसरे में दो न्यूरॉन होते हैं:

चार लेयर. पहली लेयर एक इनपुट लेयर है, जिसमें दो
          सुविधाएं होती हैं. दूसरी लेयर एक छिपी हुई लेयर है, जिसमें तीन
          न्यूरॉन होते हैं. तीसरी लेयर एक छिपी हुई लेयर है, जिसमें दो
          न्यूरॉन होते हैं. चौथी लेयर, आउटपुट लेयर है. हर सुविधा में
          तीन किनारे होते हैं. हर किनारे, दूसरी लेयर के अलग न्यूरॉन
          की ओर इशारा करता है. दूसरी लेयर के हर न्यूरॉन में
          दो किनारे होते हैं. इनमें से हर एक किनारे, तीसरी लेयर के एक अलग न्यूरॉन पर ले जाता है. तीसरी लेयर के हर न्यूरॉन में एक किनारा होता है.
          हर न्यूरॉन, आउटपुट लेयर की ओर इशारा करता है.

डीप न्यूरल नेटवर्क में एक से ज़्यादा छिपी हुई लेयर होती हैं. उदाहरण के लिए, पिछला इलस्ट्रेशन एक डीप न्यूरल नेटवर्क है, क्योंकि इस मॉडल में दो छिपी लेयर हैं.

हाइपर पैरामीटर

#fundamentals

ऐसे वैरिएबल जिन्हें आप या हाइपर पैरामीटर ट्यूनिंग सेवा किसी मॉडल की ट्रेनिंग के दौरान लगातार अडजस्ट होते हैं. उदाहरण के लिए, लर्निंग रेट एक हाइपर पैरामीटर है. एक ट्रेनिंग सेशन से पहले सीखने की दर को 0.01 पर सेट किया जा सकता है. अगर आपको यह तय करना है कि 0.01 बहुत ज़्यादा है, तो अगले ट्रेनिंग सेशन के लिए सीखने की दर को 0.003 पर सेट किया जा सकता है.

वहीं दूसरी ओर, पैरामीटर कई वेट और बायस होते हैं, जिन्हें मॉडल ट्रेनिंग के दौरान समझता है.

I

स्वतंत्र रूप से और समान रूप से डिस्ट्रिब्यूट किए गए हों (i.d)

#fundamentals

ऐसे डिस्ट्रिब्यूशन से लिया गया डेटा जो नहीं बदलता है और जहां तैयार की गई हर वैल्यू, पहले ड्रॉ की गई वैल्यू पर निर्भर नहीं होती है. आई.आई.डी., मशीन लर्निंग की आदर्श गैस है—एक उपयोगी गणितीय निर्माण है, लेकिन यह असल दुनिया में कभी सटीक रूप से नहीं मिलता. उदाहरण के लिए, किसी वेब पेज पर आने वाले लोगों का डिस्ट्रिब्यूशन एक छोटी विंडो में हो सकता है. इसका मतलब है कि उस छोटी विंडो के दौरान डिस्ट्रिब्यूशन में बदलाव नहीं होता और आम तौर पर, किसी व्यक्ति की साइट पर आना, दूसरे व्यक्ति की विज़िट से अलग होता है. हालांकि, अगर उस समयावधि को बढ़ाया जाता है, तो वेब पेज पर आने वाले लोगों में सीज़न के मुताबिक अंतर दिख सकते हैं.

नॉन-स्टेशनरिटी भी देखें.

अनुमान

#fundamentals

मशीन लर्निंग में, बिना लेबल वाले उदाहरणों पर ट्रेन किए गए मॉडल को लागू करके, अनुमान लगाने की प्रोसेस.

आंकड़ों के मामले में, अनुमान का मतलब कुछ अलग होता है. ज़्यादा जानकारी के लिए आंकड़ों के अनुमान के बारे में Wikipedia का लेख देखें.

इनपुट लेयर

#fundamentals

किसी न्यूरल नेटवर्क की लेयर, जिसमें फ़ीचर वेक्टर रखा जाता है. इसका मतलब है कि इनपुट लेयर में, ट्रेनिंग या अनुमान के उदाहरण दिए गए हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में इनपुट लेयर में दो सुविधाएं होती हैं:

चार लेयर: इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.

व्याख्या

#fundamentals

किसी एमएल मॉडल के तर्क को किसी इंसान को समझ में आने लायक शब्दों में समझाने या पेश करने की क्षमता.

उदाहरण के लिए, ज़्यादातर लीनियर रिग्रेशन मॉडल को समझा जा सकता है. (आपको सिर्फ़ हर सुविधा के लिए तय किए गए वज़न को देखना होगा.) डिसिज़न फ़ॉरेस्ट भी आसानी से समझ में आते हैं. हालांकि, कुछ मॉडल को समझने के लिए जटिल विज़ुअलाइज़ेशन की ज़रूरत होती है.

एमएल मॉडल को समझने के लिए, लर्निंग इंटरप्रेटेबिलिटी टूल (एलआईटी) का इस्तेमाल किया जा सकता है.

फिर से करें

#fundamentals

ट्रेनिंग के दौरान, मॉडल के पैरामीटर का एक अपडेट मिलता है. जैसे, मॉडल का वेट और बायस. बैच के साइज़ से तय होता है कि मॉडल एक बार में कितने उदाहरण प्रोसेस करेगा. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो पैरामीटर में बदलाव करने से पहले मॉडल, 20 उदाहरणों को प्रोसेस करता है.

किसी न्यूरल नेटवर्क को ट्रेनिंग देते समय, सिंगल इटरेशन में ये दो पास शामिल होते हैं:

  1. किसी एक बैच पर होने वाले नुकसान का आकलन करने के लिए फ़ॉरवर्ड पास.
  2. लॉस और लर्निंग रेट के हिसाब से, मॉडल के पैरामीटर में बदलाव करने के लिए, बैकवर्ड पास (बैकप्रॉपैगेशन).

L

0 रेगुलराइज़ेशन

#fundamentals

यह एक तरह का रेगुलराइज़ेशन होता है, जिसमें किसी मॉडल में नॉन-ज़ीरो वेट की कुल संख्या को दंडित किया जाता है. उदाहरण के लिए, 11 गैर शून्य वज़न वाले मॉडल को 10 गैर शून्य वज़न वाले मिलते-जुलते मॉडल की तुलना में ज़्यादा दंड दिया जाएगा.

L0 रेगुलराइज़ेशन को कभी-कभी L0-नॉर्म रेगुलराइज़ेशन कहा जाता है.

1 लेवल में नुकसान

#fundamentals

लॉस फ़ंक्शन, जो label की असल वैल्यू और मॉडल के अनुमान के मुताबिक तय की गई वैल्यू के बीच के अंतर की सटीक वैल्यू कैलकुलेट करता है. उदाहरण के लिए, यहां पांच उदाहरण में से बैच के लिए, L1 के नुकसान का कैलकुलेशन दिया गया है:

उदाहरण का वास्तविक मान मॉडल की अनुमानित वैल्यू डेल्टा का निरपेक्ष मान
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 नुकसान

लेवल1 से होने वाले नुकसान को आउटलेयर की तुलना में, L2 लेवल पर होने वाले नुकसान से कम संवेदनशील माना जाता है.

मीन ऐब्सॉल्यूट एरर, हर उदाहरण में हुए औसत ली1 नुकसान को दिखाता है.

1 रेगुलराइज़ेशन

#fundamentals

यह एक तरह का रेगुलराइज़ेशन है, जिसमें वेट की कुल वैल्यू के अनुपात में वज़न को शामिल किया जाता है. L1 रेगुलराइज़ेशन से, ऐसी सुविधाओं को 0 पर लाने में मदद मिलती है जो काम की नहीं हैं या जो काम की नहीं हैं. 0 वज़न वाली सुविधा को मॉडल से हटा दिया जाता है.

L2 रेगुलराइज़ेशन के साथ कंट्रास्ट करें.

2 लेवल की हार

#fundamentals

लॉस फ़ंक्शन, जो लेबल की असल वैल्यू और किसी मॉडल के अनुमान वाली वैल्यू के बीच के अंतर के स्क्वेयर का हिसाब लगाता है. उदाहरण के लिए, यहां पांच उदाहरण में से, बैच के लिए, L2 के नुकसान का कैलकुलेशन दिया गया है:

उदाहरण का वास्तविक मान मॉडल की अनुमानित वैल्यू डेल्टा का वर्ग
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 नुकसान

स्क्वैयरिंग की वजह से, L2 के नुकसान की वजह से आउटलेयर का असर बढ़ जाता है. इसका मतलब है कि L1 से होने वाला नुकसान के मुकाबले, L2 के नुकसान की गलत जानकारी दिखाने पर ज़्यादा असर पड़ता है. उदाहरण के लिए, पिछले बैच के लिए L1 का नुकसान, 16 के बजाय 8 होगा. ध्यान दें कि सिंगल आउटलायर, 16 में से 9 को शामिल करता है.

आम तौर पर, रिग्रेशन मॉडल में लॉस फ़ंक्शन के तौर पर, L2 के नुकसान का इस्तेमाल किया जाता है.

मीन स्क्वेयर्ड एरर, हर उदाहरण के लिए हुए औसत ली2 नुकसान को दिखाता है. स्क्वेयर लॉस, L2 लॉस का दूसरा नाम है.

2 रेगुलराइज़ेशन

#fundamentals

एक तरह का रेगुलराइज़ेशन, जिसमें वेट के कुल स्क्वेयर के अनुपात में वज़न को शामिल किया जाता है. L2 रेगुलराइज़ेशन से, आउटलेयर वेट को 0 के करीब लाने में मदद मिलती है (जिनका वैल्यू ज़्यादा पॉज़िटिव या कम नेगेटिव वैल्यू होती है). हालांकि, यह वैल्यू 0 के आस-पास है. जिन सुविधाओं की वैल्यू 0 के बहुत करीब होती है वे मॉडल में बनी रहती हैं लेकिन मॉडल के अनुमान पर बहुत ज़्यादा असर नहीं डालती हैं.

L2 रेगुलराइज़ेशन की मदद से, लीनियर मॉडल में सामान्य चीज़ों को बेहतर तरीके से समझा जा सकता है.

L1 रेगुलराइज़ेशन के साथ कंट्रास्ट करें.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, किसी उदाहरण का "जवाब" या "नतीजे" वाला हिस्सा.

लेबल किए गए हर उदाहरण में एक या एक से ज़्यादा सुविधाएं और एक लेबल होता है. उदाहरण के लिए, स्पैम की पहचान करने वाले डेटासेट में, लेबल या तो "स्पैम" होगा या "स्पैम नहीं होगा." बारिश से जुड़े डेटासेट में, यह लेबल किसी खास अवधि के दौरान हुई बारिश की मात्रा हो सकता है.

लेबल किया गया उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें एक या उससे ज़्यादा सुविधाएं और एक लेबल मौजूद हो. उदाहरण के लिए, नीचे दी गई टेबल में, घर के मूल्यांकन के मॉडल के लेबल वाले तीन उदाहरण दिए गए हैं. हर उदाहरण में तीन सुविधाएं और एक लेबल है:

कमरों की संख्या बाथरूम की संख्या घर में उम्र घर की कीमत (लेबल)
3 2 15 3,45,000 डॉलर
2 1 72 1,79,000 डॉलर
4 2 34 3,92,000 डॉलर

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल को लेबल किए गए उदाहरणों के आधार पर ट्रेनिंग दी जाती है और बिना लेबल वाले उदाहरणों का अनुमान लगाया जाता है.

बिना लेबल वाले उदाहरणों के साथ कंट्रास्ट लेबल किया गया उदाहरण.

लैम्डा

#fundamentals

रेगुलराइज़ेशन दर का समानार्थी शब्द.

Lambda एक बहुत ज़्यादा लोडेड शब्द है. यहां हम रेगुलराइज़ेशन में शब्द की परिभाषा पर फ़ोकस कर रहे हैं.

लेयर

#fundamentals

किसी न्यूरल नेटवर्क में मौजूद न्यूरॉन का सेट. आम तौर पर तीन तरह की लेयर के बारे में यहां बताया गया है:

उदाहरण के लिए, नीचे दिया गया उदाहरण एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क दिखाता है:

न्यूरल नेटवर्क, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक
          आउटपुट लेयर है. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          छिपी हुई लेयर में तीन न्यूरॉन होते हैं और दूसरी
          छिपी हुई लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक नोड होता है.

TensorFlow में, layers भी Python फ़ंक्शन हैं. ये इनपुट के तौर पर Tensor और कॉन्फ़िगरेशन के विकल्प लेते हैं और आउटपुट के तौर पर अन्य टेन्सर बनाते हैं.

सीखने की दर

#fundamentals

यह एक फ़्लोटिंग-पॉइंट नंबर होता है, जो ग्रेडिएंट डिसेंट एल्गोरिदम को बताता है. हर दोहराव पर, वेट और बायस को किस हद तक कम या ज़्यादा किया जा सकता है. उदाहरण के लिए, 0.3 की सीखने की दर, 0.1 की लर्निंग दर की तुलना में महत्व और पक्षपात को तीन गुना ज़्यादा तेज़ी से अडजस्ट करेगी.

लर्निंग रेट एक अहम हाइपर पैरामीटर है. अगर सीखने की दर को बहुत कम पर सेट किया जाता है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. अगर आपने लर्निंग रेट को बहुत ज़्यादा पर सेट किया है, तो ग्रेडिएंट डिसेंट में अक्सर कन्वर्ज़न तक पहुंचने में परेशानी होती है.

रेखीय

#fundamentals

दो या दो से ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ जोड़ और गुणा करके दिखाया जा सकता है.

लीनियर रिलेशनशिप का प्लॉट एक लाइन होती है.

nonlinear के साथ कंट्रास्ट करें.

लीनियर मॉडल

#fundamentals

ऐसा model जो model करने के लिए, हर model के लिए एक model असाइन करता है. (लीनियर मॉडल में भी पूर्वाग्रह शामिल होता है.) वहीं दूसरी ओर, डीप मॉडल में अनुमानों के लिए सुविधाओं का संबंध आम तौर पर ऑनलाइन नहीं होता है.

डीप मॉडल के मुकाबले, लीनियर मॉडल को ट्रेनिंग देना आसान होता है. साथ ही, ये मॉडल समझने में आसान होते हैं. हालांकि, डीप मॉडल सुविधाओं के बीच जटिल संबंधों के बारे में जान सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन दो तरह के लीनियर मॉडल हैं.

लीनियर रिग्रेशन

#fundamentals

एक तरह का मशीन लर्निंग मॉडल, जिसमें नीचे दी गई दोनों बातें सही हैं:

लॉजिस्टिक रिग्रेशन के साथ कंट्रास्ट लीनियर रिग्रेशन. साथ ही, क्लासिफ़िकेशन के साथ कंट्रास्ट रिग्रेशन.

लॉजिस्टिक रिग्रेशन

#fundamentals

यह एक तरह का रिग्रेशन मॉडल है, जो किसी प्रॉबबिलिटी का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल में ये विशेषताएं होती हैं:

  • लेबल कैटगरिकल है. लॉजिस्टिक रिग्रेशन शब्द का मतलब आम तौर पर बाइनरी लॉजिस्टिक रिग्रेशन होता है. यह एक ऐसे मॉडल के लिए इस्तेमाल होता है जो दो संभावित वैल्यू वाले लेबल के लिए प्रॉबबिलिटी का हिसाब लगाता है. आम तौर पर इस्तेमाल न होने वाला वैरिएंट, मल्टीनोमियल लॉजिस्टिक रिग्रेशन, दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए प्रॉबबिलिटी की गणना करता है.
  • ट्रेनिंग के दौरान, लॉग लॉस पता चलता है. (दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, एक से ज़्यादा लॉग लॉस यूनिट रखी जा सकती हैं.)
  • इस मॉडल में लीनियर आर्किटेक्चर है, न कि डीप न्यूरल नेटवर्क. हालांकि, इस डेफ़िनिशन का बाकी हिस्सा डीप मॉडल पर भी लागू होता है, जो कैटगरी वाले लेबल के लिए संभावना का अनुमान लगाता है.

उदाहरण के लिए, एक ऐसे लॉजिस्टिक रिग्रेशन मॉडल पर ध्यान दें जो किसी इनपुट ईमेल के स्पैम होने या न होने की संभावना का हिसाब लगाता है. अनुमान के दौरान, मान लें कि मॉडल 0.72 का अनुमान लगाता है. इसलिए, मॉडल यह अनुमान लगा रहा है:

  • ईमेल के स्पैम होने की संभावना 72% है.
  • ईमेल के स्पैम न होने की संभावना 28% है.

लॉजिस्टिक रिग्रेशन मॉडल में, इन दो चरणों वाले आर्किटेक्चर का इस्तेमाल किया जाता है:

  1. मॉडल, इनपुट सुविधाओं के लीनियर फ़ंक्शन को लागू करके, रॉ अनुमान (y') जनरेट करता है.
  2. यह मॉडल उस रॉ अनुमान का इस्तेमाल, इनपुट के तौर पर सिगमॉइड फ़ंक्शन के लिए करता है. यह फ़ंक्शन, रॉ अनुमान को 0 और 1 के बीच की वैल्यू में बदल देता है.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल, किसी संख्या का अनुमान लगाता है. हालांकि, यह संख्या आम तौर पर इस तरह से बाइनरी क्लासिफ़िकेशन मॉडल का हिस्सा बन जाती है:

  • अगर अनुमानित संख्या कैटगरी तय करने के थ्रेशोल्ड से ज़्यादा है, तो बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
  • अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

लॉग लॉस

#fundamentals

लॉस फ़ंक्शन का इस्तेमाल, बाइनरी लॉजिस्टिक रिग्रेशन में किया जाता है.

लॉग-ऑड्स

#fundamentals

किसी इवेंट की संख्याओं का लॉगारिद्म (लघुगणक).

हार

#fundamentals

निगरानी में रखे गए मॉडल की ट्रेनिंग के दौरान, इससे पता चलता है कि किसी मॉडल का अनुमान, उसके लेबल से कितना दूर है.

लॉस फ़ंक्शन, नुकसान का हिसाब लगाता है.

लॉस कर्व

#fundamentals

ट्रेनिंग में दोहरावों की संख्या के आधार पर लॉस का प्लॉट. नीचे दिए गए प्लॉट में, आम तौर पर होने वाले नुकसान का वक्र दिखाया गया है:

नुकसान बनाम ट्रेनिंग के दोहरावों का कार्टेज़ियन ग्राफ़, जिसमें शुरुआती दोहरावों के नुकसान में तेज़ी से गिरावट दिखाई गई है. इसके बाद धीरे-धीरे गिरावट आई है और फिर आखिरी बार के दौरान सपाट स्लोप में कमी दिखाई गई है.

लॉस कर्व से आपको यह पता लगाने में मदद मिल सकती है कि आपका मॉडल कब कन्वर्ज़न कर रहा है या ओवरफ़िट कर रहा है.

लॉस कर्व इस तरह के सभी नुकसान प्लॉट कर सकते हैं:

सामान्यीकरण का कर्व भी देखें.

लॉस फ़ंक्शन

#fundamentals

ट्रेनिंग या जांच के दौरान, एक गणितीय फ़ंक्शन, जो उदाहरणों के बैच में लॉस का हिसाब लगाता है. गलत अनुमान लगाने वाले मॉडल की तुलना में, खराब अनुमान लगाने वाले मॉडल के लिए, लॉस फ़ंक्शन कम होता है.

आम तौर पर, ट्रेनिंग का मकसद उस नुकसान को कम करना है जो नुकसान पहुंचाने वाले फ़ंक्शन से होने वाले नुकसान को कम करता है.

नुकसान पहुंचाने वाले कई अलग-अलग तरह के फ़ंक्शन मौजूद हैं. जिस तरह का मॉडल बनाया जा रहा है उसके लिए सही नुकसान फ़ंक्शन चुनें. उदाहरण के लिए:

सोम

मशीन लर्निंग

#fundamentals

ऐसा प्रोग्राम या सिस्टम जो इनपुट डेटा से मॉडल को ट्रेन करता है. ट्रेन किया गया मॉडल, उसी डिस्ट्रिब्यूशन से लिए गए नए (पहले कभी नहीं देखा गया) डेटा से काम का अनुमान लगा सकता है जिसका इस्तेमाल मॉडल को ट्रेनिंग देने के लिए किया जाता है.

मशीन लर्निंग का मतलब, इन प्रोग्राम या सिस्टम से जुड़े अध्ययन क्षेत्र से भी है.

बहुमत श्रेणी

#fundamentals

क्लास-असंतुलित डेटासेट में ज़्यादा सामान्य लेबल. उदाहरण के लिए, अगर एक डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल दिया गया है, तो नेगेटिव लेबल वाले लेबल ज़्यादा संख्या में होंगे.

अल्पसंख्यक श्रेणी के बीच अंतर.

मिनी-बैच

#fundamentals

बैच का एक छोटा और बिना किसी क्रम के चुना गया सबसेट, जिसे एक ही दोहराव में प्रोसेस किया जाता है. आम तौर पर, मिनी-बैच के बैच का साइज़ 10 से 1,000 उदाहरणों के बीच होता है.

उदाहरण के लिए, मान लें कि पूरे ट्रेनिंग सेट (पूरे बैच) में 1,000 उदाहरण हैं. इसके अलावा, मान लें कि आपने हर मिनी-बैच के लिए बैच साइज़ को 20 पर सेट किया है. इसलिए, हर फिर से 1,000 उदाहरणों में से 20 उदाहरणों से रैंडम तरीके से 20 के नुकसान का पता चलता है. इसके बाद, यह उसी के हिसाब से वेट और पूर्वाग्रह को बदल देता है.

पूरे बैच के सभी उदाहरणों की हानि की तुलना में, मिनी-बैच पर होने वाले नुकसान का हिसाब लगाना ज़्यादा असरदार है.

अल्पसंख्यक वर्ग

#fundamentals

क्लास-असंतुलित डेटासेट में कम इस्तेमाल होने वाला लेबल. उदाहरण के लिए, अगर 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल वाले डेटासेट के लिए, पॉज़िटिव लेबल दिए जाते हैं, तो उन्हें माइनरिटी क्लास कहा जाता है.

मेजरिटी क्लास के साथ कंट्रास्ट.

model

#fundamentals

आम तौर पर, गणित के किसी ऐसे कंस्ट्रक्ट जो इनपुट डेटा को प्रोसेस करता है और आउटपुट देता है. मॉडल, पैरामीटर और स्ट्रक्चर का एक सेट होता है. यह अनुमान लगाने के लिए सिस्टम की ज़रूरत होती है. सुपरवाइज़्ड मशीन लर्निंग में, कोई मॉडल इनपुट के तौर पर उदाहरण लेता है और आउटपुट के तौर पर अनुमान का अनुमान लगाता है. निगरानी में रखे गए मशीन लर्निंग के मॉडल में कुछ हद तक अंतर होता है. उदाहरण के लिए:

  • लीनियर रिग्रेशन मॉडल में, वेट और बायस का एक सेट शामिल होता है.
  • न्यूरल नेटवर्क मॉडल में ये शामिल हैं:
  • डिसिज़न ट्री मॉडल में ये चीज़ें शामिल होती हैं:
    • पेड़ का आकार; यानी वह पैटर्न जिसमें पत्तियां और स्थितियां जुड़ी होती हैं.
    • मौसम और पत्तियां.

आपके पास मॉडल को सेव करने, उसे वापस लाने या उसकी कॉपी बनाने का विकल्प होता है.

अनसुपरवाइज़्ड मशीन लर्निंग भी मॉडल जनरेट करती है. आम तौर पर, यह एक ऐसा फ़ंक्शन होता है जो इनपुट के उदाहरण को सबसे सही क्लस्टर से मैप कर सकता है.

मल्टी-क्लास क्लासिफ़िकेशन

#fundamentals

सुपरवाइज़्ड लर्निंग में, क्लासिफ़िकेशन से जुड़ी एक समस्या जिसमें डेटासेट में लेबल की दो से ज़्यादा क्लास मौजूद होती हैं. उदाहरण के लिए, Iris डेटासेट में मौजूद लेबल, इन तीन क्लास में से एक होना चाहिए:

  • आइरिस सेटोसा
  • आइरिस वर्जीनिका
  • आइरिस वर्सिकलर

एक मॉडल, जिसे Iris डेटासेट पर ट्रेनिंग दी गई है और जो नए उदाहरणों पर, आइरिस टाइप का अनुमान लगाती है, वह है मल्टी-क्लास क्लासिफ़िकेशन.

वहीं दूसरी ओर, दो क्लास को आसानी से पहचानने के लिए, बाइनरी क्लासिफ़िकेशन मॉडल का इस्तेमाल किया जाता है. उदाहरण के लिए, स्पैम या स्पैम नहीं का अनुमान लगाने वाला ईमेल मॉडल, बाइनरी क्लासिफ़िकेशन मॉडल है.

क्लस्टरिंग की समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन, दो से ज़्यादा क्लस्टर के बारे में बताता है.

नहीं

टारगेटिंग से बाहर रखी गई क्लास

#fundamentals

बाइनरी क्लासिफ़िकेशन में, एक क्लास को पॉज़िटिव और दूसरे को नेगेटिव कहा जाता है. पॉज़िटिव क्लास वह चीज़ या इवेंट है जिसके लिए मॉडल टेस्ट कर रहा है और नेगेटिव क्लास दूसरी संभावना है. उदाहरण के लिए:

  • किसी मेडिकल टेस्ट में नेगेटिव क्लास "ट्यूमर नहीं" हो सकती है.
  • ईमेल क्लासिफ़ायर में नेगेटिव क्लास "स्पैम नहीं" हो सकती है.

पॉज़िटिव क्लास के साथ कंट्रास्ट करें.

न्यूरल नेटवर्क

#fundamentals

ऐसा model जिसमें कम से कम एक model हो. डीप न्यूरल नेटवर्क एक तरह का न्यूरल नेटवर्क है. इसमें एक से ज़्यादा छिपी हुई लेयर होती हैं. उदाहरण के लिए, नीचे दिया गया डायग्राम, दो छिपे हुए लेयर वाले डीप न्यूरल नेटवर्क को दिखाता है.

न्यूरल नेटवर्क, जिसमें इनपुट लेयर, दो छिपी हुई लेयर, और एक
          आउटपुट लेयर है.

न्यूरल नेटवर्क का हर न्यूरॉन, अगली लेयर के सभी नोड से कनेक्ट होता है. उदाहरण के लिए, पिछले डायग्राम में ध्यान दें कि पहली छिपी हुई लेयर में मौजूद तीन न्यूरॉन में से हर एक न्यूरॉन, दूसरी छिपी लेयर में मौजूद दो न्यूरॉन से अलग-अलग कनेक्ट करता है.

कंप्यूटर पर इस्तेमाल किए जाने वाले न्यूरल नेटवर्क को कभी-कभी आर्टिफ़िशियल न्यूरल नेटवर्क कहा जाता है, ताकि इन्हें दिमाग और दूसरे नर्वस सिस्टम में पाए जाने वाले न्यूरल नेटवर्क से अलग किया जा सके.

कुछ न्यूरल नेटवर्क, अलग-अलग सुविधाओं और लेबल के बीच बहुत जटिल नॉन-लीनियर रिलेशनशिप की नकल कर सकते हैं.

कंवोलूशनल न्यूरल नेटवर्क और बार-बार होने वाले न्यूरल नेटवर्क भी देखें.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, किसी न्यूरल नेटवर्क की छिपी हुई लेयर में मौजूद एक अलग यूनिट. हर न्यूरॉन, ये दो चरण करता है:

  1. यह इनपुट वैल्यू के भारित योग को उनके संबंधित भार से गुणा करके मिलने वाली वैल्यू को कैलकुलेट करता है.
  2. वेटेड योग को इनपुट के रूप में ऐक्टिवेशन फ़ंक्शन में पास करता है.

छिपी हुई पहली लेयर में मौजूद न्यूरॉन, इनपुट लेयर में मौजूद सुविधा की वैल्यू से इनपुट स्वीकार करता है. पहली छिपी हुई लेयर के बाद, किसी भी छिपी हुई परत में मौजूद न्यूरॉन, पहले की छिपी लेयर के न्यूरॉन के इनपुट स्वीकार करता है. उदाहरण के लिए, छिपी हुई दूसरी लेयर में मौजूद एक न्यूरॉन, पहली छिपी हुई लेयर के न्यूरॉन के इनपुट स्वीकार करता है.

इस उदाहरण में दो न्यूरॉन और उनके इनपुट को हाइलाइट किया गया है.

न्यूरल नेटवर्क, जिसमें इनपुट लेयर, दो छिपी हुई लेयर, और एक
          आउटपुट लेयर है. इसमें दो न्यूरॉन हाइलाइट किए जाते हैं: पहला, पहले छिपी हुई लेयर में और दूसरा, दूसरी छिपी हुई लेयर में. छिपी हुई पहली लेयर में हाइलाइट किए गए न्यूरॉन को इनपुट लेयर की दोनों सुविधाओं से इनपुट मिलते हैं. छिपी हुई दूसरी लेयर में हाइलाइट किए गए न्यूरॉन को
 पहली छिपी हुई लेयर के तीन न्यूरॉन में से हर एक से इनपुट मिलता है.

तंत्रिकाओं के नेटवर्क में मौजूद एक न्यूरोन, दिमाग और नर्वस सिस्टम के दूसरे हिस्सों में न्यूरॉन के व्यवहार की नकल करता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में मौजूद न्यूरॉन.

नॉनलीनियर

#fundamentals

दो या दो से ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ जोड़ और गुणा करके नहीं दिखाया जा सकता. लीनियर रिलेशनशिप को लाइन के तौर पर दिखाया जा सकता है. nonlinear रिलेशनशिप को लाइन के तौर पर नहीं दिखाया जा सकता. उदाहरण के लिए, ऐसे दो मॉडल मानें जिनमें हर एक सुविधा एक ही लेबल से जुड़ी हो. बाईं ओर का मॉडल लीनियर है और दाईं ओर का मॉडल लीनियर है:

दो प्लॉट. एक प्लॉट एक लाइन है, इसलिए यह एक लीनियर रिलेशनशिप है.
          दूसरा प्लॉट एक कर्व है, इसलिए यह एक गैर-लीनियर संबंध है.

नॉनस्टेशनरिटी

#fundamentals

यह ऐसी सुविधा है जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में बदलती हैं. आम तौर पर, इसमें समय लगता है. उदाहरण के लिए, नॉनस्टेशनरिटी के इन उदाहरणों पर विचार करें:

  • किसी एक स्टोर में बेचे जाने वाले स्विमसूट की संख्या, सीज़न के हिसाब से बदलती रहती है.
  • किसी इलाके में फ़सल के काटे जाने वाले फल की संख्या साल भर में शून्य रहती है, लेकिन कुछ समय के लिए ज़्यादा होती है.
  • जलवायु परिवर्तन की वजह से, हर साल के औसत तापमान में बदलाव हो रहा है.

स्टेशनरिटी के साथ कंट्रास्ट करें.

नॉर्मलाइज़ेशन

#fundamentals

मोटे तौर पर, किसी वैरिएबल की वैल्यू की असल रेंज को वैल्यू की स्टैंडर्ड रेंज में बदलने की प्रोसेस, जैसे कि:

  • -1 से +1 तक
  • 0 से 1
  • सामान्य डिस्ट्रिब्यूशन

उदाहरण के लिए, मान लें कि किसी सुविधा की वैल्यू की असल रेंज 800 से 2,400 है. फ़ीचर इंजीनियरिंग के हिस्से के तौर पर, असल वैल्यू को एक स्टैंडर्ड रेंज तक सामान्य बनाया जा सकता है, जैसे कि -1 से +1.

फ़ीचर इंजीनियरिंग में नॉर्मलाइज़ेशन एक आम टास्क है. जब फ़ीचर वेक्टर में संख्या वाली हर सुविधा की रेंज करीब-करीब एक जैसी होती है, तो मॉडल आम तौर पर तेज़ी से ट्रेनिंग लेता है और बेहतर अनुमान देता है.

संख्या वाला डेटा

#fundamentals

सुविधाएं को पूर्णांक या असली वैल्यू के तौर पर दिखाया जाता है. उदाहरण के लिए, किसी घर का मूल्यांकन मॉडल संख्यात्मक डेटा के रूप में घर के आकार (वर्ग फ़ीट या वर्ग मीटर में) को दिखाएगा. किसी सुविधा को संख्या वाले डेटा के रूप में दिखाने से पता चलता है कि सुविधा की वैल्यू का लेबल के साथ गणितीय संबंध है. इसका मतलब है कि किसी घर के वर्ग मीटर की संख्या का, घर के मूल्य के साथ कुछ गणितीय संबंध हो सकता है.

पूरा पूर्णांक डेटा, संख्या वाले डेटा के रूप में नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों में पिन कोड पूर्णांक होते हैं. हालांकि, मॉडल में पूर्णांक वाले पिन कोड को संख्या वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. ऐसा इसलिए, क्योंकि 20000 का पिन कोड, 10,000 के पिन कोड के मुकाबले दोगुना या आधा नहीं होता. हालांकि, अलग-अलग पिन कोड, रीयल एस्टेट की अलग-अलग वैल्यू से जुड़े होते हैं, लेकिन हम यह नहीं मान सकते कि पिन कोड 20,000 पर रीयल एस्टेट की वैल्यू, 10,000 पिन कोड पर रीयल एस्टेट की वैल्यू के मुकाबले दोगुनी है. इसके बजाय, पिन कोड को कैटगरिकल डेटा के तौर पर दिखाया जाना चाहिए.

संख्या वाली सुविधाओं को लगातार मिलने वाली सुविधाएं कहा जाता है.

O

अॉफ़लाइन

#fundamentals

स्टैटिक का समानार्थी शब्द.

ऑफ़लाइन अनुमान

#fundamentals

मॉडल की प्रोसेस, जो अनुमान का बैच जनरेट करती है और फिर उन अनुमानों को कैश मेमोरी में सेव (सेव) करती है. ऐप्लिकेशन, मॉडल को फिर से चलाने के बजाय, कैश मेमोरी से अनुमानित अनुमान को ऐक्सेस कर सकते हैं.

उदाहरण के लिए, एक ऐसा मॉडल चुनें जो हर चार घंटे में एक बार स्थानीय मौसम का पूर्वानुमान (अनुमान) जनरेट करता हो. हर मॉडल के चलने के बाद, सिस्टम स्थानीय मौसम के सभी अनुमानों को कैश मेमोरी में सेव करता है. मौसम बताने वाले ऐप्लिकेशन, कैश मेमोरी से अनुमान इकट्ठा करते हैं.

ऑफ़लाइन अनुमान को स्टैटिक अनुमान भी कहा जाता है.

ऑनलाइन अनुमान के बीच अंतर करें.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरीकल डेटा को वेक्टर के तौर पर दिखाना जिसमें:

  • एक एलिमेंट 1 पर सेट है.
  • बाकी सभी एलिमेंट 0 पर सेट हैं.

आम तौर पर, वन-हॉट एन्कोडिंग का इस्तेमाल उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जिनमें संभावित वैल्यू का सीमित सेट होता है. उदाहरण के लिए, मान लें कि Scandinavia नाम की किसी खास कैटगरी के तहत आने वाली सुविधा की पांच वैल्यू हो सकती हैं:

  • "डेनमार्क"
  • "स्वीडन"
  • "नॉर्वे"
  • "फ़िनलैंड"
  • "आइसलैंड"

वन-हॉट एन्कोडिंग, पांच में से हर वैल्यू को इस तरह से दिखा सकती है:

country वेक्टर
"डेनमार्क" 1 0 0 0 0
"स्वीडन" 0 1 0 0 0
"नॉर्वे" 0 0 1 0 0
"फ़िनलैंड" 0 0 0 1 0
"आइसलैंड" 0 0 0 0 1

वन-हॉट एन्कोडिंग की मदद से, मॉडल पांच देशों में से हर एक के आधार पर अलग-अलग कनेक्शन सीख सकता है.

किसी सुविधा को संख्यात्मक डेटा के रूप में पेश करना, वन-हॉट एन्कोडिंग का विकल्प है. माफ़ करें, संख्या के हिसाब से स्कैंडिनेवियन देशों को दिखाना अच्छा विकल्प नहीं है. उदाहरण के लिए, नीचे दी गई संख्यात्मक निरूपण पर विचार करें:

  • "डेनमार्क" 0 है
  • "स्वीडन" 1 है
  • "नॉर्वे" 2 है
  • "फ़िनलैंड" तीन है
  • "आइसलैंड" चार है

न्यूमेरिक एन्कोडिंग के साथ, कोई मॉडल रॉ संख्याओं को गणितीय तरीके से समझेगा और उन संख्याओं के हिसाब से ट्रेनिंग की कोशिश करेगा. हालांकि, आइसलैंड, नॉर्वे की तुलना में दोगुना (या आधा) नहीं है, इसलिए यह मॉडल कुछ अजीब नतीजों पर पहुंच जाएगा.

एक-बनाम-सभी

#fundamentals

N क्लास में डेटा को कैटगरी में बांटने से जुड़ी समस्या को देखते हुए, N अलग-अलग बाइनरी क्लासिफ़ायर वाला सलूशन शामिल है. यह हर संभावित नतीजे के लिए एक बाइनरी क्लासिफ़ायर है. उदाहरण के लिए, अगर जानवरों, सब्ज़ियों या खनिज के उदाहरणों को अलग-अलग ग्रुप में बांटने वाले मॉडल से, एक ही समाधान वाले समाधान को तीन अलग-अलग बाइनरी कैटगरी में बांटने के लिए मिल जाएगा, तो:

  • जानवर बनाम जानवर नहीं
  • सब्ज़ियां बनाम बिना सब्जी
  • मिनरल बनाम नॉन मिनरल

online

#fundamentals

डाइनैमिक के लिए समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग के हिसाब से अनुमान जनरेट किए जा रहे हैं. उदाहरण के लिए, मान लें कि कोई ऐप्लिकेशन किसी मॉडल के लिए इनपुट पास करता है और किसी अनुमान के लिए अनुरोध जारी करता है. ऑनलाइन अनुमान का इस्तेमाल करने वाला सिस्टम, मॉडल को चलाकर अनुरोध का जवाब देता है. इसके बाद, वह ऐप्लिकेशन के लिए अनुमान दिखाता है.

ऑफ़लाइन अनुमान के बीच अंतर करें.

आउटपुट लेयर

#fundamentals

न्यूरल नेटवर्क की "फ़ाइनल" लेयर. आउटपुट लेयर में, अनुमान शामिल होता है.

नीचे दिया गया उदाहरण एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर वाला छोटा डीप न्यूरल नेटवर्क दिखाता है:

न्यूरल नेटवर्क, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक
          आउटपुट लेयर है. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          छिपी हुई लेयर में तीन न्यूरॉन होते हैं और दूसरी
          छिपी हुई लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक नोड होता है.

ओवरफ़िटिंग

#fundamentals

ऐसा model बनाना जो model से इतना सटीक हो कि वह नए डेटा के लिए सही अनुमान न लगा पाए.

रेगुलराइज़ेशन से ओवरफ़िटिंग कम हो सकती है. अलग-अलग तरह के और बड़े ट्रेनिंग सेट पर ट्रेनिंग देने से भी ज़रूरत से ज़्यादा फ़िटनेस से जुड़ा जा सकता है.

P

पांडा

#fundamentals

numpy पर बना कॉलम-ओरिएंटेड डेटा विश्लेषण एपीआई. TensorFlow जैसे कई मशीन लर्निंग फ़्रेमवर्क, इनपुट के तौर पर पांडा के डेटा स्ट्रक्चर के साथ काम करते हैं. ज़्यादा जानकारी के लिए, pandas के दस्तावेज़ देखें.

पैरामीटर

#fundamentals

वे वेट और बायस, जिन्हें मॉडल ट्रेनिंग के दौरान सीखता है. उदाहरण के लिए, किसी लीनियर रिग्रेशन मॉडल में, पैरामीटर में बायस (b) और सभी वेट (w1, w2, और इसी तरह के अन्य फ़ॉर्मूले) यहां दिए गए होते हैं:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

वहीं दूसरी ओर, हाइपर पैरामीटर वे वैल्यू होते हैं जो मॉडल को आप (या हाइपर पैरामीटर बदलने वाली सेवा) देते हैं. उदाहरण के लिए, लर्निंग रेट एक हाइपर पैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

वह क्लास जिसके लिए आपको टेस्ट करना है.

उदाहरण के लिए, कैंसर मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल की कैटगरी तय करने वाली सुविधा में, पॉज़िटिव क्लास "स्पैम" हो सकती है.

नेगेटिव क्लास के साथ कंट्रास्ट करें.

पोस्ट-प्रोसेसिंग

#fairness
#fundamentals

मॉडल चलाने के बाद मॉडल के आउटपुट में बदलाव करना. मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए, पोस्ट-प्रोसेसिंग का इस्तेमाल किया जा सकता है.

उदाहरण के लिए, कोई क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, पोस्ट-प्रोसेसिंग को बाइनरी क्लासिफ़ायर पर लागू कर सकता है. इससे कुछ एट्रिब्यूट के लिए ऑपर्च्यूनिटी की एक जैसी क्वालिटी बनी रहेगी. इसके लिए, जांच करके पता करना होगा कि उस एट्रिब्यूट की सभी वैल्यू के लिए सही पॉज़िटिव रेट है.

अनुमान

#fundamentals

मॉडल का आउटपुट. उदाहरण के लिए:

  • बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान या तो पॉज़िटिव क्लास या नेगेटिव क्लास होता है.
  • मल्टी-क्लास क्लासिफ़िकेशन मॉडल का अनुमान सिर्फ़ एक क्लास होता है.
  • लीनियर रिग्रेशन मॉडल का अनुमान कोई संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

लेबल का अनुमान लगाने के लिए इस्तेमाल किया जाने वाला डेटा, जो सीधे तौर पर डेटासेट में उपलब्ध नहीं होता.

उदाहरण के लिए, मान लें कि आपको कर्मचारी के स्ट्रेस लेवल का अनुमान लगाने के लिए, किसी मॉडल को ट्रेन करना होगा. आपके डेटासेट में कई ऐसी सुविधाएं हैं जो अनुमान लगाने वाली सुविधाएं देती हैं. हालांकि, इनमें स्ट्रेस लेवल का लेबल नहीं होता. और यह है कि आप "दफ़्तर की दुर्घटनाओं" को तनाव के स्तर के लिए प्रॉक्सी लेबल के रूप में चुनते हैं. ऐसा इसलिए होता है, क्योंकि कर्मचारी शांत रहने के मुकाबले, तनाव में रहते हुए कर्मचारियों के साथ ज़्यादा हादसों का सामना करते हैं. या वे दिलचस्पी लेते हैं? हो सकता है कि ऑफ़िस में होने वाली दुर्घटनाएं सचमुच कई वजहों से बढ़ और घटती हों.

दूसरे उदाहरण के तौर पर, मान लीजिए कि आपको अपने डेटासेट के लिए क्या बारिश हो रही है? को बूलियन लेबल बनाना है, लेकिन आपके डेटासेट में बारिश का डेटा नहीं है. अगर फ़ोटोग्राफ़ उपलब्ध हैं, तो शायद क्या बारिश हो रही है? क्या यह एक अच्छा प्रॉक्सी लेबल है? ऐसा हो सकता है, लेकिन कुछ संस्कृतियों के लोगों के लिए, धूप से बचने के लिए बारिश से बचने के लिए छाते उठाना पसंद किया जाता है.

प्रॉक्सी लेबल अक्सर ठीक नहीं होते हैं. जब भी हो सके, प्रॉक्सी लेबल के बजाय असल लेबल चुनें. इसलिए, जब असली लेबल मौजूद न हो, तो प्रॉक्सी लेबल को सावधानी से चुनें और सबसे कम खराब प्रॉक्सी लेबल कैंडिडेट चुनें.

R

आरएजी

#fundamentals

वापस पाने वाली जनरेशन के लिए छोटा नाम.

रेटिंग देने वाला

#fundamentals

वह व्यक्ति जो उदाहरण के लिए लेबल देता है. रेटिंग देने वाले लोगों का दूसरा नाम "एनोटेटर" है.

रेक्टिफ़ाइड लीनियर यूनिट (ReLU)

#fundamentals

ऐक्टिवेशन फ़ंक्शन, जो यह तरीका अपनाता है:

  • अगर इनपुट नेगेटिव या शून्य है, तो आउटपुट 0 होता है.
  • अगर इनपुट पॉज़िटिव है, तो आउटपुट, इनपुट के बराबर होता है.

उदाहरण के लिए:

  • अगर इनपुट -3 है, तो आउटपुट 0 होता है.
  • अगर इनपुट +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का एक प्लॉट दिया गया है:

दो लाइनों का कार्टिज़न प्लॉट. पहली लाइन का स्थिर
          y मान 0 है, जो x-ऐक्सिस पर -इनफ़िनिटी,0 से 0,-0 तक चलता है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है. इसलिए, यह 0,0 से +infinity,+infinity तक चलती है.

ReLU एक बहुत ही लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. ReLU के आसान व्यवहार के बावजूद, यह एक न्यूरल नेटवर्क को यह सुविधा देता है कि वह सुविधाओं और लेबल के ऑनलाइन संबंधों के बारे में जान सके.

रिग्रेशन मॉडल

#fundamentals

अनौपचारिक रूप से, ऐसा मॉडल जो संख्या का अनुमान लगाता है. (वहीं दूसरी ओर, क्लासिफ़िकेशन मॉडल, क्लास का अनुमान जनरेट करता है.) उदाहरण के लिए, नीचे दिए गए सभी रिग्रेशन मॉडल हैं:

  • ऐसा मॉडल जो किसी खास घर की कीमत का अनुमान लगाता है, जैसे कि 4,23,000 यूरो.
  • ऐसा मॉडल जो किसी खास पेड़ की उम्र का अनुमान लगाता है, जैसे कि 23.2 साल.
  • ऐसा मॉडल जो किसी शहर में अगले छह घंटों में होने वाली बारिश की मात्रा का अनुमान लगाता है, जैसे कि 0.18 इंच.

दो सामान्य तरह के रिग्रेशन मॉडल हैं:

  • लीनियर रिग्रेशन, जो उस लाइन का पता लगाता है जो लेबल की वैल्यू के हिसाब से सबसे सही होती है.
  • लॉजिस्टिक रिग्रेशन, जो 0.0 और 1.0 के बीच की प्रॉबबिलिटी जनरेट करता है. इसके बाद, सिस्टम आम तौर पर क्लास के अनुमान पर मैप करता है.

संख्यात्मक अनुमान देने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, संख्या वाला अनुमान असल में सिर्फ़ एक क्लासिफ़िकेशन मॉडल होता है जिसमें संख्या वाली क्लास के नाम होते हैं. उदाहरण के लिए, संख्या वाला पिन कोड का अनुमान लगाने वाला मॉडल, क्लासिफ़िकेशन मॉडल होता है, न कि रिग्रेशन मॉडल.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जो ओवरफ़िट को कम करता है. नियमित करने के लोकप्रिय तरीकों में ये शामिल हैं:

रेगुलराइज़ेशन को मॉडल की जटिलता पर दंड के रूप में भी परिभाषित किया जा सकता है.

रेगुलराइज़ेशन रेट

#fundamentals

यह संख्या ट्रेनिंग के दौरान रेगुलराइज़ेशन की अहमियत के बारे में बताती है. रेगुलराइज़ेशन की दर बढ़ाने से, ओवरफ़िटिंग कम हो जाती है. हालांकि, इससे मॉडल के अनुमान लगाने की क्षमता कम हो सकती है. इसके ठीक उलट, नियमित करने की दर को कम करने या हटाने से ज़्यादा फ़िटिंग बढ़ जाती है.

ReLU

#fundamentals

रेक्टिफ़ाइड लीनियर यूनिट का छोटा नाम.

रिक्वेस्टमेंटेड जनरेशन (आरएजी)

#fundamentals

लार्ज लैंग्वेज मॉडल (एलएलएम) आउटपुट की क्वालिटी को बेहतर बनाने की एक तकनीक. इस तकनीक को ट्रेनिंग देने के बाद, उस सोर्स से मिली जानकारी के आधार पर जनरेट किया जाता है. RAG, ट्रेनिंग वाले एलएलएम को भरोसेमंद नॉलेज बेस या दस्तावेज़ों से मिली जानकारी का ऐक्सेस देकर, एलएलएम के जवाबों को ज़्यादा सटीक बनाने का काम करता है.

वापस हासिल करने के लिए प्रेरित करने वाली जनरेशन की तकनीक का इस्तेमाल करने की आम वजहें ये हैं:

  • किसी मॉडल के जनरेट किए गए जवाबों के तथ्यों को ज़्यादा सटीक बनाना.
  • मॉडल को ऐसी जानकारी का ऐक्सेस देना जिसके लिए उसे ट्रेनिंग नहीं दी गई थी.
  • मॉडल के इस्तेमाल की जानकारी में बदलाव करना.
  • सोर्स को उद्धरण देने के लिए मॉडल को चालू करना.

उदाहरण के लिए, मान लें कि रसायन विज्ञान से जुड़ा कोई ऐप्लिकेशन, उपयोगकर्ता की क्वेरी से जुड़ी खास जानकारी जनरेट करने के लिए, PaLM API का इस्तेमाल करता है. जब ऐप्लिकेशन के बैकएंड को कोई क्वेरी मिलती है, तो बैकएंड:

  1. उपयोगकर्ता की क्वेरी के हिसाब से काम का डेटा ("वापस पाना") खोजता है.
  2. उपयोगकर्ता की क्वेरी में रसायन विज्ञान का ज़रूरी डेटा जोड़ता है.
  3. एलएलएम को, जोड़े गए डेटा के आधार पर खास जानकारी तैयार करने का निर्देश देता है.

आरओसी (रिसीवर के चलाने की खासियत) कर्व

#fundamentals

बाइनरी क्लासिफ़िकेशन में, अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड के लिए, ट्रू पॉज़िटिव रेट बनाम गलत पॉज़िटिव रेट का ग्राफ़.

आरओसी कर्व का आकार, बाइनरी क्लासिफ़िकेशन मॉडल की पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता के बारे में बताता है. उदाहरण के लिए, मान लें कि बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव क्लास को सभी पॉज़िटिव क्लास से पूरी तरह अलग करता है:

नंबर लाइन, जिसमें दाईं ओर आठ पॉज़िटिव उदाहरण और बाईं ओर सात नेगेटिव उदाहरण दिए गए हैं.

पिछले मॉडल का आरओसी कर्व इस तरह दिखता है:

आरओसी कर्व. x-ऐक्सिस, फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस का मतलब सही पॉज़िटिव रेट है. कर्व का आकार उलटा हुआ है. कर्व (0.0,0.0) से शुरू होता है और सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व (0.0,1.0) से (1.0,1.0) तक चला जाता है.

इसके उलट, नीचे दिया गया उदाहरण एक खराब मॉडल के लिए रॉ लॉजिस्टिक रिग्रेशन की वैल्यू को ग्राफ़ पर दिखाता है. यह मॉडल नेगेटिव क्लास को पॉज़िटिव क्लास से बिलकुल भी अलग नहीं कर सकता:

संख्या की लाइन, जिसमें पॉज़िटिव उदाहरण और नेगेटिव क्लास
          पूरी तरह से आपस में जुड़ी हुई हैं.

इस मॉडल का आरओसी कर्व इस तरह से दिखता है:

आरओसी कर्व, जो असल में (0.0,0.0) से (1.0,1.0) तक की सीधी लाइन है.

इस दौरान, असल दुनिया में, ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव और नेगेटिव क्लास को कुछ हद तक अलग करते हैं. हालांकि, आम तौर पर वे बिलकुल सही नहीं होते. इस तरह, सामान्य ROC वक्र दो चरम सीमाओं के बीच कहीं भी आता है:

आरओसी कर्व. x-ऐक्सिस, फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस का मतलब सही पॉज़िटिव रेट है. आरओसी कर्व में एक झटकेदार चाप का अनुमान लगाया गया है, जो कंपास पॉइंट को पश्चिम से उत्तर की ओर घुमाता है.

(0.0,1.0) के सबसे करीब वाले आरओसी कर्व पर मौजूद पॉइंट, कैटगरी तय करने के आदर्श थ्रेशोल्ड की पहचान करता है. हालांकि, असल दुनिया की कई अन्य समस्याएं, कैटगरी तय करने के लिए सही थ्रेशोल्ड को चुनने पर असर डालती हैं. उदाहरण के लिए, शायद फ़ॉल्स नेगेटिव की वजह से गलत नतीजे मिलने की तुलना में कहीं ज़्यादा दर्द हो सकता है.

संख्या वाली मेट्रिक को AUC कहते हैं. यह आरओसी कर्व को एक फ़्लोटिंग-पॉइंट वैल्यू में दिखाता है.

रूट मीन स्क्वेयर्ड एरर (RMSE)

#fundamentals

मीन स्क्वेयर्ड एरर का स्क्वेयर रूट.

S

सिगमॉइड फ़ंक्शन

#fundamentals

एक गणितीय फ़ंक्शन, जो किसी इनपुट वैल्यू को सीमित रेंज में "स्क्विश" करता है. आम तौर पर, यह वैल्यू 0 से 1 या -1 से +1 तक होती है. इसका मतलब है कि सिग्मॉइड में किसी भी संख्या (दो, दस लाख, नेगेटिव अरब, कुछ भी) को पास किया जा सकता है और आउटपुट सीमित रेंज में रहेगा. सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

दो-डाइमेंशन वाला घुमावदार प्लॉट, जिसमें x वैल्यू हैं और जो डोमेन - इनफ़िनिटी से +पॉज़िटिव तक होते हैं, जबकि y वैल्यू की रेंज 0 से 1 तक होती है. जब x की वैल्यू 0 होती है, तो y का मतलब 0.5 होता है. कर्व का स्लोप हमेशा पॉज़िटिव होता है. सबसे ज़्यादा स्लोप 0, 0.5 पर होता है. साथ ही,x की कुल वैल्यू बढ़ने पर धीरे-धीरे ढलान कम होती है.

सिगमॉइड फ़ंक्शन का मशीन लर्निंग में कई तरह से इस्तेमाल किया जाता है. इनमें ये शामिल हैं:

सॉफ़्टमैक्स

#fundamentals

ऐसा फ़ंक्शन जो मल्टी-क्लास क्लासिफ़िकेशन मॉडल में हर संभावित क्लास के लिए संभावना तय करता है. इस संख्या का योग 1.0 ही होता है. उदाहरण के लिए, नीचे दी गई टेबल दिखाती है कि सॉफ़्टमैक्स अलग-अलग संभावनाओं को कैसे बांटता है:

इमेज एक है... प्रॉबेबिलिटी
कुत्ता .85 डॉलर
cat .13
घोड़ा .02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवार से सैंपलिंग के साथ कंट्रास्ट.

स्पार्स फ़ीचर

#language
#fundamentals

ऐसी सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, एक वैल्यू और लाखों शून्य वैल्यू वाली सुविधा को स्पार्स कहा जाता है. इसके उलट, डेंसिटी सुविधा में ऐसी वैल्यू होती हैं जो ज़्यादातर, शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में बहुत सी सुविधाएं बहुत कम होती हैं. कैटगरी के आधार पर दिखने वाली सुविधाएं, आम तौर पर बहुत कम पाई जाती हैं. उदाहरण के लिए, किसी जंगल में पेड़ की 300 संभावित प्रजातियों में से, एक उदाहरण में सिर्फ़ मेपल ट्री की पहचान हो सकती है. या, वीडियो लाइब्रेरी के लाखों वीडियो में से, किसी एक उदाहरण में सिर्फ़ "कासाब्लांका" शामिल हो सकता है.

किसी मॉडल में, आम तौर पर वन-हॉट एन्कोडिंग की मदद से, स्पार्स सुविधाएं दिखाई जाती हैं. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए वन-हॉट एन्कोडिंग के ऊपर एम्बेड की जा रही लेयर जोड़ी जा सकती है.

स्पार्स रिप्रज़ेंटेशन

#language
#fundamentals

स्पार्स सुविधा में नॉन-ज़ीरो एलिमेंट की सिर्फ़ रैंक स्टोर करना.

उदाहरण के लिए, मान लें कि species नाम की कैटगरी वाली सुविधा, किसी खास जंगल में पेड़ों की 36 प्रजातियों की पहचान करती है. साथ ही, यह मान लें कि हर उदाहरण में, सिर्फ़ एक प्रजाति की पहचान की जाती है.

हर उदाहरण में पेड़ की प्रजातियों को दिखाने के लिए, वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. वन-हॉट वेक्टर में एक 1 (इस उदाहरण में पेड़ों की खास प्रजातियों को दिखाने के लिए) और 35 0 होंगे (इस उदाहरण में पेड़ की 35 प्रजातियों को दिखाने के लिए नहीं). इसलिए, maple का वन-हॉट प्रज़ेंटेशन कुछ ऐसा दिख सकता है:

ऐसा वेक्टर जिसमें 0 से 23 तक की पोज़िशन 0 होती है, जहां रैंक 24 की वैल्यू 1 होती है, और पोज़िशन
          24 से लेकर 35 तक की वैल्यू 0 होती है.

इसके अलावा, सटीक जानकारी से सिर्फ़ किसी खास प्रजातियों की स्थिति का पता लगाया जा सकता है. अगर maple, 24 वें स्थान पर है, तो maple का थोड़ा-बहुत प्रतिनिधित्व यह होगा:

24

ध्यान दें कि खास तौर पर दिखाए जाने वाले प्रतिनिधि की तुलना में, खास मॉडल को बेहतर तरीके से दिखाना बहुत छोटा है.

स्पार्स वेक्टर

#fundamentals

वह वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती हैं. पार्स करने की सुविधा और पार्सता भी देखें.

वर्ग में नुकसान

#fundamentals

L2 हानि का समानार्थी शब्द.

स्टैटिक

#fundamentals

लगातार कुछ करने के बजाय सिर्फ़ एक बार किया. स्टैटिक और ऑफ़लाइन शब्द समानार्थी हैं. मशीन लर्निंग में स्टैटिक और ऑफ़लाइन इस्तेमाल के सामान्य उदाहरण यहां दिए गए हैं:

  • स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) ऐसा मॉडल है जिसे एक बार ट्रेनिंग दी गई है और फिर कुछ समय के लिए इस्तेमाल किया जाता है.
  • स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग), स्टैटिक मॉडल को ट्रेनिंग देने की प्रोसेस है.
  • स्टैटिक अनुमान (या ऑफ़लाइन अनुमान) एक ऐसी प्रोसेस है जिसमें मॉडल, एक समय पर अनुमानों का बैच जनरेट करता है.

डाइनैमिक के साथ कंट्रास्ट करें.

स्टैटिक अनुमान

#fundamentals

ऑफ़लाइन अनुमान के लिए समानार्थी शब्द.

स्टेशनैरिटी

#fundamentals

यह ऐसी सुविधा है जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में नहीं बदलतीं. आम तौर पर, यह समय किसी तय समय पर बदल जाती है. उदाहरण के लिए, कोई सुविधा जिसकी वैल्यू 2021 और 2023 में भी एक जैसी दिखती है वह स्टेशनरिटी दिखाती है.

असल दुनिया में, कुछ ही सुविधाएं स्टेशनरिटी का पता लगाती हैं. यहां तक कि स्थायित्व (जैसे, समुद्र का स्तर) के साथ भी समान विशेषताएं समय के साथ बदलती रहती हैं.

नॉनस्टेशनरिटी के बीच कंट्रास्ट.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

ग्रेडिएंट डिसेंट एल्गोरिदम, जिसमें बैच का साइज़ एक होता है. दूसरे शब्दों में कहें, तो SGD एक ऐसे उदाहरण पर ट्रेनिंग करता है जिसे ट्रेनिंग सेट से बिना किसी क्रम के चुना गया है.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

किसी model को model और उनसे जुड़े model से ट्रेनिंग देना. सुपरवाइज़्ड मशीन लर्निंग, कुछ सवालों और उनसे जुड़े जवाबों को पढ़कर, किसी विषय को सीखने के समान है. सवालों और जवाबों को मैप करने में महारत हासिल करने के बाद, छात्र-छात्राएं एक ही विषय से जुड़े नए सवालों के जवाब दे सकता है (जो पहले कभी नहीं देखा गया).

बिना निगरानी वाली मशीन लर्निंग से तुलना करें.

सिंथेटिक सुविधा

#fundamentals

ऐसी सुविधा जो इनपुट सुविधाओं में मौजूद नहीं है. हालांकि, वह एक या एक से ज़्यादा फ़ीचर में मौजूद है. सिंथेटिक सुविधाएं बनाने के तरीकों में ये तरीके शामिल हैं:

  • रेंज बिन में, लगातार चलने वाली सुविधा बकेटिंग.
  • फ़ीचर क्रॉस बनाना.
  • एक सुविधा की वैल्यू को दूसरी सुविधा की वैल्यू या उसके हिसाब से गुणा या भाग देना. उदाहरण के लिए, अगर a और b इनपुट सुविधाएं हैं, तो यहां सिंथेटिक सुविधाओं के उदाहरण दिए गए हैं:
    • ab
    • a2
  • किसी सुविधा की वैल्यू पर ट्रांसेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c एक इनपुट सुविधा है, तो सिंथेटिक सुविधाओं के उदाहरण यहां दिए गए हैं:
    • sin(c)
    • ln(c)

सिर्फ़ नॉर्मलाइज़िंग या स्केलिंग से बनाई गई सुविधाओं को सिंथेटिक सुविधाएं नहीं माना जाता है.

T

टेस्ट के दौरान हुई कमी

#fundamentals

टेस्ट सेट के मुकाबले, किसी मॉडल की लॉस को दिखाने वाली मेट्रिक. आम तौर पर, model बनाते समय, टेस्ट में होने वाली कमी को कम करने की कोशिश की जाती है. ऐसा इसलिए, क्योंकि टेस्ट में कम होने का पता चलने का मतलब है, ट्रेनिंग में होने वाली कमी या पुष्टि में होने वाली कमी के मुकाबले, अच्छी क्वालिटी का सिग्नल.

टेस्ट में कमी और ट्रेनिंग में कमी या पुष्टि की समस्या के बीच काफ़ी अंतर होने पर, कभी-कभी आपको रेगुलराइज़ेशन की दर बढ़ाने की ज़रूरत होती है.

ट्रेनिंग

#fundamentals

किसी मॉडल वाले आदर्श पैरामीटर (वज़न और बायस) तय करने की प्रोसेस. ट्रेनिंग के दौरान, सिस्टम उदाहरण में पढ़ता है और पैरामीटर में धीरे-धीरे बदलाव करता है. ट्रेनिंग में हर उदाहरण का इस्तेमाल कभी-कभी से लेकर करोड़ों बार किया जाता है.

ट्रेनिंग में कमी

#fundamentals

ऐसी मेट्रिक जो किसी खास ट्रेनिंग को बार-बार लागू करने के दौरान मॉडल की लॉस को दिखाती है. उदाहरण के लिए, मान लें कि नुकसान का फ़ंक्शन मीन स्क्वेयर्ड एरर है. शायद 10वें इटरेशन के लिए ट्रेनिंग में होने वाला नुकसान (मीन स्क्वेयर्ड एरर) 2.2 है और 100वें इटरेशन के लिए ट्रेनिंग में होने वाला नुकसान 1.9 है.

लॉस कर्व से ट्रेनिंग में होने वाले नुकसान की तुलना में दोहराए जाने की संख्या की जानकारी मिलती है. लॉस कर्व से ट्रेनिंग के बारे में ये संकेत मिलते हैं:

  • नीचे के स्लोप का मतलब है कि मॉडल में सुधार हो रहा है.
  • ऊपर की ओर ढलान का मतलब है कि मॉडल खराब हो रहा है.
  • सपाट स्लोप का मतलब है कि मॉडल कन्वर्ज़न तक पहुंच गया है.

उदाहरण के लिए, नीचे कुछ हद तक आदर्श लॉस कर्व दिखाता है:

  • शुरुआती बदलावों के दौरान तेज़ी से नीचे की ओर ढलान, जिसका मतलब है तेज़ी से मॉडल में सुधार.
  • ट्रेनिंग के खत्म होने तक, स्लोप का धीरे-धीरे चपटा (लेकिन फिर भी नीचे की ओर) होना. इसका मतलब है कि शुरुआती रीवाइब्रेशन के दौरान, मॉडल में सुधार की रफ़्तार कुछ हद तक धीमी है.
  • ट्रेनिंग खत्म होने से जुड़ा सपाट ढलान, जो एक जैसी सोच को दिखाता है.

ट्रेनिंग में होने वाले नुकसान या बार-बार दोहराए जाने वाले सेशन की कहानी. नुकसान का यह वक्र बहुत नीचे की ओर ढलान से शुरू होता है. ढलान तब तक धीरे-धीरे सपाट होता जाता है, जब तक कि
     ढलान शून्य नहीं हो जाती.

वैसे तो ट्रेनिंग खत्म होना ज़रूरी है, लेकिन सामान्य तरीका भी देखें.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

ट्रेनिंग के दौरान मॉडल की परफ़ॉर्मेंस और विज्ञापन दिखाने के दौरान उसी मॉडल की परफ़ॉर्मेंस के बीच का अंतर.

ट्रेनिंग सेट

#fundamentals

किसी मॉडल की ट्रेनिंग के लिए इस्तेमाल किए जाने वाले डेटासेट का सबसेट.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से चल रहे सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण ट्रेनिंग सेट और पुष्टि करने के सेट, दोनों से जुड़ा नहीं होना चाहिए.

ट्रू नेगेटिव (TN)

#fundamentals

एक उदाहरण, जिसमें मॉडल नेगेटिव क्लास का सही तरीके से अनुमान लगाता है. उदाहरण के लिए, मॉडल अनुमान लगाता है कि कोई खास ईमेल मैसेज स्पैम नहीं है और वह ईमेल मैसेज असल में स्पैम नहीं है.

ट्रू पॉज़िटिव (TP)

#fundamentals

एक उदाहरण, जिसमें मॉडल पॉज़िटिव क्लास का सही तरीके से अनुमान लगाता है. उदाहरण के लिए, मॉडल अनुमान लगाता है कि कोई विशेष ईमेल मैसेज स्पैम है और वह ईमेल मैसेज वाकई स्पैम है.

ट्रू पॉज़िटिव रेट (TPR)

#fundamentals

recall का समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

सही पॉज़िटिव रेट, आरओसी कर्व में y-ऐक्सिस है.

U

अंडरफ़िटिंग

#fundamentals

ऐसा model बनाना जो अनुमान लगाने की खराब सुविधा देता है. इसकी वजह यह है कि मॉडल ने ट्रेनिंग के डेटा को पूरी तरह से कैप्चर नहीं किया है. कई समस्याओं की वजह से अंडरफ़िटिंग हो सकती है, जिसमें ये शामिल हैं:

बिना लेबल वाला उदाहरण

#fundamentals

ऐसा उदाहरण, जिसमें सुविधाएं शामिल हैं, लेकिन कोई लेबल नहीं है. उदाहरण के लिए, नीचे दी गई टेबल में घर के मूल्यांकन के मॉडल के तीन बिना लेबल वाले उदाहरण दिखाए गए हैं. हर उदाहरण में तीन सुविधाएं हैं, लेकिन घर की कोई वैल्यू नहीं है:

कमरों की संख्या बाथरूम की संख्या घर में उम्र
3 2 15
2 1 72
4 2 34

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल को लेबल किए गए उदाहरणों के आधार पर ट्रेनिंग दी जाती है और बिना लेबल वाले उदाहरणों का अनुमान लगाया जाता है.

सेमी-सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग में, ट्रेनिंग के दौरान बिना लेबल वाले उदाहरण इस्तेमाल किए जाते हैं.

बिना लेबल वाले कंट्रास्ट का उदाहरण, लेबल किया गया उदाहरण.

बिना निगरानी वाली मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए model को ट्रेनिंग देना. आम तौर पर, यह डेटासेट बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का आम तौर पर, एक जैसे उदाहरणों के ग्रुप में क्लस्टर डेटा इस्तेमाल करना होता है. उदाहरण के लिए, बिना निगरानी वाला मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों का ग्रुप बना सकता है. ये क्लस्टर दूसरे मशीन लर्निंग एल्गोरिदम के लिए इनपुट बन सकते हैं (उदाहरण के लिए, संगीत का सुझाव देने वाली किसी सेवा के लिए). क्लस्टरिंग से मदद मिल सकती है, जब काम के लेबल कम हों या मौजूद न हों. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी रोकने जैसे डोमेन में क्लस्टर, डेटा को बेहतर तरीके से समझने में इंसानों की मदद कर सकते हैं.

सुपरवाइज़्ड मशीन लर्निंग के साथ कंट्रास्ट.

V

पुष्टि करना

#fundamentals

किसी मॉडल की क्वालिटी का शुरुआती आकलन. पुष्टि करने की सुविधा, पुष्टि करने के सेट के मुताबिक किसी मॉडल के अनुमानों की क्वालिटी की जांच करती है.

पुष्टि करने का सेट, ट्रेनिंग सेट से अलग है. इसलिए, पुष्टि करने से ओवरफ़िट होने से बचने में मदद मिलती है.

ऐसा हो सकता है कि आप इस मॉडल का आकलन, पुष्टि करने के पहले राउंड के तौर पर करें. साथ ही, इसकी तुलना, टेस्टिंग के दूसरे राउंड के तौर पर टेस्ट सेट से करें.

पुष्टि करने की प्रोसेस में होने वाली कमी

#fundamentals

यह मेट्रिक होती है, जो किसी मॉडल की पुष्टि करने के सेट में उस मॉडल की लॉस को दिखाती है. यह ट्रेनिंग के किसी खास दोहराव के दौरान होती है.

सामान्यीकरण का कर्व भी देखें.

पुष्टि करने वाला सेट

#fundamentals

डेटासेट का वह सबसेट जो ट्रेन किए गए मॉडल की शुरुआती जांच करता है. आम तौर पर, टेस्ट सेट के हिसाब से मॉडल का आकलन करने से पहले, आपको कई बार पुष्टि करने के सेट के हिसाब से ट्रेन किए गए मॉडल की जांच करनी होती है.

परंपरागत रूप से, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से चल रहे सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण ट्रेनिंग सेट और पुष्टि करने के सेट, दोनों से जुड़ा नहीं होना चाहिए.

W

वज़न का डेटा

#fundamentals

वह वैल्यू जिसे किसी मॉडल से किसी अन्य वैल्यू से गुणा किया जाता है. ट्रेनिंग, किसी मॉडल के सही वज़न को तय करने की प्रोसेस है. अनुमान है, अनुमान लगाने के लिए सीखे गए इन वेट का इस्तेमाल किया जाता है.

भारित योग

#fundamentals

सभी काम की इनपुट वैल्यू के योग को उनसे जुड़ी वैल्यू से गुणा किया जाता है. उदाहरण के लिए, मान लें कि काम के इनपुट में ये चीज़ें शामिल हैं:

इनपुट वैल्यू इनपुट की मोटाई
2 -1.3
-1 0.6
3 0.4

इसलिए भारित योग यह है:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

वेटेड योग किसी ऐक्टिवेशन फ़ंक्शन का इनपुट आर्ग्युमेंट होता है.

Z

ज़ेड-स्कोर नॉर्मलाइज़ेशन

#fundamentals

स्केलिंग तकनीक, जो रॉ feature की वैल्यू को फ़्लोटिंग-पॉइंट वैल्यू से बदल देती है. यह वैल्यू, सुविधा के मीन से स्टैंडर्ड डेविएशन की संख्या दिखाती है. उदाहरण के लिए, एक ऐसी सुविधा के बारे में सोचें जिसका मीन 800 है और जिसका स्टैंडर्ड डेविएशन 100 है. नीचे दी गई टेबल में दिखाया गया है कि Z-स्कोर नॉर्मलाइज़ेशन, रॉ वैल्यू को अपने Z-स्कोर से कैसे मैप करेगा:

असल वैल्यू ज़ेड-स्कोर
800 0
950 1.5 से ज़्यादा
575 -2.25 से कम

इसके बाद, मशीन लर्निंग मॉडल रॉ वैल्यू के बजाय उस सुविधा के लिए Z-स्कोर के हिसाब से ट्रेनिंग लेता है.