मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज पर, एमएल के बुनियादी सिद्धांतों की ग्लॉसरी में शामिल शब्दों की जानकारी दी गई है. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

सटीक

#fundamentals

सही कैटगरी के अनुमान की संख्या को अनुमान की कुल संख्या से भाग देने पर. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, अगर किसी मॉडल ने 40 सही और 10 गलत अनुमानों का अनुमान लगाया है, तो उसका सटीक अनुमान:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन, सही अनुमान और गलत अनुमान की अलग-अलग कैटगरी के लिए खास नाम उपलब्ध कराता है. इसलिए, बाइनरी क्लासिफ़िकेशन के लिए सटीक होने का फ़ॉर्मूला इस तरह है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

सटीक होने की तुलना, प्रिसिज़न और रीकॉल से करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: सटीक, रीकॉल, सटीक और मिलती-जुलती मेट्रिक देखें.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

यह एक ऐसा फ़ंक्शन है जिसकी मदद से न्यूरल नेटवर्क, फ़ीचर और लेबल के बीच नॉन-लीनियर (जटिल) संबंधों को सीख सकते हैं.

चालू करने के लोकप्रिय फ़ंक्शन में ये शामिल हैं:

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी एक सीधी रेखा नहीं होते. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में दो सीधी रेखाएं होती हैं:

दो लाइनों का कार्टेशियन प्लॉट. पहली पंक्ति में, y की वैल्यू 0 है. यह वैल्यू x-ऐक्सिस पर -infinity,0 से 0,-0 तक चलती है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है, इसलिए यह 0,0 से +infinity,+infinity तक चलती है.

सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

दो डाइमेंशन वाला कर्व प्लॉट, जिसमें x वैल्यू का डोमेन -इनफ़िनिटी से लेकर +पॉज़िटिव तक है. वहीं, y वैल्यू की रेंज करीब 0 से लेकर करीब 1 तक है. जब x 0 है, तो y 0.5 है. कर्व का ढलान हमेशा
          सकारात्मक होता है. 0, 0.5 पर सबसे ज़्यादा ढलान होता है और x की वैल्यू बढ़ने पर,ढलान धीरे-धीरे कम होता जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: ऐक्टिवेशन फ़ंक्शन देखें.

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

ऐसा प्रोग्राम या मॉडल जो मुश्किल टास्क हल कर सकता है. उदाहरण के लिए, टेक्स्ट का अनुवाद करने वाला प्रोग्राम या मॉडल या रेडियोलॉजिकल इमेज से बीमारियों की पहचान करने वाला प्रोग्राम या मॉडल, दोनों में आर्टिफ़िशियल इंटेलिजेंस का इस्तेमाल होता है.

मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक उप-क्षेत्र है. हालांकि, हाल के वर्षों में कुछ संगठनों ने आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग शब्दों का इस्तेमाल एक-दूसरे के लिए करना शुरू कर दिया है.

AUC (आरओसी कर्व के नीचे का हिस्सा)

#fundamentals

0.0 से 1.0 के बीच की संख्या, बाइनरी क्लासिफ़िकेशन मॉडल की, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता को दिखाती है. AUC जितना 1.0 के करीब होगा, मॉडल की क्लास को एक-दूसरे से अलग करने की क्षमता उतनी ही बेहतर होगी.

उदाहरण के लिए, यहां दी गई इमेज में क्लासिफ़ायर मॉडल दिखाया गया है, जो अच्छी कैटगरी (हरे रंग के ओवल) को खराब कैटगरी (बैंगनी रंग के रेक्टैंगल) से पूरी तरह से अलग करता है. इस मॉडल का AUC 1.0 है, जो पूरी तरह से सही नहीं है:

एक तरफ़ आठ पॉज़िटिव उदाहरण और दूसरी तरफ़ नौ नेगेटिव उदाहरण वाली संख्या रेखा.

इसके उलट, नीचे दी गई इमेज में, क्लासिफ़ायर मॉडल के नतीजे दिखाए गए हैं. इस मॉडल ने रैंडम नतीजे जनरेट किए थे. इस मॉडल का AUC 0.5 है:

एक नंबर लाइन, जिसमें छह पॉज़िटिव और छह नेगेटिव उदाहरण हैं.
          उदाहरणों का क्रम इस तरह है: पॉज़िटिव, नेगेटिव,
          पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव
          नेगेटिव, पॉज़िटिव, नेगेटिव.

हां, पिछले मॉडल का AUC 0.0 नहीं, बल्कि 0.5 है.

ज़्यादातर मॉडल, इन दोनों चरम स्थितियों के बीच में होते हैं. उदाहरण के लिए, यहां दिया गया मॉडल, सकारात्मक और नकारात्मक नतीजों को कुछ हद तक अलग करता है. इसलिए, इसका AUC 0.5 से 1.0 के बीच है:

एक नंबर लाइन, जिसमें छह पॉज़िटिव और छह नेगेटिव उदाहरण हैं.
          उदाहरणों का क्रम यह है: नेगेटिव, नेगेटिव, नेगेटिव, नेगेटिव,
          पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव,
          पॉज़िटिव.

AUC, क्लासिफ़िकेशन थ्रेशोल्ड के लिए सेट की गई किसी भी वैल्यू को अनदेखा करता है. इसके बजाय, एयूसी, कैटगरी में बांटने की सभी संभावित सीमाओं को ध्यान में रखता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: आरओसी और AUC देखें.

B

बैकप्रोपगेशन

#fundamentals

यह एक ऐसा एल्गोरिदम है जो न्यूरल नेटवर्क में ग्रेडिएंट डिसेंट लागू करता है.

किसी न्यूरल नेटवर्क को ट्रेनिंग देने के लिए, दो पास वाले इस साइकल के कई iterations की ज़रूरत होती है:

  1. फ़ॉरवर्ड पास के दौरान, सिस्टम उदाहरणों के बैच को प्रोसेस करता है, ताकि अनुमान(अनुमान) मिल सके. सिस्टम हर अनुमान की तुलना हर लेबल वैल्यू से करता है. उदाहरण के लिए, अनुमान और लेबल वैल्यू के बीच का अंतर, लोस है. सिस्टम, मौजूदा बैच के कुल नुकसान का हिसाब लगाने के लिए, सभी उदाहरणों के नुकसान को इकट्ठा करता है.
  2. बैकवर्ड पास (बैकप्रोपगेशन) के दौरान, सिस्टम सभी हाइडन लेयर में मौजूद सभी न्यूरॉन के वेट में बदलाव करके, लॉस को कम करता है.

आम तौर पर, न्यूरल नेटवर्क में कई हिडन लेयर होती हैं और हर लेयर में कई न्यूरॉन होते हैं. उनमें से हर न्यूरॉन, कुल नुकसान में अलग-अलग तरीके से योगदान देता है. बैकप्रोपगेशन से यह तय होता है कि किसी खास न्यूरॉन पर लागू किए गए वेट को बढ़ाना है या घटाना है.

लर्निंग रेट एक मल्टीप्लायर है, जो यह कंट्रोल करता है कि हर बैकवर्ड पास, हर वेट को कितनी हद तक बढ़ाता या घटाता है. ज़्यादा लर्निंग रेट से, हर वेट में कम लर्निंग रेट की तुलना में ज़्यादा बढ़ोतरी या गिरावट आएगी.

कैलकुलस के हिसाब से, बैकप्रोपगेशन चेन नियम को लागू करता है. इसका मतलब है कि बैकप्रोपगेशन, हर पैरामीटर के हिसाब से गड़बड़ी के पार्शियल डेरिवेटिव का हिसाब लगाता है.

कई साल पहले, एमएल के विशेषज्ञों को बैकप्रोपगेशन लागू करने के लिए कोड लिखना पड़ता था. Keras जैसे आधुनिक एमएल एपीआई, अब आपके लिए बैकप्रोपगेशन लागू करते हैं. वाह!

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

बैच

#fundamentals

एक ट्रेनिंग के इटरेशन में इस्तेमाल किए गए उदाहरणों का सेट. बैच का साइज़, किसी बैच में उदाहरणों की संख्या तय करता है.

बैच और इक्वोक के बीच के संबंध के बारे में जानने के लिए, इक्वोक देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: हाइपरपैरामीटर देखें.

बैच का आकार

#fundamentals

बैच में उदाहरणों की संख्या. उदाहरण के लिए, अगर बैच साइज़ 100 है, तो मॉडल हर इटरेशन में 100 उदाहरणों को प्रोसेस करता है.

बैच के साइज़ से जुड़ी लोकप्रिय रणनीतियां यहां दी गई हैं:

  • स्टोकास्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच साइज़ 1 है.
  • पूरा बैच, जिसमें बैच का साइज़ पूरे ट्रेनिंग सेट में मौजूद उदाहरणों की संख्या होता है. उदाहरण के लिए, अगर ट्रेनिंग सेट में एक करोड़ उदाहरण हैं, तो एक करोड़ उदाहरणों का एक बैच बन जाएगा. आम तौर पर, पूरा बैच एक खराब रणनीति होती है.
  • मिनी-बैच, जिसमें आम तौर पर बैच का साइज़ 10 से 1,000 के बीच होता है. आम तौर पर, छोटा बैच सबसे असरदार रणनीति होती है.

ज़्यादा जानकारी के लिए, ये देखें:

पक्षपात (नैतिकता/निष्पक्षता)

#fairness
#fundamentals

1. किसी चीज़, व्यक्ति या ग्रुप के बारे में गलत धारणा, पूर्वाग्रह या किसी के मुकाबले किसी दूसरे के पक्ष में पक्षपात करना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसका विश्लेषण करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से, सिस्टम में हुई गड़बड़ी. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

इसे मशीन लर्निंग मॉडल में मौजूद बायस या अनुमान के लिए बायस के साथ न जोड़ें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

बायस (गणित) या बायस शब्द

#fundamentals

किसी ऑरिजिन से इंटरसेप्ट या ऑफ़सेट. बायस, मशीन लर्निंग मॉडल में एक पैरामीटर होता है. इसका चिह्न इनमें से किसी एक के तौर पर होता है:

  • b
  • w0

उदाहरण के लिए, नीचे दिए गए फ़ॉर्मूला में बायस, b है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

किसी सामान्य दो-आयामी रेखा में, बायस का मतलब सिर्फ़ "y-इंटरसेप्ट" होता है. उदाहरण के लिए, नीचे दिए गए इलस्ट्रेशन में लाइन का बायस 2 है.

0.5 की स्लोप और 2 के बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट.

बायस मौजूद होता है, क्योंकि सभी मॉडल ऑरिजिन (0,0) से शुरू नहीं होते. उदाहरण के लिए, मान लें कि किसी मनोरंजन पार्क में प्रवेश करने के लिए 2 यूरो और हर घंटे के लिए 0.5 यूरो का शुल्क लिया जाता है. इसलिए, कुल कीमत को मैप करने वाले मॉडल में दो का पूर्वाग्रह है, क्योंकि सबसे कम कीमत दो यूरो है.

पक्षपात को नैतिकता और निष्पक्षता में पक्षपात या अनुमान में पक्षपात के साथ नहीं जोड़ा जाना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

बाइनरी क्लासिफ़िकेशन

#fundamentals

क्लासिफ़िकेशन टास्क का एक टाइप, जो एक-दूसरे से अलग दो क्लास में से किसी एक का अनुमान लगाता है:

उदाहरण के लिए, यहां दिए गए दो मशीन लर्निंग मॉडल, दोनों ही बिनेरी क्लासिफ़िकेशन करते हैं:

  • यह एक मॉडल है, जो यह तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) हैं या स्पैम नहीं (नेगेटिव क्लास).
  • यह एक ऐसा मॉडल है जो मेडिकल लक्षणों का आकलन करके यह तय करता है कि किसी व्यक्ति को कोई खास बीमारी (पॉज़िटिव क्लास) है या नहीं (नेगेटिव क्लास).

मल्टी-क्लास क्लासिफ़िकेशन के साथ तुलना करें.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन देखें.

बकेट

#fundamentals

एक फ़ीचर को कई बाइनरी फ़ीचर में बदलना, जिन्हें आम तौर पर वैल्यू रेंज के आधार पर बकेट या बिन कहा जाता है. आम तौर पर, वीडियो को काटने की सुविधा लगातार उपलब्ध रहती है.

उदाहरण के लिए, तापमान को एक ही फ़्लोटिंग-पॉइंट फ़ीचर के तौर पर दिखाने के बजाय, तापमान की रेंज को अलग-अलग बकेट में बांटा जा सकता है, जैसे:

  • 10 डिग्री सेल्सियस से कम तापमान को "ठंडा" कैटगरी में रखा जाएगा.
  • 11 से 24 डिग्री सेल्सियस के तापमान को "उष्णकटिबंधीय" कैटगरी में रखा जाएगा.
  • 25 डिग्री सेल्सियस से ज़्यादा तापमान को "गर्म" बकेट माना जाएगा.

मॉडल, एक ही बकेट में मौजूद हर वैल्यू को एक जैसा मानेगा. उदाहरण के लिए, वैल्यू 13 और 22, दोनों ही टेंपरेट बकेट में हैं. इसलिए, मॉडल दोनों वैल्यू को एक जैसा मानता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: बाइनिंग देखें.

C

कैटगरीकल डेटा

#fundamentals

ऐसी सुविधाएं जिनमें संभावित वैल्यू का कोई खास सेट हो. उदाहरण के लिए, traffic-light-state नाम की कैटगरी वाली किसी सुविधा पर विचार करें. इसमें इन तीन में से सिर्फ़ एक वैल्यू हो सकती है:

  • red
  • yellow
  • green

traffic-light-state को कैटगरी वाली सुविधा के तौर पर दिखाकर, कोई मॉडल ड्राइवर के व्यवहार पर red, green, और yellow के अलग-अलग असर के बारे में जान सकता है.

कैटगरी वाली सुविधाओं को कभी-कभी अलग-अलग सुविधाएं भी कहा जाता है.

संख्या वाले डेटा के साथ तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी वाले डेटा के साथ काम करना देखें.

क्लास

#fundamentals

वह कैटगरी जिससे लेबल जुड़ा हो सकता है. उदाहरण के लिए:

क्लासिफ़िकेशन मॉडल, किसी क्लास का अनुमान लगाता है. इसके उलट, रिग्रेशन मॉडल किसी क्लास के बजाय संख्या का अनुमान लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन देखें.

क्लासिफ़िकेशन मॉडल

#fundamentals

ऐसा मॉडल जिसका अनुमान क्लास है. उदाहरण के लिए, यहां दिए गए सभी मॉडल, क्लासिफ़िकेशन मॉडल हैं:

  • ऐसा मॉडल जो इनपुट वाक्य की भाषा का अनुमान लगाता है (फ़्रेंच? स्पैनिश? इटैलियन?).
  • पेड़ की प्रजाति का अनुमान लगाने वाला मॉडल (मेपल? ओक? Baobab?).
  • ऐसा मॉडल जो किसी खास बीमारी के लिए, पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है.

इसके उलट, रिएगर्सन मॉडल, क्लास के बजाय संख्याओं का अनुमान लगाते हैं.

आम तौर पर, क्लासिफ़िकेशन मॉडल दो तरह के होते हैं:

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 से 1 के बीच की संख्या, जो लॉजिस्टिक रिग्रेशन मॉडल के रॉ आउटपुट को पॉज़िटिव क्लास या नेगेटिव क्लास के अनुमान में बदलती है. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड एक ऐसी वैल्यू है जिसे कोई व्यक्ति चुनता है, न कि मॉडल ट्रेनिंग से चुनी गई वैल्यू.

लॉजिस्टिक रिग्रेशन मॉडल, 0 से 1 के बीच की रॉ वैल्यू दिखाता है. इसके बाद:

  • अगर यह रॉ वैल्यू, कैटगरी के थ्रेशोल्ड से ज़्यादा है, तो 'पॉज़िटिव क्लास' का अनुमान लगाया जाता है.
  • अगर यह रॉ वैल्यू, कैटगरी के थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लें कि क्लासिफ़िकेशन थ्रेशोल्ड 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल ने नेगेटिव क्लास का अनुमान लगाया है.

क्लासिफ़िकेशन थ्रेशोल्ड चुनने से, फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव की संख्या पर काफ़ी असर पड़ता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में थ्रेशोल्ड और भ्रम वाली मैट्रिक देखें.

क्लास-असंतुलित डेटासेट

#fundamentals

डेटा को अलग-अलग कैटगरी में बांटने से जुड़ी समस्या के लिए डेटासेट, जिसमें हर कैटगरी के लेबल की कुल संख्या काफ़ी अलग-अलग होती है. उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन डेटासेट पर विचार करें, जिसके दो लेबल इस तरह से बांट दिए गए हैं:

  • 1,000,000 नेगेटिव लेबल
  • 10 पॉज़िटिव लेबल

नेगेटिव लेबल और पॉज़िटिव लेबल का अनुपात 1,00,000:1 है. इसलिए, यह क्लास-असंतुलित डेटासेट है.

इसके उलट, नीचे दिया गया डेटासेट क्लास के हिसाब से असंतुलित नहीं है, क्योंकि नेगेटिव लेबल के मुकाबले पॉज़िटिव लेबल का अनुपात 1 के आस-पास है:

  • 517 नेगेटिव लेबल
  • 483 पॉज़िटिव लेबल

मल्टी-क्लास डेटासेट भी क्लास के हिसाब से असंतुलित हो सकते हैं. उदाहरण के लिए, यहां दिया गया कई क्लास वाला डेटासेट भी क्लास के हिसाब से असंतुलित है, क्योंकि एक लेबल में दो अन्य लेबल की तुलना में काफ़ी ज़्यादा उदाहरण हैं:

  • क्लास "green" वाले 1,000,000 लेबल
  • क्लास "purple" वाले 200 लेबल
  • क्लास "नारंगी" वाले 350 लेबल

एन्ट्रापी, बड़ी क्लास, और छोटी क्लास भी देखें.

क्लिपिंग

#fundamentals

आउटलायर को मैनेज करने के लिए, इनमें से कोई एक या दोनों काम करें:

  • feature की वैल्यू को, तय सीमा से ज़्यादा होने पर, तय सीमा तक कम करना.
  • कम से कम थ्रेशोल्ड से कम की सुविधा की वैल्यू को उस कम से कम थ्रेशोल्ड तक बढ़ाना.

उदाहरण के लिए, मान लें कि किसी खास सुविधा के लिए, 40 से 60 की सीमा से बाहर की वैल्यू की संख्या 0.5% से कम है. इस मामले में, ये काम किए जा सकते हैं:

  • 60 (ज़्यादा से ज़्यादा थ्रेशोल्ड) से ज़्यादा की सभी वैल्यू को 60 पर क्लिप करें.
  • 40 (कम से कम थ्रेशोल्ड) से कम की सभी वैल्यू को 40 पर सेट करें.

आउटलायर मॉडल को नुकसान पहुंचा सकते हैं. कभी-कभी, ट्रेनिंग के दौरान वेट का ओवरफ़्लो हो सकता है. कुछ आउटलायर, सटीक जानकारी जैसी मेट्रिक को काफ़ी खराब कर सकते हैं. नुकसान को कम करने के लिए, क्लिपिंग एक आम तकनीक है.

ग्रेडिएंट क्लिपिंग, ट्रेनिंग के दौरान ग्रेडिएंट की वैल्यू को तय की गई रेंज में रखती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: नॉर्मलाइज़ेशन देखें.

कन्फ़्यूज़न मैट्रिक्स

#fundamentals

NxN टेबल, जिसमें क्लासिफ़िकेशन मॉडल के सही और गलत अनुमान की संख्या की खास जानकारी होती है. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल के लिए, नीचे दिया गया कन्फ़्यूज़न मैट्रिक देखें:

ट्यूमर (अनुमानित) ट्यूमर नहीं (अनुमानित)
ट्यूमर (ग्राउंड ट्रूथ) 18 (TP) 1 (FN)
ट्यूमर नहीं (ग्राउंड ट्रूथ) 6 (FP) 452 (TN)

ऊपर दिया गया कन्फ़्यूज़न मैट्रिक्स, ये चीज़ें दिखाता है:

  • 19 अनुमानों में से जिनमें ग्राउंड ट्रूथ ट्यूमर था, उनमें से मॉडल ने 18 को सही कैटगरी में रखा और एक को गलत कैटगरी में रखा.
  • 458 अनुमानों में से, जिनमें ग्राउंड ट्रूथ ट्यूमर नहीं था उनमें से मॉडल ने 452 को सही कैटगरी में और 6 को गलत कैटगरी में रखा.

मल्टी-क्लास क्लासिफ़िकेशन वाली समस्या के लिए, कन्फ़्यूज़न मैट्रिक की मदद से, गलतियां होने के पैटर्न की पहचान की जा सकती है. उदाहरण के लिए, तीन क्लास वाले कई क्लास के क्लासिफ़िकेशन मॉडल के लिए, नीचे दिया गया कन्फ़्यूज़न मैट्रिक देखें. यह मॉडल, तीन अलग-अलग तरह के आइरिस (Virginica, Versicolor, और Setosa) की कैटगरी तय करता है. जब असल वैल्यू Virginica थी, तो कॉन्फ़्यूज़न मैट्रिक से पता चलता है कि मॉडल की ओर से, Setosa के मुकाबले Versicolor का अनुमान गलत तरीके से लगाने की संभावना ज़्यादा थी:

  सेटोसा (अनुमानित) वर्सिकोलर (अनुमानित) Virginica (अनुमानित)
सेटोसा (ग्राउंड ट्रूथ) 88 12 0
वर्सिकोलर (ग्राउंड ट्रूथ) 6 141 7
Virginica (ग्राउंड ट्रूथ) 2 27 109

एक और उदाहरण के तौर पर, कॉन्फ़्यूज़न मैट्रिक से पता चल सकता है कि हाथ से लिखे गए अंकों को पहचानने के लिए ट्रेन किया गया मॉडल, गलती से 4 के बजाय 9 का अनुमान लगाता है या 7 के बजाय 1 का अनुमान लगाता है.

कन्फ़्यूज़न मैट्रिक में, परफ़ॉर्मेंस की कई मेट्रिक का हिसाब लगाने के लिए ज़रूरी जानकारी होती है. इनमें प्रिसिज़न और रीकॉल शामिल हैं.

लगातार चलने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट फ़ीचर, जिसमें तापमान या वज़न जैसी वैल्यू की अनलिमिटेड रेंज हो सकती है.

अलग-अलग वैल्यू वाली सुविधा के साथ तुलना करें.

कन्वर्जेंस

#fundamentals

यह वह स्थिति होती है जब हर इटरेशन के साथ लॉस वैल्यू बहुत कम या बिल्कुल भी नहीं बदलती. उदाहरण के लिए, यहां दिया गया लॉस कर्व, करीब 700 बार दोहराए जाने पर कन्वर्ज़न का सुझाव देता है:

कार्टेशियन प्लॉट. X-ऐक्सिस मौजूद नहीं है. Y-ऐक्सिस, ट्रेनिंग के लैप की संख्या है. शुरुआती कुछ इटरेटेशन के दौरान, नुकसान बहुत ज़्यादा होता है, लेकिन इसके बाद यह तेज़ी से कम हो जाता है. करीब 100 बार दोहराए जाने के बाद भी, हानि कम हो रही है, लेकिन धीरे-धीरे. करीब 700 बार दोहराए जाने के बाद,
          लॉस में कोई बदलाव नहीं होता.

जब अतिरिक्त ट्रेनिंग से मॉडल बेहतर नहीं होता, तब मॉडल कंसीव हो जाता है.

डीप लर्निंग में, लॉस वैल्यू कई बार एक जैसी या करीब-करीब एक जैसी रहती हैं. ऐसा कई बार होने के बाद, आखिर में यह वैल्यू कम हो जाती है. लगातार लॉस वैल्यू की लंबी अवधि के दौरान, आपको कुछ समय के लिए कन्वर्ज़न होने का गलत एहसास हो सकता है.

एरली स्टॉपिंग भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में मॉडल कन्वर्ज़न और लॉस कर्व देखें.

D

DataFrame

#fundamentals

मेमोरी में डेटासेट को दिखाने के लिए, pandas का एक लोकप्रिय डेटा टाइप.

डेटाफ़्रेम, टेबल या स्प्रेडशीट की तरह ही होता है. DataFrame के हर कॉलम का एक नाम (हेडर) होता है. साथ ही, हर पंक्ति की पहचान एक यूनीक नंबर से की जाती है.

DataFrame में मौजूद हर कॉलम को 2D ऐरे की तरह बनाया जाता है. हालांकि, हर कॉलम को अपना डेटा टाइप असाइन किया जा सकता है.

pandas.DataFrame का आधिकारिक रेफ़रंस पेज भी देखें.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन, आम तौर पर (हालांकि, सिर्फ़) इनमें से किसी एक फ़ॉर्मैट में व्यवस्थित किया जाता है:

  • स्प्रेडशीट
  • CSV (कॉमा लगाकर अलग की गई वैल्यू) फ़ॉर्मैट में फ़ाइल

डीप मॉडल

#fundamentals

एक न्यूरल नेटवर्क जिसमें एक से ज़्यादा हाइडन लेयर हों.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

वाइड मॉडल के साथ कंट्रास्ट.

घनी सुविधा

#fundamentals

ऐसी फ़ीचर जिसमें ज़्यादातर या सभी वैल्यू शून्य से ज़्यादा होती हैं. आम तौर पर, यह फ़्लोटिंग-पॉइंट वैल्यू का टेंसर होता है. उदाहरण के लिए, यहां दिया गया 10 एलिमेंट वाला टेंसर, डेंस है, क्योंकि इसकी नौ वैल्यू शून्य से ज़्यादा हैं:

8 3 7 5 2 4 0 4 9 6

स्पैस फ़ीचर के साथ तुलना करें.

गहराई

#fundamentals

न्यूरल नेटवर्क में इनका योग:

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाले न्यूरल नेटवर्क की गहराई 6 होती है.

ध्यान दें कि इनपुट लेयर से डेप्थ पर असर नहीं पड़ता.

डिस्क्रीट सुविधा

#fundamentals

संभावित वैल्यू के सीमित सेट वाली सुविधा. उदाहरण के लिए, ऐसी विशेषता जिसकी वैल्यू सिर्फ़ जानवर, सब्जी या खनिज हो सकती है, वह अलग-अलग (या कैटगरी वाली) विशेषता होती है.

लगातार चलने वाली सुविधा के साथ तुलना करें.

डाइनैमिक

#fundamentals

ऐसा काम जो बार-बार या लगातार किया जाता है. मशीन लर्निंग में, डाइनैमिक और ऑनलाइन शब्द एक जैसे माने जाते हैं. मशीन लर्निंग में डाइनैमिक और ऑनलाइन का इस्तेमाल आम तौर पर इन कामों के लिए किया जाता है:

  • डाइनैमिक मॉडल (या ऑनलाइन मॉडल) एक ऐसा मॉडल होता है जिसे बार-बार या लगातार फिर से ट्रेन किया जाता है.
  • डाइनैमिक ट्रेनिंग या ऑनलाइन ट्रेनिंग, बार-बार या लगातार ट्रेनिंग की प्रोसेस है.
  • डाइनैमिक अनुमान (या ऑनलाइन अनुमान) ऐसी प्रोसेस है जिसमें मांग के हिसाब से अनुमान जनरेट किए जाते हैं.

डाइनैमिक मॉडल

#fundamentals

ऐसा मॉडल जिसे बार-बार (शायद लगातार) फिर से ट्रेन किया जाता है. डाइनैमिक मॉडल एक "लाइफ़लौंग लर्नर" होता है, जो लगातार बदलते डेटा के हिसाब से ढल जाता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल भी कहा जाता है.

स्टैटिक मॉडल के साथ तुलना करें.

E

जल्दी रुकना

#fundamentals

रेगुलराइज़ेशन का एक तरीका, जिसमें ट्रेनिंग लॉस कम होने से पहले ट्रेनिंग को खत्म करना शामिल है. जल्दी रोकने की सुविधा का इस्तेमाल करके, पुष्टि करने वाले डेटासेट पर लॉस बढ़ने पर, मॉडल को ट्रेनिंग देना जान-बूझकर बंद किया जाता है. इसका मतलब है कि जब जनरलाइज़ेशन की परफ़ॉर्मेंस खराब हो जाती है.

एम्बेड करने वाली लेयर

#language
#fundamentals

एक खास हाइडन लेयर, जो कम डाइमेंशन वाले एम्बेडिंग वेक्टर को धीरे-धीरे सीखने के लिए, ज़्यादा डाइमेंशन वाली कैटगरी वाली सुविधा पर ट्रेन करती है. एम्बेडिंग लेयर की मदद से, न्यूरल नेटवर्क को सिर्फ़ कैटगरी वाली हाई-डाइमेंशनल सुविधा पर ट्रेनिंग देने के मुकाबले, ज़्यादा बेहतर तरीके से ट्रेन किया जा सकता है.

उदाहरण के लिए, Earth पर फ़िलहाल पेड़ों की करीब 73,000 प्रजातियों की जानकारी उपलब्ध है. मान लें कि आपके मॉडल में पेड़ की प्रजाति एक सुविधा है. इसलिए, आपके मॉडल की इनपुट लेयर में 73,000 एलिमेंट वाला वन-हॉट वेक्टर शामिल है. उदाहरण के लिए, baobab को कुछ इस तरह दिखाया जाएगा:

73,000 एलिमेंट का कलेक्शन. पहले 6,232 एलिमेंट की वैल्यू
     0 है. अगले एलिमेंट में वैल्यू 1 है. आखिरी 66,767 एलिमेंट में वैल्यू शून्य है.

73,000 एलिमेंट वाला कलेक्शन बहुत बड़ा है. अगर मॉडल में एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो 72,999 शून्य को गुणा करने की वजह से, ट्रेनिंग में काफ़ी समय लगेगा. मान लें कि आपने एम्बेड करने वाली लेयर को 12 डाइमेंशन के साथ चुना है. इस वजह से, एम्बेडिंग लेयर धीरे-धीरे हर पेड़ की प्रजाति के लिए, एक नया एम्बेडिंग वेक्टर सीख लेगी.

कुछ मामलों में, एम्बेडिंग लेयर के बजाय हैश का इस्तेमाल करना बेहतर होता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में एम्बेड देखें.

epoch

#fundamentals

पूरे ट्रेनिंग सेट पर पूरा ट्रेनिंग पास, ताकि हर उदाहरण को एक बार प्रोसेस किया जा सके.

एक एपिक, N/बैच साइज़ के हिसाब से, इटरेशन की ट्रेनिंग दिखाता है. यहां N, उदाहरणों की कुल संख्या है.

उदाहरण के लिए, मान लें कि:

  • डेटासेट में 1,000 उदाहरण हैं.
  • बैच में 50 उदाहरण होते हैं.

इसलिए, एक एपॉच के लिए 20 बार दोहराना ज़रूरी है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: हाइपरपैरामीटर देखें.

उदाहरण

#fundamentals

सुविधाओं की एक पंक्ति की वैल्यू और हो सकता है कि एक लेबल भी हो. सुपरवाइज़्ड लर्निंग के उदाहरणों को दो मुख्य कैटगरी में बांटा जा सकता है:

  • लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. लेबल किए गए उदाहरणों का इस्तेमाल, ट्रेनिंग के दौरान किया जाता है.
  • बिना लेबल वाला उदाहरण में एक या एक से ज़्यादा फ़ीचर होते हैं, लेकिन कोई लेबल नहीं होता. अनुमान लगाने के दौरान, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

उदाहरण के लिए, मान लें कि आपको यह पता करना है कि मौसम की स्थितियों का, छात्र/छात्रा के टेस्ट के स्कोर पर क्या असर पड़ता है. इसके लिए, आपको एक मॉडल को ट्रेनिंग देनी होगी. यहां लेबल किए गए तीन उदाहरण दिए गए हैं:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट का स्कोर
15 47 998 अच्छा
19 34 1020 बहुत बढ़िया
18 92 1012 खराब

यहां लेबल नहीं किए गए तीन उदाहरण दिए गए हैं:

तापमान नमी दबाव  
12 62 1014  
21 47 1017  
19 41 1021  

आम तौर पर, डेटासेट की लाइन, किसी उदाहरण का रॉ सोर्स होती है. इसका मतलब है कि आम तौर पर, किसी उदाहरण में डेटासेट के कॉलम का सबसेट शामिल होता है. इसके अलावा, उदाहरण में सिंथेटिक फ़ीचर भी शामिल हो सकती हैं. जैसे, फ़ीचर क्रॉस.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

F

फ़ॉल्स निगेटिव (FN)

#fundamentals

ऐसा उदाहरण जिसमें मॉडल ने गलती से नेगेटिव क्लास का अनुमान लगाया है. उदाहरण के लिए, मॉडल का अनुमान है कि कोई ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास), लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (FP)

#fundamentals

ऐसा उदाहरण जिसमें मॉडल ने गलती से पॉज़िटिव क्लास का अनुमान लगाया है. उदाहरण के लिए, मॉडल का अनुमान है कि कोई ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन वह ईमेल मैसेज वाकई स्पैम नहीं है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में थ्रेशोल्ड और भ्रम वाली मैट्रिक देखें.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

असल नेगेटिव उदाहरणों का अनुपात, जिनके लिए मॉडल ने गलत तरीके से पॉज़िटिव क्लास का अनुमान लगाया. नीचे दिए गए फ़ॉर्मूला से, गलत नतीजे मिलने की दर का हिसाब लगाया जाता है:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में एक्स-ऐक्सिस होता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: आरओसी और AUC देखें.

सुविधा

#fundamentals

मशीन लर्निंग मॉडल का इनपुट वैरिएबल. उदाहरण में एक या उससे ज़्यादा सुविधाएं शामिल होती हैं. उदाहरण के लिए, मान लें कि आपको किसी मॉडल को ट्रेनिंग देनी है, ताकि यह पता लगाया जा सके कि मौसम की स्थितियों का छात्र/छात्रा के टेस्ट के स्कोर पर क्या असर पड़ता है. यहां दी गई टेबल में तीन उदाहरण दिए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल है:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट का स्कोर
15 47 998 92
19 34 1020 84
18 92 1012 87

लेबल के साथ कंट्रास्ट करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

सुविधाओं के बीच क्रॉस

#fundamentals

ऐसी एआई से जनरेट की गई सुविधा जिसे कैटगरी या बकेट वाली सुविधाओं को "क्रॉस करने" से बनाया जाता है.

उदाहरण के लिए, "मनोभाव का अनुमान लगाने" वाले मॉडल पर विचार करें, जो इन चार में से किसी एक बकेट में तापमान दिखाता है:

  • freezing
  • chilly
  • temperate
  • warm

साथ ही, हवा की रफ़्तार को इनमें से किसी एक बकेट में दिखाता है:

  • still
  • light
  • windy

फ़ीचर क्रॉस के बिना, लीनियर मॉडल, पिछली सात अलग-अलग बकेट में से हर एक पर अलग-अलग ट्रेनिंग देता है. इसलिए, मॉडल को उदाहरण के लिए, freezing के लिए अलग से ट्रेनिंग दी जाती है, जबकि उदाहरण के लिए, windy के लिए अलग से ट्रेनिंग दी जाती है.

इसके अलावा, तापमान और हवा की स्पीड की सुविधा का क्रॉस भी बनाया जा सकता है. इस सिंथेटिक सुविधा की ये 12 संभावित वैल्यू होंगी:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

फ़ीचर क्रॉस की मदद से, मॉडल को freezing-windy दिन और freezing-still दिन के मूड में अंतर पता चल सकता है.

अगर आपने दो ऐसी सुविधाओं से सिंथेटिक सुविधा बनाई है जिनमें हर सुविधा के लिए कई अलग-अलग बकेट हैं, तो बनाई गई सुविधा के क्रॉस में संभावित कॉम्बिनेशन की संख्या बहुत ज़्यादा होगी. उदाहरण के लिए, अगर एक फ़ीचर में 1,000 बकेट हैं और दूसरी फ़ीचर में 2,000 बकेट हैं, तो फ़ीचर क्रॉस में 2,000,000 बकेट होंगे.

फ़ॉर्मल तौर पर, क्रॉस एक कार्टेज़ियन प्रॉडक्ट है.

फ़ीचर क्रॉस का इस्तेमाल ज़्यादातर लीनियर मॉडल के साथ किया जाता है. साथ ही, इनका इस्तेमाल न्यूरल नेटवर्क के साथ बहुत कम किया जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी वाला डेटा: फ़ीचर क्रॉस देखें.

फ़ीचर इंजीनियरिंग

#fundamentals
#TensorFlow

यह एक ऐसी प्रोसेस है जिसमें ये चरण शामिल होते हैं:

  1. यह तय करना कि मॉडल को ट्रेनिंग देने के लिए, किन सुविधाओं का इस्तेमाल किया जा सकता है.
  2. डेटासेट के रॉ डेटा को उन सुविधाओं के बेहतर वर्शन में बदलना.

उदाहरण के लिए, आपके हिसाब से temperature एक काम की सुविधा हो सकती है. इसके बाद, बकेट के साथ एक्सपेरिमेंट किया जा सकता है, ताकि यह ऑप्टिमाइज़ किया जा सके कि मॉडल अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी फ़ीचर एक्सट्रैक्शन या फ़ीचराइज़ेशन भी कहा जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: कोई मॉडल, फ़ीचर वैक्टर का इस्तेमाल करके डेटा को कैसे डालता है देखें.

सुविधाओं का सेट

#fundamentals

आपका मशीन लर्निंग मॉडल, सुविधाओं के इस ग्रुप पर ट्रेन होता है. उदाहरण के लिए, पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति, मकान की कीमत का अनुमान लगाने वाले मॉडल के लिए, एक आसान फ़ीचर सेट हो सकता है.

फ़ीचर वेक्टर

#fundamentals

feature वैल्यू का कलेक्शन, जिसमें उदाहरण शामिल है. फ़ीचर वेक्टर, ट्रेनिंग और अनुमान के दौरान इनपुट किया जाता है. उदाहरण के लिए, दो अलग-अलग फ़ीचर वाले मॉडल के लिए फ़ीचर वेक्टर यह हो सकता है:

[0.92, 0.56]

चार लेयर: इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.
          इनपुट लेयर में दो नोड हैं. एक में वैल्यू 0.92 है और दूसरे में वैल्यू 0.56 है.

हर उदाहरण, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू देता है. इसलिए, अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ ऐसा हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग से यह तय होता है कि फ़ीचर वेक्टर में फ़ीचर को कैसे दिखाया जाए. उदाहरण के लिए, पांच संभावित वैल्यू वाली बाइनरी कैटगरी वाली सुविधा को वन-हॉट कोड के साथ दिखाया जा सकता है. इस मामले में, किसी उदाहरण के लिए फ़ीचर वेक्टर के हिस्से में चार शून्य और तीसरे स्थान पर एक 1.0 होगा, जैसा कि यहां बताया गया है:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक और उदाहरण के लिए, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

  • एक बाइनरी कैटगरी वाली ऐसी सुविधा जिसमें पांच संभावित वैल्यू होती हैं. इन्हें एक-हॉट एन्कोडिंग के साथ दिखाया जाता है. उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
  • एक और बाइनरी कैटगरी वाली सुविधा, जिसमें तीन संभावित वैल्यू हैं. इन्हें एक-हॉट एन्कोडिंग के साथ दिखाया गया है. उदाहरण के लिए: [0.0, 0.0, 1.0]
  • फ़्लोटिंग-पॉइंट वाली कोई सुविधा; उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को नौ वैल्यू से दिखाया जाएगा. ऊपर दी गई सूची में उदाहरण के तौर पर दी गई वैल्यू के हिसाब से, फ़ीचर वेक्टर इस तरह का होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: कोई मॉडल, फ़ीचर वैक्टर का इस्तेमाल करके डेटा को कैसे डालता है देखें.

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, ऐसी स्थिति जिसमें किसी मॉडल के अनुमान से, उसी मॉडल या किसी दूसरे मॉडल के लिए ट्रेनिंग डेटा पर असर पड़ता है. उदाहरण के लिए, फ़िल्मों के सुझाव देने वाले मॉडल से, लोगों की पसंद पर असर पड़ेगा. इससे, फ़िल्म के सुझाव देने वाले बाद के मॉडल पर भी असर पड़ेगा.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में प्रोडक्शन के लिए एमएल सिस्टम: पूछे जाने वाले सवाल देखें.

G

सामान्यीकरण

#fundamentals

मॉडल की, नए और पहले कभी न देखे गए डेटा के आधार पर सटीक अनुमान लगाने की क्षमता. सामान्य नतीजे देने वाला मॉडल, ओवरफ़िटिंग वाले मॉडल के उलट होता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में जनरलाइज़ेशन देखें.

सामान्यीकरण कर्व

#fundamentals

इटरेशन की संख्या के फ़ंक्शन के तौर पर, ट्रेनिंग लॉस और पुष्टि करने से जुड़ा लॉस, दोनों का प्लॉट.

सामान्यीकरण कर्व की मदद से, ओवरफ़िटिंग का पता लगाया जा सकता है. उदाहरण के लिए, नीचे दिया गया जनरलाइज़ेशन कर्व, ओवरफ़िट होने का सुझाव देता है, क्योंकि पुष्टि करने से जुड़ा नुकसान, आखिरकार ट्रेनिंग के नुकसान से काफ़ी ज़्यादा हो जाता है.

कार्टिज़न ग्राफ़, जिसमें y-ऐक्सिस को लॉस और x-ऐक्सिस को रेपेटिशन लेबल किया गया है. दो प्लॉट दिखेंगे. एक प्लॉट में,
          ट्रेनिंग लॉस दिखता है और दूसरे में पुष्टि करने से जुड़ा लॉस दिखता है.
          दोनों प्लॉट एक जैसे शुरू होते हैं, लेकिन आखिर में ट्रेनिंग लॉस, पुष्टि करने के लिए इस्तेमाल हुए लॉस से काफ़ी कम हो जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में जनरलाइज़ेशन देखें.

ग्रेडिएंट डिसेंट

#fundamentals

नुकसान को कम करने के लिए, गणित से जुड़ी एक तकनीक. ग्रेडिएंट डिसेंट, वेट और बायस में बार-बार बदलाव करता है. साथ ही, धीरे-धीरे सबसे अच्छा कॉम्बिनेशन ढूंढता है, ताकि लॉस को कम किया जा सके.

ग्रेडिएंट डिसेंट, मशीन लर्निंग से काफ़ी पुराना है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: ग्रेडिएंट डिसेंट देखें.

ग्राउंड ट्रूथ

#fundamentals

रिएलिटी.

असल में क्या हुआ.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन वाला मॉडल, यह अनुमान लगाता है कि विश्वविद्यालय के पहले साल में पढ़ रहा छात्र, छह साल के अंदर ग्रेजुएट होगा या नहीं. इस मॉडल के लिए असल जानकारी यह है कि छात्र ने छह साल के अंदर ग्रेजुएट की डिग्री हासिल की है या नहीं.

H

छिपी हुई लेयर

#fundamentals

न्यूरल नेटवर्क में एक लेयर, जो इनपुट लेयर (सुविधाएं) और आउटपुट लेयर (अनुमान) के बीच होती है. हर छिपी हुई लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में दो हिडन लेयर हैं. पहली लेयर में तीन न्यूरॉन और दूसरी लेयर में दो न्यूरॉन हैं:

चार लेयर. पहली लेयर एक इनपुट लेयर है, जिसमें दो
          सुविधाएं होती हैं. दूसरी लेयर एक हिडन लेयर है, जिसमें तीन न्यूरॉन होते हैं. तीसरी लेयर एक हिडन लेयर होती है, जिसमें दो न्यूरॉन होते हैं. चौथी लेयर, आउटपुट लेयर होती है. हर फ़ीचर में तीन किनारे होते हैं. इनमें से हर किनारा, दूसरी लेयर में मौजूद किसी अलग न्यूरॉन पर ले जाता है. दूसरी लेयर में मौजूद हर न्यूरॉन में दो एज होते हैं. इनमें से हर एज, तीसरी लेयर में मौजूद किसी अलग न्यूरॉन पर ले जाता है. तीसरी लेयर के हर न्यूरॉन में एक एज होता है, जो आउटपुट लेयर पर ले जाता है.

डीप न्यूरल नेटवर्क में एक से ज़्यादा हाइडन लेयर होती हैं. उदाहरण के लिए, ऊपर दी गई इमेज में डीप नेटल नेटवर्क दिखाया गया है, क्योंकि इस मॉडल में दो हिडन लेयर हैं.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: नोड और छिपी हुई लेयर देखें.

हाइपर पैरामीटर

#fundamentals

वे वैरिएबल जिन्हें आपने या किसी हाइपरपैरामीटर ट्यूनिंग सेवाने मॉडल को ट्रेनिंग देने के दौरान, लगातार बदला है. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है. किसी ट्रेनिंग सेशन से पहले, लर्निंग रेट को 0.01 पर सेट किया जा सकता है. अगर आपको लगता है कि 0.01 बहुत ज़्यादा है, तो अगले ट्रेनिंग सेशन के लिए लर्निंग रेट को 0.003 पर सेट किया जा सकता है.

इसके उलट, पैरामीटर वे अलग-अलग वेट और बायस होते हैं जिन्हें मॉडल, ट्रेनिंग के दौरान सीखता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: हाइपरपैरामीटर देखें.

I

इंडिपेंडेंटली ऐंड आइडेंटिकल डिस्ट्रिब्यूटेड (i.i.d)

#fundamentals

ऐसा डेटा जो किसी ऐसे डिस्ट्रिब्यूशन से लिया गया हो जो बदलता नहीं है. साथ ही, इसमें ली गई हर वैल्यू, पहले ली गई वैल्यू पर निर्भर नहीं करती. आईआईडी, मशीन लर्निंग का आइडल गैस है. यह गणित का एक अहम कॉन्स्ट्रक्ट है, लेकिन असल दुनिया में इसे कभी भी सटीक तौर पर नहीं पाया जाता. उदाहरण के लिए, किसी वेब पेज पर आने वाले लोगों का डिस्ट्रिब्यूशन, कम समय के लिए आईआईडी हो सकता है. इसका मतलब है कि उस कम समय के दौरान डिस्ट्रिब्यूशन में बदलाव नहीं होता और आम तौर पर एक व्यक्ति की विज़िट, दूसरे व्यक्ति की विज़िट से अलग होती है. हालांकि, अगर इस समयावधि को बढ़ाया जाता है, तो वेब पेज पर आने वाले लोगों की संख्या में सीज़न के हिसाब से अंतर दिख सकता है.

नॉन-स्टेशनरी भी देखें.

अनुमान

#fundamentals

मशीन लर्निंग में, लेबल नहीं किए गए उदाहरणों पर, ट्रेन किए गए मॉडल को लागू करके अनुमान लगाने की प्रोसेस.

आंकड़ों में, अनुमान का मतलब कुछ अलग होता है. ज़्यादा जानकारी के लिए, सांख्यिकीय अनुमान के बारे में Wikipedia का लेख देखें.

सुपरवाइज़्ड लर्निंग सिस्टम में, अनुमान लगाने की भूमिका को समझने के लिए, एआई के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

इनपुट लेयर

#fundamentals

न्यूरल नेटवर्क की लेयर, जिसमें फ़ीचर वेक्टर होता है. इसका मतलब है कि इनपुट लेयर, ट्रेनिंग या अनुमान के लिए उदाहरण देती है. उदाहरण के लिए, यहां दिए गए न्यूरल नेटवर्क की इनपुट लेयर में दो सुविधाएं हैं:

चार लेयर: एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर.

समझने में आसानी

#fundamentals

मशीन लर्निंग मॉडल के फ़ैसले को समझने लायक शब्दों में, किसी व्यक्ति को बताने या पेश करने की क्षमता.

उदाहरण के लिए, ज़्यादातर लीनियर रिग्रेशन मॉडल को आसानी से समझा जा सकता है. (आपको हर फ़ीचर के लिए, ट्रेन किए गए वेट को देखना होगा.) फ़ैसले के फ़ॉरेस्ट को समझना भी आसान होता है. हालांकि, कुछ मॉडल को समझने के लिए, बेहतर विज़ुअलाइज़ेशन की ज़रूरत होती है.

एमएल मॉडल को समझने के लिए, लर्निंग इंटरप्रिटेबिलिटी टूल (एलआईटी) का इस्तेमाल किया जा सकता है.

इटरेशन

#fundamentals

मॉडल के पैरामीटर का एक अपडेट, यानी कि ट्रेनिंग के दौरान, मॉडल के वज़न और बायस. बैच साइज़ से यह तय होता है कि मॉडल एक बार में कितने उदाहरणों को प्रोसेस करता है. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो पैरामीटर में बदलाव करने से पहले मॉडल 20 उदाहरणों को प्रोसेस करता है.

न्यूरल नेटवर्क को ट्रेनिंग देते समय, एक बार में दो पास होते हैं:

  1. किसी एक बैच में लॉस का आकलन करने के लिए फ़ॉरवर्ड पास.
  2. लॉस और लर्निंग रेट के आधार पर, मॉडल के पैरामीटर में बदलाव करने के लिए बैकवर्ड पास (बैकप्रोपगेशन).

L

L0 रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो किसी मॉडल में शून्य से ज़्यादा वेट की कुल संख्या पर जुर्माना लगाता है. उदाहरण के लिए, ऐसे मॉडल को ज़्यादा दंडित किया जाएगा जिसमें 11 ग़ैर-शून्य वैल्यू वाली वैल्यू हैं. वहीं, ऐसे मॉडल को कम दंडित किया जाएगा जिसमें 10 ग़ैर-शून्य वैल्यू वाली वैल्यू हैं.

L0 रेगुलराइज़ेशन को कभी-कभी L0-नॉर्म रेगुलराइज़ेशन भी कहा जाता है.

L1 लॉस

#fundamentals

लॉस फ़ंक्शन, जो असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर की एब्सोल्यूट वैल्यू का हिसाब लगाता है. उदाहरण के लिए, यहां पांच उदाहरणों वाले बैच के लिए, L1 लॉस का हिसाब लगाया गया है:

उदाहरण की असल वैल्यू मॉडल की अनुमानित वैल्यू डेल्टा की ऐब्सलूट वैल्यू
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 लॉस

L2 लॉस की तुलना में, L1 लॉस, आउटलायर के लिए कम संवेदनशील होता है.

कुल गड़बड़ी का औसत, हर उदाहरण के लिए L1 का औसत नुकसान होता है.

L1 रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो वेट की कुल वैल्यू के हिसाब से, वेट पर जुर्माना लगाता है. L1 रेगुलराइज़ेशन से, काम की नहीं या कम काम की सुविधाओं के वेट को ठीक 0 पर सेट करने में मदद मिलती है. मॉडल से, वह सुविधा हटा दी जाती है जिसका वेट 0 होता है.

L2 रेगुलराइज़ेशन के साथ तुलना करें.

L2 लॉस

#fundamentals

लॉस फ़ंक्शन, जो असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर का स्क्वेयर कैलकुलेट करता है. उदाहरण के लिए, यहां पांच उदाहरणों के बैच के लिए, L2 लॉस का हिसाब लगाया गया है:

उदाहरण की असल वैल्यू मॉडल की अनुमानित वैल्यू डेल्टा का स्क्वेयर
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 हार

स्क्वेयर करने की वजह से, L2 लॉस, आउटलायर के असर को बढ़ा देता है. इसका मतलब है कि L2 लॉस, L1 लॉस के मुकाबले खराब अनुमानों पर ज़्यादा तेज़ी से प्रतिक्रिया करता है. उदाहरण के लिए, पिछले बैच के लिए L1 लॉस, 16 के बजाय 8 होगा. ध्यान दें कि 16 में से 9 आउटलायर, एक ही डेटा पॉइंट के हैं.

रेग्रेसन मॉडल आम तौर पर, लॉस फ़ंक्शन के तौर पर L2 लॉस का इस्तेमाल करते हैं.

वर्ग में गड़बड़ी का माध्य, हर उदाहरण के लिए L2 का औसत लॉस होता है. स्क्वेयर्ड लॉस, L2 लॉस का दूसरा नाम है.

L2 रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो वज़न के स्क्वेयर के योग के अनुपात में, वज़न पर जुर्माना लगाता है. L2 रेगुलराइज़ेशन की मदद से, आउटलायर वेट (ज़्यादा पॉज़िटिव या कम नेगेटिव वैल्यू वाले वेट) को 0 के करीब लाया जा सकता है, लेकिन पूरी तरह से 0 नहीं. जिन सुविधाओं की वैल्यू 0 के बहुत करीब होती है वे मॉडल में बनी रहती हैं, लेकिन मॉडल के अनुमान पर उनका ज़्यादा असर नहीं पड़ता.

L2 रेगुलराइज़ेशन, लीनियर मॉडल में जनरलाइज़ेशन को हमेशा बेहतर बनाता है.

L1 रेगुलराइज़ेशन के साथ तुलना करें.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, उदाहरण का "जवाब" या "नतीजा" हिस्सा.

हर लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. उदाहरण के लिए, स्पैम का पता लगाने वाले डेटासेट में, लेबल "स्पैम" या "स्पैम नहीं" हो सकता है. बारिश के डेटासेट में, लेबल किसी खास अवधि के दौरान हुई बारिश की मात्रा हो सकती है.

लेबल किए गए उदाहरण

#fundamentals

एक ऐसा उदाहरण जिसमें एक या उससे ज़्यादा सुविधाएं और एक लेबल शामिल हैं. उदाहरण के लिए, नीचे दी गई टेबल में घर की वैल्यू तय करने वाले मॉडल के तीन उदाहरण दिए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल है:

कमरों की संख्या बाथरूम की संख्या घर की उम्र मकान की कीमत (लेबल)
3 2 15 3,45,000 डॉलर
2 1 72 1,79,000 डॉलर
4 2 34 3,92,000 डॉलर

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल लेबल किए गए उदाहरणों पर ट्रेनिंग लेते हैं और लेबल नहीं किए गए उदाहरणों के आधार पर अनुमान लगाते हैं.

लेबल किए गए उदाहरण और लेबल नहीं किए गए उदाहरणों के बीच अंतर.

lambda

#fundamentals

नियमित किराया का दूसरा नाम.

Lambda एक ओवरलोड किया गया शब्द है. यहां हम नियमों के मुताबिक बनाने की प्रक्रिया में, इस शब्द की परिभाषा पर फ़ोकस कर रहे हैं.

लेयर

#fundamentals

न्यूरल नेटवर्क में न्यूरॉन का एक सेट. लेयर के तीन सामान्य टाइप ये हैं:

उदाहरण के लिए, यहां दिए गए इलस्ट्रेशन में एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क दिखाया गया है:

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          हिडन लेयर में तीन न्यूरॉन और दूसरी हिडन लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक ही नोड होता है.

TensorFlow में, लेयर भी Python फ़ंक्शन हैं. ये टेंसर और कॉन्फ़िगरेशन के विकल्पों को इनपुट के तौर पर लेते हैं और आउटपुट के तौर पर दूसरे टेंसर जनरेट करते हैं.

सीखने की दर

#fundamentals

यह एक फ़्लोटिंग-पॉइंट नंबर है, जो ग्रेडिएंट डिसेंट एल्गोरिदम को बताता है कि हर इटरेशन पर वेट और बायस को कितनी ज़ोर से अडजस्ट करना है. उदाहरण के लिए, 0.3 की लर्निंग रेट, 0.1 की लर्निंग रेट के मुकाबले, वज़न और बायस को तीन गुना ज़्यादा तेज़ी से अडजस्ट करेगी.

लर्निंग रेट एक मुख्य हाइपरपैरामीटर है. अगर आपने लर्निंग रेट को बहुत कम सेट किया है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. अगर आपने लर्निंग रेट को बहुत ज़्यादा सेट किया है, तो ग्रेडिएंट डिसेंट को अक्सर कंसर्वेंस तक पहुंचने में परेशानी होती है.

रेखीय

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा के ज़रिए दिखाया जा सकता है.

लीनियर रिलेशनशिप का प्लॉट एक लाइन होती है.

नॉनलाइनर के साथ कंट्रास्ट करें.

लीनियर मॉडल

#fundamentals

मॉडल, जो अनुमान लगाने के लिए, हर सुविधा के लिए एक वज़न असाइन करता है. (लीनियर मॉडल में भी बायस शामिल होता है.) इसके उलट, डीप मॉडल में, फ़ीचर और अनुमान के बीच का संबंध आम तौर पर नॉन-लाइनर होता है.

आम तौर पर, डीप मॉडल के मुकाबले लीनियर मॉडल को ट्रेन करना आसान होता है. साथ ही, इन मॉडल को समझना भी आसान होता है. हालांकि, डीप मॉडल, सुविधाओं के बीच जटिल संबंधों को समझ सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन, दो तरह के लीनियर मॉडल हैं.

लीनियर रिग्रेशन

#fundamentals

मशीन लर्निंग मॉडल का एक टाइप, जिसमें ये दोनों बातें सही हों:

  • मॉडल एक लीनियर मॉडल है.
  • अनुमान, फ़्लोटिंग-पॉइंट वैल्यू होती है. (यह लीनियर रिग्रेशन का रिग्रेशन हिस्सा है.)

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन के बीच अंतर करें. साथ ही, कैटगरी के साथ रेग्रेसन की तुलना करें.

लॉजिस्टिक रिग्रेशन

#fundamentals

रिग्रेशन मॉडल का एक टाइप, जो किसी संभावना का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल की ये विशेषताएं हैं:

  • लेबल कैटगरी के हिसाब से है. लॉजिस्टिक रिग्रेशन का मतलब आम तौर पर बाइनरी लॉजिस्टिक रिग्रेशन से होता है. यह एक ऐसा मॉडल है जो दो संभावित वैल्यू वाले लेबल के लिए संभावनाओं का हिसाब लगाता है. मल्टीनोमियल लॉजिस्टिक रिग्रेशन, एक ऐसा वैरिएंट है जो आम तौर पर इस्तेमाल नहीं किया जाता. यह दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, संभावनाओं का हिसाब लगाता है.
  • ट्रेनिंग के दौरान लॉस फ़ंक्शन, लॉग लॉस होता है. (दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, एक साथ कई लॉग लॉस यूनिट रखी जा सकती हैं.)
  • मॉडल में डीप न्यूरल नेटवर्क नहीं, बल्कि लीनियर आर्किटेक्चर है. हालांकि, इस परिभाषा का बाकी हिस्सा उन डीप मॉडल पर भी लागू होता है जो कैटगरी लेबल के लिए संभावनाओं का अनुमान लगाते हैं.

उदाहरण के लिए, लॉजिस्टिक रिग्रेशन मॉडल का इस्तेमाल करके, किसी इनपुट ईमेल के स्पैम होने या न होने की संभावना का हिसाब लगाया जा सकता है. मान लें कि अनुमान लगाने के दौरान, मॉडल का अनुमान 0.72 है. इसलिए, मॉडल इन चीज़ों का अनुमान लगा रहा है:

  • ईमेल के स्पैम होने की 72% संभावना है.
  • ईमेल के स्पैम न होने की संभावना 28% है.

लॉजिस्टिक रिग्रेशन मॉडल, दो चरणों वाले इस आर्किटेक्चर का इस्तेमाल करता है:

  1. मॉडल, इनपुट फ़ीचर का लीनियर फ़ंक्शन लागू करके, रॉ अनुमान (y') जनरेट करता है.
  2. मॉडल, रॉ अनुमान का इस्तेमाल सिग्मॉइड फ़ंक्शन के इनपुट के तौर पर करता है. यह रॉ अनुमान को 0 से 1 के बीच की वैल्यू में बदल देता है.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल भी किसी संख्या का अनुमान लगाता है. हालांकि, आम तौर पर यह संख्या, बाइनरी क्लासिफ़िकेशन मॉडल का हिस्सा बन जाती है. ऐसा इस तरह होता है:

  • अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
  • अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

लॉग लॉस

#fundamentals

बाइनरी लॉजिस्टिक रिग्रेशन में इस्तेमाल किया जाने वाला लॉस फ़ंक्शन.

लॉग-ऑड्स

#fundamentals

किसी इवेंट की संभावनाओं का लॉगरिदम.

हार

#fundamentals

सुपरवाइज़्ड मॉडल की ट्रेनिंग के दौरान, यह मेज़र किया जाता है कि मॉडल का अनुमान, उसके लेबल से कितना अलग है.

लॉस फ़ंक्शन, लॉस का हिसाब लगाता है.

लॉस कर्व

#fundamentals

ट्रेनिंग के इटरेशन की संख्या के फ़ंक्शन के तौर पर, लॉस का प्लॉट. नीचे दिया गया प्लॉट, लॉस कर्व को दिखाता है:

लॉस बनाम ट्रेनिंग के दोहराव का कार्टेशियन ग्राफ़, जिसमें शुरुआती दोहरावों के लिए लॉस में तेज़ गिरावट दिख रही है. इसके बाद, धीरे-धीरे गिरावट आ रही है और आखिरी दोहरावों के दौरान लॉस में कोई बदलाव नहीं हुआ है.

लॉस कर्व से यह पता चलता है कि आपका मॉडल कब कंसर्वेटिव या ओवरफ़िट हो रहा है.

लॉस कर्व में, नीचे दिए गए सभी तरह के नुकसान को प्लॉट किया जा सकता है:

जनरलाइज़ेशन कर्व भी देखें.

लॉस फ़ंक्शन

#fundamentals

ट्रेनिंग या जांच के दौरान, एक ऐसा गणितीय फ़ंक्शन जो उदाहरणों के बैच पर नुकसान का हिसाब लगाता है. लॉस फ़ंक्शन, अच्छे अनुमान लगाने वाले मॉडल के लिए कम लॉस दिखाता है. वहीं, खराब अनुमान लगाने वाले मॉडल के लिए ज़्यादा लॉस दिखाता है.

आम तौर पर, ट्रेनिंग का लक्ष्य, लॉस फ़ंक्शन से मिलने वाले लॉस को कम करना होता है.

कई तरह के लॉस फ़ंक्शन मौजूद हैं. जिस तरह का मॉडल बनाया जा रहा है उसके लिए सही लॉस फ़ंक्शन चुनें. उदाहरण के लिए:

M

मशीन लर्निंग

#fundamentals

ऐसा प्रोग्राम या सिस्टम जो इनपुट डेटा से, मॉडल को ट्रेन करता है. ट्रेन किया गया मॉडल, उसी डिस्ट्रिब्यूशन से मिले नए (पहले कभी न देखे गए) डेटा से काम के अनुमान लगा सकता है जिसका इस्तेमाल मॉडल को ट्रेन करने के लिए किया गया था.

मशीन लर्निंग का मतलब, इन प्रोग्राम या सिस्टम से जुड़े अध्ययन के क्षेत्र से भी है.

ज़्यादातर क्लास

#fundamentals

क्लास के असंतुलित डेटासेट में ज़्यादा सामान्य लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो नेगेटिव लेबल ज़्यादातर क्लास के होते हैं.

माइनॉरिटी क्लास के साथ कंट्रास्ट करें.

छोटा बैच

#fundamentals

बैच का एक छोटा, रैंडम तौर पर चुना गया सबसेट, जिसे एक इटरेशन में प्रोसेस किया जाता है. आम तौर पर, किसी मिनी-बैच का बैच साइज़ 10 से 1,000 उदाहरणों के बीच होता है.

उदाहरण के लिए, मान लें कि पूरे ट्रेनिंग सेट (पूरे बैच) में 1,000 उदाहरण हैं. मान लें कि आपने हर एक मिनी-बैच के लिए, बैच का साइज़ 20 पर सेट किया है. इसलिए, हर बार 1,000 उदाहरणों में से 20 उदाहरणों के आधार पर लॉस का पता लगाया जाता है. इसके बाद, वेट और बायस में उसी हिसाब से बदलाव किया जाता है.

पूरे बैच के सभी उदाहरणों के लॉस की तुलना में, किसी छोटे बैच के लॉस का हिसाब लगाना ज़्यादा असरदार होता है.

अल्पसंख्यक वर्ग

#fundamentals

क्लास के असंतुलित डेटासेट में कम आम लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो पॉज़िटिव लेबल, माइनॉरिटी क्लास के लेबल हैं.

बड़ी संख्या में मौजूद क्लास के साथ तुलना करें.

मॉडल

#fundamentals

आम तौर पर, कोई भी गणितीय कॉन्स्ट्रक्ट जो इनपुट डेटा को प्रोसेस करता है और आउटपुट दिखाता है. दूसरे शब्दों में, मॉडल एक सिस्टम के लिए, अनुमान लगाने के लिए ज़रूरी पैरामीटर और स्ट्रक्चर का सेट होता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल इनपुट के तौर पर उदाहरण लेता है और आउटपुट के तौर पर अनुमान का अनुमान लगाता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल कुछ अलग होते हैं. उदाहरण के लिए:

  • लीनियर रिग्रेशन मॉडल में वेट और बायस का एक सेट होता है.
  • न्यूरल नेटवर्क मॉडल में ये चीज़ें शामिल होती हैं:
    • हाइडन लेयर का एक सेट, जिसमें हर लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं.
    • हर न्यूरॉन से जुड़े वेट और बायस.
  • डिसीज़न ट्री मॉडल में ये शामिल होते हैं:
    • ट्री का आकार; यानी, वह पैटर्न जिसमें शर्तें और पत्तियां जुड़ी होती हैं.
    • शर्तें और छुट्टियां.

मॉडल को सेव किया जा सकता है, वापस लाया जा सकता है या उसकी कॉपी बनाई जा सकती है.

बिना निगरानी वाली मशीन लर्निंग भी मॉडल जनरेट करती है. आम तौर पर, यह एक ऐसा फ़ंक्शन होता है जो किसी इनपुट उदाहरण को सबसे सही क्लस्टर से मैप कर सकता है.

मल्टी-क्लास क्लासिफ़िकेशन

#fundamentals

सुपरवाइज़्ड लर्निंग में, क्लासिफ़िकेशन से जुड़ी समस्या, जिसमें डेटासेट में लेबल की क्लास दो से ज़्यादा होती हैं. उदाहरण के लिए, Iris डेटासेट में मौजूद लेबल, इन तीन में से किसी एक क्लास में होने चाहिए:

  • आइरिस सेटोसा
  • आइरिस वर्जिनिका
  • आइरिस वर्सिकलर

आइरिस डेटासेट पर ट्रेन किया गया मॉडल, नए उदाहरणों के आधार पर आइरिस टाइप का अनुमान लगाता है. यह मॉडल, कई क्लास का क्लासिफ़िकेशन करता है.

इसके उलट, क्लासिफ़िकेशन की ऐसी समस्याएं जिनमें सिर्फ़ दो क्लास के बीच अंतर किया जाता है उन्हें बाइनरी क्लासिफ़िकेशन मॉडल कहा जाता है. उदाहरण के लिए, ईमेल का ऐसा मॉडल जो स्पैम या स्पैम नहीं का अनुमान लगाता है, वह बाइनरी क्लासिफ़िकेशन मॉडल होता है.

क्लस्टर करने से जुड़ी समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन का मतलब दो से ज़्यादा क्लस्टर से है.

नहीं

नेगेटिव क्लास

#fundamentals

बाइनरी क्लासिफ़िकेशन में, एक क्लास को पॉज़िटिव और दूसरी क्लास को नेगेटिव कहा जाता है. पॉज़िटिव क्लास वह चीज़ या इवेंट है जिसकी जांच मॉडल कर रहा है और नेगेटिव क्लास दूसरी संभावना है. उदाहरण के लिए:

  • किसी मेडिकल टेस्ट में नेगेटिव क्लास, "ट्यूमर नहीं" हो सकती है.
  • ईमेल क्लासिफ़ायर में नेगेटिव क्लास, "स्पैम नहीं है" हो सकती है.

पॉज़िटिव क्लास के साथ तुलना करें.

न्यूरल नेटवर्क

#fundamentals

ऐसा मॉडल जिसमें कम से कम एक छिपी हुई लेयर हो. डीप न्यूरल नेटवर्क, एक तरह का न्यूरल नेटवर्क है. इसमें एक से ज़्यादा हिडन लेयर होती हैं. उदाहरण के लिए, नीचे दिए गए डायग्राम में एक डीप न्यूरल नेटवर्क दिखाया गया है, जिसमें दो छिपी हुई लेयर हैं.

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क.

किसी न्यूरल नेटवर्क में मौजूद हर न्यूरॉन, अगली लेयर के सभी नोड से कनेक्ट होता है. उदाहरण के लिए, पिछले डायग्राम में देखें कि पहली छिपी हुई लेयर में मौजूद तीनों न्यूरॉन, दूसरी छिपी हुई लेयर में मौजूद दोनों न्यूरॉन से अलग-अलग कनेक्ट होते हैं.

कंप्यूटर पर लागू किए गए न्यूरल नेटवर्क को कभी-कभी ऐrtificial neural networks कहा जाता है. ऐसा इसलिए किया जाता है, ताकि इन्हें मस्तिष्क और अन्य तंत्रिका सिस्टम में मौजूद न्यूरल नेटवर्क से अलग किया जा सके.

कुछ न्यूरल नेटवर्क, अलग-अलग सुविधाओं और लेबल के बीच का बेहद जटिल नॉनलाइनियर संबंध समझ सकते हैं.

कन्वोल्यूशनल न्यूरल नेटवर्क और रीकुरेंट न्यूरल नेटवर्क भी देखें.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, न्यूरल नेटवर्क की छिपी हुई लेयर में मौजूद एक अलग यूनिट. हर न्यूरॉन, नीचे दी गई दो चरणों वाली कार्रवाई करता है:

  1. इनपुट वैल्यू के वेटेड योग का हिसाब लगाता है. इसके लिए, वैल्यू को उनके वेट से गुणा किया जाता है.
  2. ऐक्टिवेशन फ़ंक्शन को इनपुट के तौर पर, वेटेड योग पास करता है.

पहली हिडन लेयर में मौजूद न्यूरॉन, इनपुट लेयर में मौजूद फ़ीचर वैल्यू से इनपुट स्वीकार करता है. पहली से परे किसी भी छिपी हुई लेयर में मौजूद न्यूरॉन, पिछली छिपी हुई लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है. उदाहरण के लिए, दूसरी हिडन लेयर में मौजूद न्यूरॉन, पहली हिडन लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है.

इस इलस्ट्रेशन में दो न्यूरॉन और उनके इनपुट को हाइलाइट किया गया है.

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क. दो न्यूरॉन हाइलाइट किए गए हैं: पहला पहली
          हिडन लेयर में और दूसरा दूसरी हिडन लेयर में. पहली छिपी हुई लेयर में हाइलाइट किए गए न्यूरॉन को इनपुट लेयर में मौजूद दोनों सुविधाओं से इनपुट मिलते हैं. दूसरी हिडन लेयर में हाइलाइट किए गए न्यूरॉन को, पहली हिडन लेयर के तीनों न्यूरॉन से इनपुट मिलते हैं.

न्यूरल नेटवर्क में मौजूद न्यूरॉन, दिमाग और नर्वस सिस्टम के अन्य हिस्सों में मौजूद न्यूरॉन के व्यवहार की नकल करता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में मौजूद न्यूरॉन.

नॉन-लीनियर

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा के ज़रिए नहीं दिखाया जा सकता. लीनियर संबंध को लाइन के तौर पर दिखाया जा सकता है. हालांकि, नॉन-लीनियर संबंध को लाइन के तौर पर नहीं दिखाया जा सकता. उदाहरण के लिए, दो मॉडल लें, जिनमें से हर मॉडल में एक सुविधा को एक लेबल से जोड़ा गया हो. बाईं ओर मौजूद मॉडल लीनियर है और दाईं ओर मौजूद मॉडल नॉन-लीनियर है:

दो प्लॉट. एक प्लॉट एक लाइन है, इसलिए यह एक लीनियर रिलेशनशिप है.
          दूसरा प्लॉट एक कर्व है, इसलिए यह एक नॉनलाइनर रिलेशनशिप है.

नॉन-स्टेशनरी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में बदलती है. आम तौर पर, समय में बदलाव होता है. उदाहरण के लिए, नॉन-स्टेशनरी डेटा के ये उदाहरण देखें:

  • किसी खास स्टोर में बेचे जाने वाले स्विमसूट की संख्या, सीज़न के हिसाब से अलग-अलग होती है.
  • किसी खास इलाके में किसी खास फ़ल की पैदावार, साल के ज़्यादातर समय के लिए शून्य होती है. हालांकि, कुछ समय के लिए यह ज़्यादा होती है.
  • जलवायु परिवर्तन की वजह से, साल के औसत तापमान में बदलाव हो रहा है.

स्टेशनरिटी के साथ कंट्रास्ट करें.

नॉर्मलाइज़ेशन

#fundamentals

आम तौर पर, किसी वैरिएबल की वैल्यू की असल रेंज को वैल्यू की स्टैंडर्ड रेंज में बदलने की प्रोसेस. जैसे:

  • -1 से +1
  • 0 से 1
  • Z-स्कोर (लगभग -3 से +3)

उदाहरण के लिए, मान लें कि किसी खास सुविधा की वैल्यू की असल रेंज 800 से 2,400 है. फ़ीचर इंजीनियरिंग के हिस्से के तौर पर, असल वैल्यू को स्टैंडर्ड रेंज में नॉर्मलाइज़ किया जा सकता है. जैसे, -1 से +1.

फ़ीचर इंजीनियरिंग में सामान्य तौर पर, डेटा को सामान्य रूप में बदला जाता है. आम तौर पर, मॉडल तेज़ी से ट्रेन होते हैं और बेहतर अनुमान देते हैं. ऐसा तब होता है, जब फ़ीचर वेक्टर में मौजूद हर संख्या वाली फ़ीचर की रेंज एक जैसी हो.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स का न्यूमेरिकल डेटा के साथ काम करने वाला मॉड्यूल देखें. ज़ेड-स्कोर को सामान्य बनाने के बारे में भी जानें.

संख्याओं वाला डेटा

#fundamentals

विशेषताएं, जो पूर्णांक या रीयल वैल्यू वाली संख्याओं के तौर पर दिखाई जाती हैं. उदाहरण के लिए, घर की कीमत का आकलन करने वाला मॉडल, घर के साइज़ (वर्ग फ़ीट या वर्ग मीटर में) को संख्या के तौर पर दिखाएगा. किसी फ़ीचर को संख्या वाले डेटा के तौर पर दिखाने से पता चलता है कि फ़ीचर की वैल्यू, लेबल से गणितीय तौर पर जुड़ी हैं. इसका मतलब है कि किसी घर के वर्ग मीटर की संख्या का, घर की कीमत से कोई गणितीय संबंध हो सकता है.

सभी इंटीजर डेटा को अंकों वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों में पिन कोड पूर्णांक होते हैं. हालांकि, पूर्णांक वाले पिन कोड को मॉडल में संख्या के तौर पर नहीं दिखाया जाना चाहिए. ऐसा इसलिए है, क्योंकि 20000 का पिन कोड, 10,000 के पिन कोड के मुकाबले दोगुना (या आधा) असरदार नहीं होता. इसके अलावा, अलग-अलग पिन कोड, रीयल एस्टेट की अलग-अलग वैल्यू से जुड़े होते हैं. हालांकि, हम यह नहीं मान सकते कि पिन कोड 20000 की रीयल एस्टेट वैल्यू, पिन कोड 10000 की रीयल एस्टेट वैल्यू से दोगुनी है. पिन कोड को कैटगरी वाले डेटा के तौर पर दिखाया जाना चाहिए.

संख्या वाली सुविधाओं को कभी-कभी कंटिन्यूअस फ़ीचर कहा जाता है.

O

अॉफ़लाइन

#fundamentals

स्टैटिक का समानार्थी शब्द.

ऑफ़लाइन अनुमान

#fundamentals

मॉडल की वह प्रोसेस जिसमें अनुमान का एक बैच जनरेट किया जाता है और फिर उन अनुमानों को कैश मेमोरी में सेव (सेव) किया जाता है. इसके बाद, ऐप्लिकेशन मॉडल को फिर से चलाने के बजाय, कैश मेमोरी से अनुमानित अनुमान ऐक्सेस कर सकते हैं.

उदाहरण के लिए, एक ऐसा मॉडल जो हर चार घंटे में स्थानीय मौसम के पूर्वानुमान (अनुमान) जनरेट करता है. हर मॉडल के चलने के बाद, सिस्टम, मौसम के सभी स्थानीय पूर्वानुमान को कैश मेमोरी में सेव कर लेता है. मौसम के पूर्वानुमान बताने वाले ऐप्लिकेशन, कैश मेमोरी से पूर्वानुमान हासिल करते हैं.

ऑफ़लाइन अनुमान लगाने की प्रोसेस को स्टैटिक अनुमान भी कहा जाता है.

ऑनलाइन अनुमान के साथ तुलना करें.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरी वाले डेटा को वेक्टर के तौर पर दिखाना, जिसमें:

  • एक एलिमेंट को 1 पर सेट किया गया है.
  • बाकी सभी एलिमेंट 0 पर सेट होते हैं.

आम तौर पर, वन-हॉट कोडिंग का इस्तेमाल उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जिनमें संभावित वैल्यू का सीमित सेट होता है. उदाहरण के लिए, मान लें कि Scandinavia नाम की किसी कैटगरी वाली सुविधा की पांच संभावित वैल्यू हैं:

  • "डेनमार्क"
  • "स्वीडन"
  • "नॉर्वे"
  • "फ़िनलैंड"
  • "आइसलैंड"

वन-हॉट कोडिंग, इन पांच वैल्यू को इस तरह दिखा सकती है:

country वेक्टर
"डेनमार्क" 1 0 0 0 0
"स्वीडन" 0 1 0 0 0
"नॉर्वे" 0 0 1 0 0
"फ़िनलैंड" 0 0 0 1 0
"आइसलैंड" 0 0 0 0 1

वन-हॉट कोडिंग की मदद से, मॉडल पांचों देशों के आधार पर अलग-अलग कनेक्शन सीख सकता है.

किसी सुविधा को न्यूमेरिक डेटा के तौर पर दिखाना, वन-हॉट एन्कोडिंग का एक विकल्प है. माफ़ करें, स्कैंडिनेवियन देशों को संख्या के हिसाब से दिखाना एक अच्छा विकल्प नहीं है. उदाहरण के लिए, संख्याओं को इस तरह दिखाया जा सकता है:

  • "Denmark" is 0
  • "स्वीडन" 1 है
  • "Norway" is 2
  • "फ़िनलैंड" 3 है
  • "Iceland" 4 है

अंकों को कोड में बदलने की सुविधा की मदद से, मॉडल रॉ संख्याओं को गणित के हिसाब से समझता है और उन संख्याओं पर ट्रेनिंग की कोशिश करता है. हालांकि, आइसलैंड में नॉर्वे के मुकाबले दोगुना (या आधा) कुछ भी नहीं है. इसलिए, मॉडल कुछ अजीब नतीजे देगा.

एक-बनाम-सभी

#fundamentals

N क्लास वाली कैटगरी तय करने की समस्या के लिए, N अलग-अलग बाइनरी क्लासिफ़ायर वाला समाधान. हर संभावित नतीजे के लिए एक बाइनरी क्लासिफ़ायर. उदाहरण के लिए, किसी ऐसे मॉडल के लिए जो उदाहरणों को जानवर, सब्जी या खनिज के तौर पर बांटता है, एक-बनाम-सभी वाला समाधान, नीचे दिए गए तीन अलग-अलग बाइनरी क्लासिफ़ायर उपलब्ध कराएगा:

  • जानवर है या नहीं
  • सब्ज़ी बनाम नॉन-वेजिटेबल
  • मिनरल बनाम नॉन-मिनरल

online

#fundamentals

डाइनैमिक का समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग पर अनुमान जनरेट करना. उदाहरण के लिए, मान लें कि कोई ऐप्लिकेशन किसी मॉडल को इनपुट भेजता है और अनुमान का अनुरोध करता है. ऑनलाइन अनुमान लगाने वाला सिस्टम, मॉडल को चलाकर अनुरोध का जवाब देता है. साथ ही, ऐप्लिकेशन को अनुमान दिखाता है.

ऑफ़लाइन अनुमान के साथ तुलना करें.

आउटपुट लेयर

#fundamentals

न्यूरल नेटवर्क की "आखिरी" लेयर. आउटपुट लेयर में अनुमान होता है.

इस इलस्ट्रेशन में, एक छोटा डीप न्यूरल नेटवर्क दिखाया गया है. इसमें इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर है:

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          हिडन लेयर में तीन न्यूरॉन और दूसरी हिडन लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक ही नोड होता है.

ओवरफ़िटिंग

#fundamentals

ऐसा मॉडल बनाना जो ट्रेनिंग डेटा से काफ़ी हद तक मेल खाता हो. इससे मॉडल, नए डेटा के लिए सही अनुमान नहीं लगा पाता.

रेगुलराइज़ेशन से, ओवरफ़िटिंग कम हो सकती है. बड़े और अलग-अलग तरह के ट्रेनिंग सेट पर ट्रेनिंग करने से, ओवरफ़िटिंग की समस्या भी कम हो सकती है.

P

पांडा

#fundamentals

कॉलम-ओरिएंटेड डेटा विश्लेषण एपीआई, जो numpy पर आधारित है. TensorFlow के साथ-साथ कई मशीन लर्निंग फ़्रेमवर्क, इनपुट के तौर पर pandas डेटा स्ट्रक्चर का इस्तेमाल करते हैं. ज़्यादा जानकारी के लिए, pandas का दस्तावेज़ देखें.

पैरामीटर

#fundamentals

वज़न और पक्षपात, जिन्हें मॉडल ट्रेनिंग के दौरान सीखता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल में, पैरामीटर में नीचे दिए गए फ़ॉर्मूले में, बायस (b) और सभी वेट (w1, w2 वगैरह) शामिल होते हैं:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

इसके उलट, हाइपरपैरामीटर वे वैल्यू होती हैं जिन्हें आप या कोई हाइपरपैरामीटर ट्यूनिंग सेवा, मॉडल को देती है. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

वह क्लास जिसकी जांच की जा रही है.

उदाहरण के लिए, कैंसर मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल क्लासिफ़ायर में पॉज़िटिव क्लास "स्पैम" हो सकती है.

नेगेटिव क्लास के साथ कंट्रास्ट करें.

प्रोसेस होने के बाद

#fairness
#fundamentals

मॉडल को चलाने के बाद, मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए किया जा सकता है.

उदाहरण के लिए, किसी एट्रिब्यूट के लिए ट्रू पॉजिटिव रेट की वैल्यू एक जैसी हो, यह पक्का करने के लिए, क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, बाइनरी क्लासिफ़ायर पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इससे, किसी एट्रिब्यूट के लिए समान अवसर बनाए रखा जा सकता है.

अनुमान

#fundamentals

मॉडल का आउटपुट. उदाहरण के लिए:

  • बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान, पॉज़िटिव क्लास या नेगेटिव क्लास में से कोई एक होता है.
  • मल्टी-क्लास क्लासिफ़िकेशन मॉडल का अनुमान, एक क्लास का होता है.
  • लीनियर रिग्रेशन मॉडल का अनुमान एक संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

डेटासेट में सीधे तौर पर उपलब्ध नहीं होने वाले लेबल का अनुमान लगाने के लिए इस्तेमाल किया जाने वाला डेटा.

उदाहरण के लिए, मान लें कि आपको कर्मचारी के तनाव के लेवल का अनुमान लगाने के लिए, किसी मॉडल को ट्रेन करना है. आपके डेटासेट में, अनुमान लगाने वाली कई सुविधाएं हैं, लेकिन इसमें तनाव का लेवल नाम का लेबल नहीं है. इसके बावजूद, आपने तनाव के लेवल के लिए, "ऑफ़िस में होने वाली दुर्घटनाएं" को प्रॉक्सी लेबल के तौर पर चुना. आखिरकार, तनाव में रहने वाले कर्मचारियों की तुलना में, शांत रहने वाले कर्मचारियों को ज़्यादा ऐक्सिडेंट होते हैं. क्या ऐसा है? ऐसा हो सकता है कि नौकरी के दौरान होने वाली दुर्घटनाओं की संख्या में कई वजहों से बढ़ोतरी और गिरावट आती हो.

दूसरे उदाहरण के तौर पर, मान लें कि आपको अपने डेटासेट के लिए, क्या बारिश हो रही है? को बूलियन लेबल बनाना है, लेकिन आपके डेटासेट में बारिश का डेटा मौजूद नहीं है. अगर फ़ोटो उपलब्ध हैं, तो क्या बारिश हो रही है? के लिए, छतरी लिए हुए लोगों की फ़ोटो को प्रॉक्सी लेबल के तौर पर सेट किया जा सकता है क्या यह एक अच्छा प्रॉक्सी लेबल है? हो सकता है, लेकिन कुछ देशों के लोग बारिश से ज़्यादा, धूप से बचने के लिए छतरी का इस्तेमाल करते हों.

प्रॉक्सी लेबल अक्सर सही नहीं होते. जब भी संभव हो, प्रॉक्सी लेबल के बजाय असली लेबल चुनें. हालांकि, अगर कोई असल लेबल मौजूद नहीं है, तो प्रॉक्सी लेबल को बहुत सावधानी से चुनें. साथ ही, सबसे कम खराब प्रॉक्सी लेबल चुनें.

R

RAG

#fundamentals

रिट्रीवल-ऑगमेंटेड जनरेशन का छोटा नाम.

रेटिंग देने वाला

#fundamentals

वह व्यक्ति जो उदाहरणों के लिए लेबल उपलब्ध कराता है. रेटिंग देने वाले व्यक्ति को "एनोटेट करने वाला" भी कहा जाता है.

रेक्टिफ़ाइड लीनियर यूनिट (ReLU)

#fundamentals

ऐसा चालू करने वाला फ़ंक्शन जिसका काम करने का तरीका यह है:

  • अगर इनपुट नेगेटिव या शून्य है, तो आउटपुट 0 होगा.
  • अगर इनपुट पॉज़िटिव है, तो आउटपुट इनपुट के बराबर होगा.

उदाहरण के लिए:

  • अगर इनपुट -3 है, तो आउटपुट 0 होगा.
  • अगर इनपुट +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का प्लॉट दिया गया है:

दो लाइनों का कार्टेशियन प्लॉट. पहली पंक्ति में, y की वैल्यू 0 है. यह वैल्यू x-ऐक्सिस पर -infinity,0 से 0,-0 तक चलती है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है, इसलिए यह 0,0 से +infinity,+infinity तक चलती है.

ReLU एक बहुत लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. आसान तरीके से काम करने के बावजूद, ReLU की मदद से न्यूरल नेटवर्क, एट्रिब्यूट और लेबल के बीच नॉन-लाइनर संबंधों को सीख सकता है.

रिग्रेशन मॉडल

#fundamentals

आम तौर पर, ऐसा मॉडल जो संख्या के हिसाब से अनुमान जनरेट करता है. इसके उलट, क्लासिफ़िकेशन मॉडल, क्लास का अनुमान जनरेट करता है. उदाहरण के लिए, ये सभी रेग्रेसन मॉडल हैं:

  • ऐसा मॉडल जो किसी घर की कीमत का अनुमान यूरो में लगाता है, जैसे कि 4,23,000.
  • यह एक मॉडल है, जो किसी पेड़ की उम्र का अनुमान लगाता है. जैसे, 23.2 साल.
  • यह एक ऐसा मॉडल है जो अगले छह घंटों में किसी शहर में होने वाली बारिश की मात्रा का अनुमान इंच में बताता है. जैसे, 0.18.

आम तौर पर, रेग्रेसन मॉडल दो तरह के होते हैं:

  • लीनियर रिग्रेशन, जो ऐसी लाइन ढूंढता है जो सुविधाओं के लिए लेबल वैल्यू को सबसे बेहतर तरीके से फ़िट करती है.
  • लॉजिस्टिक रिग्रेशन, जो 0.0 से 1.0 के बीच की संभावना जनरेट करता है. आम तौर पर, सिस्टम इस संभावना को किसी क्लास के अनुमान से मैप करता है.

संख्या के हिसाब से अनुमान देने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, अंकों वाला अनुमान सिर्फ़ एक क्लासिफ़िकेशन मॉडल होता है, जिसमें अंकों वाली क्लास के नाम होते हैं. उदाहरण के लिए, संख्या वाले पिन कोड का अनुमान लगाने वाला मॉडल, रेग्रेसन मॉडल नहीं, बल्कि क्लासिफ़िकेशन मॉडल होता है.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जो ओवरफ़िटिंग को कम करता है. नियमों का पालन करने के लिए, ये तरीके सबसे ज़्यादा इस्तेमाल किए जाते हैं:

रेगुलराइज़ेशन को मॉडल की जटिलता पर लगने वाले जुर्माने के तौर पर भी परिभाषित किया जा सकता है.

रेगुलराइज़ेशन रेट

#fundamentals

यह एक संख्या है, जो ट्रेनिंग के दौरान नियमित करने की तुलनात्मक अहमियत बताती है. रेगुलराइज़ेशन रेट बढ़ाने से, ओवरफ़िटिंग कम हो जाती है. हालांकि, इससे मॉडल की अनुमान लगाने की क्षमता कम हो सकती है. इसके उलट, रेगुलराइज़ेशन रेट को कम करने या हटाने से, ओवरफ़िटिंग बढ़ जाती है.

ReLU

#fundamentals

रेक्टिफ़ाइड लीनियर यूनिट का छोटा नाम.

रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी)

#fundamentals

लार्ज लैंग्वेज मॉडल (एलएलएम) के आउटपुट की क्वालिटी को बेहतर बनाने की एक तकनीक. इसमें, मॉडल को ट्रेन करने के बाद, उससे हासिल किए गए ज्ञान के सोर्स का इस्तेमाल किया जाता है. आरएजी, एलएलएम को ट्रेन करके, उसे भरोसेमंद नॉलेज बेस या दस्तावेज़ों से हासिल की गई जानकारी का ऐक्सेस देता है. इससे एलएलएम के जवाबों की सटीकता बढ़ती है.

रीट्रिवल-ऑगमेंटेड जनरेशन का इस्तेमाल करने की सामान्य वजहें ये हैं:

  • मॉडल के जनरेट किए गए जवाबों को ज़्यादा सटीक बनाना.
  • मॉडल को उस जानकारी का ऐक्सेस देना जिस पर उसे ट्रेनिंग नहीं दी गई है.
  • मॉडल में मौजूद जानकारी में बदलाव करना.
  • मॉडल को सोर्स का हवाला देने की सुविधा चालू करना.

उदाहरण के लिए, मान लें कि कोई केमिस्ट्री ऐप्लिकेशन, उपयोगकर्ता की क्वेरी से जुड़ी खास जानकारी जनरेट करने के लिए, PaLM API का इस्तेमाल करता है. जब ऐप्लिकेशन के बैकएंड को कोई क्वेरी मिलती है, तो बैकएंड:

  1. उपयोगकर्ता की क्वेरी से जुड़ा डेटा खोजता है ("प्राप्त करता है").
  2. उपयोगकर्ता की क्वेरी में, काम का केमिस्ट्री डेटा जोड़ता है ("बढ़ाता है").
  3. जोड़े गए डेटा के आधार पर खास जानकारी बनाने के लिए, एलएलएम को निर्देश देता है.

आरओसी (रिसीवर ऑपरेटिंग चैरेक्टरिस्टिक) कर्व

#fundamentals

बाइनरी क्लासिफ़िकेशन में, अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड के लिए, ट्रू पॉज़िटिव रेट बनाम फ़ॉल्स पॉज़िटिव रेट का ग्राफ़.

आरओसी कर्व के आकार से पता चलता है कि बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने में कितना कारगर है. उदाहरण के लिए, मान लें कि कोई बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव क्लास को सभी पॉज़िटिव क्लास से पूरी तरह से अलग करता है:

दाईं ओर आठ पॉज़िटिव उदाहरण और बाईं ओर सात नेगेटिव उदाहरण वाली नंबर लाइन.

पिछले मॉडल का आरओसी कर्व कुछ ऐसा दिखता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर
          ट्रू पॉज़िटिव रेट होता है. कर्व का आकार, उलटा L जैसा है. कर्व (0.0,0.0) से शुरू होता है और सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व (0.0,1.0) से (1.0,1.0) पर पहुंच जाता है.

इसके उलट, नीचे दिए गए इलस्ट्रेशन में एक खराब मॉडल के लिए, लॉजिस्टिक रिग्रेशन की रॉ वैल्यू का ग्राफ़ दिखाया गया है. यह मॉडल, नेगेटिव क्लास को पॉज़िटिव क्लास से अलग नहीं कर सकता:

पॉज़िटिव उदाहरणों और नेगेटिव क्लास के साथ एक संख्या रेखा, जिसमें दोनों पूरी तरह से एक-दूसरे में शामिल हैं.

इस मॉडल के लिए आरओसी कर्व इस तरह दिखता है:

आरओसी कर्व, जो असल में (0.0,0.0) से (1.0,1.0) तक की सीधी रेखा होती है.

वहीं, असल दुनिया में, ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल, सकारात्मक और नकारात्मक कैटगरी को कुछ हद तक अलग करते हैं. हालांकि, आम तौर पर ऐसा पूरी तरह से नहीं होता. इसलिए, एक सामान्य आरओसी कर्व, इन दोनों चरम स्थितियों के बीच कहीं आता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर
          ट्रू पॉज़िटिव रेट होता है. आरओसी कर्व, कंपास के पॉइंट को पश्चिम से उत्तर तक ले जाने वाले, एक अस्थिर आर्क के आस-पास होता है.

आरओसी कर्व पर (0.0,1.0) के सबसे नज़दीक मौजूद पॉइंट से, सैद्धांतिक तौर पर, कैटगरी तय करने के लिए सबसे सही थ्रेशोल्ड का पता चलता है. हालांकि, असल दुनिया की कई अन्य समस्याएं, क्लासिफ़िकेशन के लिए सही थ्रेशोल्ड चुनने पर असर डालती हैं. उदाहरण के लिए, शायद गलत नतीजे मिलने से, गलत तरीके से सही नतीजे मिलने से ज़्यादा दर्द होता है.

AUC नाम की अंकों वाली मेट्रिक, आरओसी कर्व को एक फ़्लोटिंग-पॉइंट वैल्यू में बताती है.

रूट मीन स्क्वेयर्ड एरर (RMSE)

#fundamentals

मीन स्क्वेयर्ड एरर का वर्गमूल.

S

सिगमॉइड फ़ंक्शन

#fundamentals

गणित का एक फ़ंक्शन, जो इनपुट वैल्यू को तय सीमा वाली रेंज में "डालता" है. आम तौर पर, यह रेंज 0 से 1 या -1 से +1 होती है. इसका मतलब है कि सिग्मॉइड फ़ंक्शन में कोई भी संख्या (दो, एक लाख, नेगेटिव अरब वगैरह) डाली जा सकती है और आउटपुट अब भी तय सीमा में रहेगा. सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

दो डाइमेंशन वाला कर्व प्लॉट, जिसमें x वैल्यू का डोमेन -इनफ़िनिटी से लेकर +पॉज़िटिव तक है. वहीं, y वैल्यू की रेंज करीब 0 से लेकर करीब 1 तक है. जब x 0 है, तो y 0.5 है. कर्व का ढलान हमेशा
          सकारात्मक होता है. 0, 0.5 पर सबसे ज़्यादा ढलान होता है और x की वैल्यू बढ़ने पर,ढलान धीरे-धीरे कम होता जाता है.

मशीन लर्निंग में सिगमॉइड फ़ंक्शन का इस्तेमाल कई कामों के लिए किया जाता है. जैसे:

सॉफ़्टमैक्स

#fundamentals

यह फ़ंक्शन, मल्टी-क्लास क्लासिफ़िकेशन मॉडल में हर संभावित क्लास की संभावनाएं तय करता है. सभी संभावनाओं का जोड़, 1.0 होता है. उदाहरण के लिए, नीचे दी गई टेबल से पता चलता है कि सॉफ़्टमैक्स, अलग-अलग संभावनाओं को कैसे बांटता है:

इमेज एक... प्रॉबेबिलिटी
कुत्ता .85
cat .13
घोड़ा .02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवारों के सैंपल के साथ तुलना करें.

स्पैर्स फ़ीचर

#language
#fundamentals

ऐसी सुविधा जिसकी वैल्यू ज़्यादातर शून्य या खाली होती हैं. उदाहरण के लिए, एक वैल्यू 1 और एक लाख वैल्यू 0 वाली सुविधा, कम डेटा वाली सुविधा है. इसके उलट, डेंस फ़ीचर की वैल्यू, आम तौर पर शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में, बहुत सारी सुविधाएं स्पैर्स सुविधाएं होती हैं. कैटगरी वाली सुविधाएं आम तौर पर कम होती हैं. उदाहरण के लिए, किसी जंगल में मौजूद 300 पेड़ों की प्रजातियों में से, किसी एक उदाहरण से सिर्फ़ मेपल ट्री की पहचान की जा सकती है. इसके अलावा, किसी वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से, एक उदाहरण से सिर्फ़ "Casablanca" की पहचान की जा सकती है.

आम तौर पर, किसी मॉडल में कम सुविधाओं को वन-हॉट एन्कोडिंग की मदद से दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए, वन-हॉट एन्कोडिंग के ऊपर एम्बेडिंग लेयर डाली जा सकती है.

स्पैर्स प्रज़ेंटेशन

#language
#fundamentals

स्पैर्स फ़ीचर में, सिर्फ़ उन एलिमेंट की पोज़िशन सेव करना जिनकी वैल्यू शून्य से ज़्यादा है.

उदाहरण के लिए, मान लें कि species नाम की कैटगरी वाली सुविधा, किसी खास जंगल में मौजूद 36 तरह के पेड़ों की पहचान करती है. इसके अलावा, मान लें कि हर उदाहरण में सिर्फ़ एक प्रजाति की जानकारी दी गई है.

हर उदाहरण में पेड़ की प्रजाति दिखाने के लिए, वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. एक-हॉट वेक्टर में एक 1 (उस उदाहरण में पेड़ की किसी खास प्रजाति को दिखाने के लिए) और 35 0 (उस उदाहरण में पेड़ की नहीं 35 प्रजातियों को दिखाने के लिए) शामिल होंगे. इसलिए, maple का वन-हॉट वर्शन कुछ ऐसा दिख सकता है:

ऐसा वेक्टर जिसमें 0 से 23 तक की पोज़िशन में वैल्यू 0, 24वीं पोज़िशन में वैल्यू 1, और 25 से 35 तक की पोज़िशन में वैल्यू 0 है.

इसके अलावा, स्पैर्स रिप्रज़ेंटेशन से सिर्फ़ किसी खास प्रजाति की जगह की पहचान की जा सकती है. अगर maple 24वें स्थान पर है, तो maple का स्पैर्स रिप्रज़ेंटेशन इस तरह होगा:

24

ध्यान दें कि स्पैर्स रिप्रज़ेंटेशन, वन-हॉट रिप्रज़ेंटेशन की तुलना में काफ़ी छोटा होता है.

स्पैर्स वेक्टर

#fundamentals

ऐसा वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती हैं. स्पैर्स फ़ीचर और स्पैर्सिटी भी देखें.

स्क्वेयर्ड लॉस

#fundamentals

L2 लॉस के लिए समानार्थी शब्द.

स्टैटिक

#fundamentals

ऐसा काम जो लगातार नहीं किया जाता. स्टैटिक और ऑफ़लाइन, एक ही चीज़ के लिए इस्तेमाल होने वाले शब्द हैं. मशीन लर्निंग में स्टैटिक और ऑफ़लाइन का आम तौर पर इस्तेमाल इस तरह किया जाता है:

  • स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) एक ऐसा मॉडल होता है जिसे एक बार ट्रेन किया जाता है और फिर कुछ समय के लिए इस्तेमाल किया जाता है.
  • स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग) का मतलब, स्टैटिक मॉडल को ट्रेनिंग देना है.
  • स्टैटिक इंफ़रेंस (या ऑफ़लाइन इंफ़रेंस) एक ऐसी प्रोसेस है जिसमें मॉडल एक बार में कई अनुमान जनरेट करता है.

डाइनैमिक के साथ कंट्रास्ट.

स्टैटिक इंफ़रेंस

#fundamentals

ऑफ़लाइन अनुमान का समानार्थी शब्द.

स्टेशनरी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में नहीं बदलती. आम तौर पर, समय में वैल्यू नहीं बदलती. उदाहरण के लिए, किसी ऐसी सुविधा की वैल्यू जो 2021 और 2023 में एक जैसी दिखती है, वह स्टेशनरी है.

असल दुनिया में, बहुत कम फ़ीचर में स्टेशनरी दिखती है. स्थिरता से जुड़ी सुविधाएं (जैसे, समुद्र का लेवल) भी समय के साथ बदलती हैं.

नॉन-स्टेशनरिटी के साथ तुलना करें.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

ग्रेडिएंट डिसेंट एल्गोरिदम, जिसमें बैच का साइज़ एक है. दूसरे शब्दों में, एसजीडी, ट्रेनिंग सेट से एक उदाहरण को यादृच्छिक तौर पर चुनकर ट्रेनिंग करता है.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

सुविधाओं और उनसे जुड़े लेबल से, मॉडल को ट्रेनिंग देना. सुपरवाइज़्ड मशीन लर्निंग, सवालों के एक सेट और उनके जवाबों का अध्ययन करके किसी विषय को सीखने जैसा है. सवालों और जवाबों के बीच मैपिंग करने के बाद, छात्र उसी विषय पर नए (पहले कभी न देखे गए) सवालों के जवाब दे सकता है.

बिना निगरानी वाली मशीन लर्निंग की तुलना करें.

सिंथेटिक फ़ीचर

#fundamentals

ऐसी सुविधा जो इनपुट सुविधाओं में मौजूद नहीं है, लेकिन एक या उससे ज़्यादा सुविधाओं से इकट्ठा की गई है. एआई से जनरेट की गई सुविधाएं बनाने के तरीकों में ये शामिल हैं:

  • किसी लगातार चलने वाली सुविधा को रेंज के बाइन में बकेट करना.
  • सुविधा का क्रॉस बनाना.
  • किसी सुविधा की वैल्यू को दूसरी सुविधा की वैल्यू से गुणा करना (या उससे भाग देना) या खुद से गुणा करना(या उससे भाग देना). उदाहरण के लिए, अगर a और b इनपुट फ़ीचर हैं, तो यहां दिए गए उदाहरण सिंथेटिक फ़ीचर के हैं:
    • ab
    • a2
  • किसी सुविधा की वैल्यू पर ट्रांससेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c इनपुट फ़ीचर है, तो सिंथेटिक फ़ीचर के उदाहरण यहां दिए गए हैं:
    • sin(c)
    • ln(c)

सामान्य बनाने या स्केलिंग के ज़रिए बनाई गई सुविधाओं को एआई से जनरेट की गई सुविधाएं नहीं माना जाता.

T

टेस्ट लॉस

#fundamentals

टेस्ट सेट के मुकाबले, मॉडल के लॉस को दिखाने वाली मेट्रिक. मॉडल बनाते समय, आम तौर पर टेस्ट में होने वाली गड़बड़ी को कम करने की कोशिश की जाती है. इसकी वजह यह है कि कम टेस्ट लॉस, ट्रेनिंग लॉस या पुष्टि करने के लिए इस्तेमाल होने वाले लॉस की तुलना में, क्वालिटी का बेहतर सिग्नल होता है.

टेस्ट लॉस और ट्रेनिंग लॉस या पुष्टि करने के दौरान होने वाले लॉस के बीच का बड़ा अंतर, कभी-कभी यह बताता है कि आपको रेगुलराइज़ेशन रेट बढ़ाना होगा.

ट्रेनिंग

#fundamentals

मॉडल में शामिल, सही पैरामीटर (वज़न और पूर्वाग्रह) तय करने की प्रोसेस. ट्रेनिंग के दौरान, सिस्टम उदाहरणों को पढ़ता है और धीरे-धीरे पैरामीटर में बदलाव करता है. ट्रेनिंग में, हर उदाहरण का इस्तेमाल कुछ से लेकर अरबों बार किया जाता है.

ट्रेनिंग में हुई कमी

#fundamentals

यह एक मेट्रिक है, जो किसी खास ट्रेनिंग के दौरान मॉडल के लॉस को दिखाती है. उदाहरण के लिए, मान लें कि लॉस फ़ंक्शन मीन स्क्वेयर्ड गड़बड़ी है. शायद 10वें आइटरेशन के लिए ट्रेनिंग लॉस (मीन स्क्वेयर्ड एरर) 2.2 है और 100वें आइटरेशन के लिए ट्रेनिंग लॉस 1.9 है.

लॉस कर्व, ट्रेनिंग लॉस को दोहराव की संख्या के मुकाबले प्लॉट करता है. लॉस कर्व से, ट्रेनिंग के बारे में ये अहम जानकारी मिलती है:

  • नीचे की ओर ढलान का मतलब है कि मॉडल की परफ़ॉर्मेंस बेहतर हो रही है.
  • ऊपर की ओर बढ़ने का मतलब है कि मॉडल की परफ़ॉर्मेंस खराब हो रही है.
  • सपाट ढलान का मतलब है कि मॉडल कंसर्वेशन तक पहुंच गया है.

उदाहरण के लिए, यहां दिया गया लॉस कर्व, कुछ हद तक आदर्श है. इसमें यह दिखाया गया है:

  • शुरुआती दोहरावों के दौरान, डाउनवर्ड स्लोप का ज़्यादा होना. इसका मतलब है कि मॉडल में तेज़ी से सुधार हो रहा है.
  • ट्रेनिंग के आखिर तक धीरे-धीरे सपाट (लेकिन अब भी नीचे की ओर) स्लोप, जिसका मतलब है कि शुरुआती दोहरावों के मुकाबले, मॉडल में अब भी धीमी रफ़्तार से सुधार हो रहा है.
  • ट्रेनिंग के आखिर में, प्लॉट का सपाट होना, जिससे यह पता चलता है कि मॉडल के एलिमेंट एक-दूसरे से मिल गए हैं.

ट्रेनिंग लॉस बनाम दोहराव का प्लॉट. यह लॉस कर्व, धीरे-धीरे नीचे की ओर झुकता है. ढलान धीरे-धीरे तब तक सपाट होता है, जब तक कि ढलान शून्य न हो जाए.

ट्रेनिंग लॉस अहम है, लेकिन जनरलाइज़ेशन भी देखें.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

ट्रेनिंग के दौरान मॉडल की परफ़ॉर्मेंस और इस्तेमाल के दौरान मॉडल की परफ़ॉर्मेंस के बीच का अंतर.

ट्रेनिंग सेट

#fundamentals

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किए जाने वाले डेटासेट का सबसेट.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से मौजूद सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण, ट्रेनिंग सेट और पुष्टि करने वाले सेट, दोनों में शामिल नहीं होना चाहिए.

खतरे को सही आंकना (TN)

#fundamentals

एक उदाहरण, जिसमें मॉडल ने नेगेटिव क्लास का सही अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम नहीं है और वह ईमेल मैसेज वाकई स्पैम नहीं है.

ट्रू पॉज़िटिव (TP)

#fundamentals

एक उदाहरण, जिसमें मॉडल ने पॉज़िटिव क्लास का सही अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम है और वह ईमेल मैसेज वाकई में स्पैम है.

ट्रू पॉज़िटिव रेट (टीपीआर)

#fundamentals

रिवॉल्कर के लिए समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

आरओसी कर्व में, असल पॉज़िटिव रेट, y-ऐक्सिस होता है.

U

अंडरफ़िटिंग

#fundamentals

अनुमान लगाने की खराब क्षमता वाला मॉडल बनाना, क्योंकि मॉडल ने ट्रेनिंग डेटा की जटिलता को पूरी तरह से कैप्चर नहीं किया है. कई समस्याओं की वजह से, मॉडल के परफ़ॉर्म न करने की समस्या हो सकती है. इनमें ये शामिल हैं:

बिना लेबल वाला उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें सुविधाएं शामिल हैं, लेकिन कोई लेबल नहीं है. उदाहरण के लिए, नीचे दी गई टेबल में घर की वैल्यू तय करने वाले मॉडल के तीन ऐसे उदाहरण दिए गए हैं जिन पर लेबल नहीं लगा है. इनमें से हर उदाहरण में तीन फ़ीचर हैं, लेकिन घर की वैल्यू नहीं है:

कमरों की संख्या बाथरूम की संख्या घर की उम्र
3 2 15
2 1 72
4 2 34

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल लेबल किए गए उदाहरणों पर ट्रेनिंग लेते हैं और लेबल नहीं किए गए उदाहरणों के आधार पर अनुमान लगाते हैं.

सेमी-सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग में, ट्रेनिंग के दौरान बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

बिना लेबल वाले उदाहरण की तुलना लेबल वाले उदाहरण से करें.

अनसुपरवाइज़्ड मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेन करना. आम तौर पर, यह बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे सामान्य इस्तेमाल, डेटा को मिलते-जुलते उदाहरणों के ग्रुप में क्लस्टर करने के लिए किया जाता है. उदाहरण के लिए, बिना निगरानी वाले मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गाने को क्लस्टर कर सकता है. इस तरह से बनाए गए क्लस्टर, मशीन लर्निंग के अन्य एल्गोरिदम के लिए इनपुट बन सकते हैं. उदाहरण के लिए, संगीत के सुझाव देने वाली सेवा के लिए. जब काम के लेबल कम हों या न हों, तब क्लस्टर करने की सुविधा से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी जैसे डोमेन में, क्लस्टर की मदद से, लोगों को डेटा को बेहतर तरीके से समझने में मदद मिल सकती है.

सुपरवाइज़्ड मशीन लर्निंग के साथ तुलना करें.

V

वैलिडेशन

#fundamentals

किसी मॉडल की क्वालिटी का शुरुआती आकलन. पुष्टि करने की सुविधा, पुष्टि करने के लिए उपलब्ध डेटा सेट के आधार पर, मॉडल के अनुमान की क्वालिटी की जांच करती है.

पुष्टि करने वाला सेट, ट्रेनिंग सेट से अलग होता है. इसलिए, पुष्टि करने से ओवरफ़िटिंग से बचा जा सकता है.

पुष्टि करने वाले सेट के आधार पर मॉडल का आकलन करने को, टेस्टिंग के पहले राउंड के तौर पर और टेस्ट सेट के आधार पर मॉडल का आकलन करने को, टेस्टिंग के दूसरे राउंड के तौर पर देखा जा सकता है.

वैलिडेशन लॉस

#fundamentals

यह एक मेट्रिक है, जो किसी खास इटरेशन के दौरान, पुष्टि करने वाले सेट पर मॉडल के लॉस को दिखाती है.

जनरलाइज़ेशन कर्व भी देखें.

पुष्टि करने वाला सेट

#fundamentals

डेटासेट का सबसेट, जो ट्रेन किए गए मॉडल के लिए शुरुआती आकलन करता है. आम तौर पर, टेस्ट सेट के आधार पर मॉडल का आकलन करने से पहले, ट्रेन किए गए मॉडल का आकलन कई बार पुष्टि करने वाले सेट के आधार पर किया जाता है.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से मौजूद सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण, ट्रेनिंग सेट और पुष्टि करने वाले सेट, दोनों में शामिल नहीं होना चाहिए.

W

वज़न का डेटा

#fundamentals

वह वैल्यू जिसे मॉडल किसी दूसरी वैल्यू से गुणा करता है. ट्रेनिंग, मॉडल के आदर्श वेट तय करने की प्रोसेस है. अनुमान, अनुमान लगाने के लिए, उन वेट का इस्तेमाल करने की प्रोसेस है जिन्हें मॉडल ने सीखा है.

वेटेड योग

#fundamentals

काम की सभी इनपुट वैल्यू का योग, जिनमें उनके वज़न को शामिल किया गया है. उदाहरण के लिए, मान लें कि काम के इनपुट में ये शामिल हैं:

इनपुट वैल्यू इनपुट वज़न
2 -1.3
-1 0.6
3 0.4

इसलिए, अहमियत के हिसाब से कुल वैल्यू यह होगी:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

अहमियत के हिसाब से जोड़ा गया योग, ऐक्टिवेशन फ़ंक्शन का इनपुट आर्ग्युमेंट होता है.

Z

ज़ेड-स्कोर नॉर्मलाइज़ेशन

#fundamentals

स्केलिंग की एक तकनीक, जो किसी रॉ फ़ीचर वैल्यू को फ़्लोटिंग-पॉइंट वैल्यू से बदलती है. यह वैल्यू, उस फ़ीचर के माध्य से स्टैंडर्ड डेविएशन की संख्या दिखाती है. उदाहरण के लिए, मान लें कि किसी सुविधा का औसत 800 है और उसका स्टैंडर्ड वैरिएशन 100 है. नीचे दी गई टेबल में दिखाया गया है कि Z-स्कोर नॉर्मलाइज़ेशन, रॉ वैल्यू को अपने Z-स्कोर पर कैसे मैप करेगा:

असल वैल्यू Z-स्कोर
800 0
950 +1.5
575 -2.25

इसके बाद, मशीन लर्निंग मॉडल, रॉ वैल्यू के बजाय उस सुविधा के लिए Z-स्कोर पर ट्रेनिंग करता है.