इस पेज का अनुवाद Cloud Translation API से किया गया है.

मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज पर, एमएल के बुनियादी सिद्धांतों से जुड़े शब्दों की शब्दावली दी गई है. सभी शब्दावली के लिए, यहां क्लिक करें.

A

सटीक

#fundamentals

#Metric

सही क्लासिफ़िकेशन अनुमानों की संख्या को अनुमानों की कुल संख्या से भाग देने पर यह स्कोर मिलता है. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, अगर किसी मॉडल ने 40 सही और 10 गलत अनुमान लगाए हैं, तो उसकी सटीकता इस तरह से कैलकुलेट की जाएगी:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन में, सही अनुमानों और गलत अनुमानों की अलग-अलग कैटगरी के लिए खास नाम दिए गए हैं. इसलिए, बाइनरी क्लासिफ़िकेशन के लिए सटीक नतीजे का फ़ॉर्मूला यह है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

टीपी, ट्रू पॉज़िटिव (सही अनुमान) की संख्या है.
TN, ट्रू नेगेटिव (सही अनुमान) की संख्या है.
एफ़पी, फ़ॉल्स पॉज़िटिव (गलत अनुमान) की संख्या है.
FN, फ़ॉल्स निगेटिव (गलत अनुमान) की संख्या है.

प्रिसिज़न और रीकॉल के साथ, सटीकता की तुलना करें और इनके बीच अंतर बताएं.

सटीकता और क्लास-इंबैलेंस वाले डेटासेट के बारे में ज़्यादा जानने के लिए, आइकॉन पर क्लिक करें.

कुछ मामलों में यह मेट्रिक काम की होती है, लेकिन अन्य मामलों में यह सटीक जानकारी नहीं देती. खास तौर पर, एक्यूरेसी आम तौर पर उन क्लासिफ़िकेशन मॉडल का आकलन करने के लिए एक खराब मेट्रिक होती है जो क्लास-इंबैलेंस वाले डेटासेट को प्रोसेस करते हैं.

उदाहरण के लिए, मान लें कि किसी उपोष्णकटिबंधीय शहर में, हर सदी में सिर्फ़ 25 दिन बर्फ़बारी होती है. इस शहर में, बर्फ़बारी वाले दिनों (पॉज़िटिव क्लास) की तुलना में बर्फ़बारी न होने वाले दिनों (नेगेटिव क्लास) की संख्या बहुत ज़्यादा है. इसलिए, इस शहर के लिए बर्फ़बारी का डेटासेट, क्लास-इंबैलेंस वाला है. मान लें कि एक बाइनरी क्लासिफ़िकेशन मॉडल है. इसे हर दिन यह अनुमान लगाना है कि बर्फ़बारी होगी या नहीं. हालांकि, यह हर दिन सिर्फ़ "बर्फ़बारी नहीं होगी" का अनुमान लगाता है. यह मॉडल बहुत सटीक है, लेकिन इसमें अनुमान लगाने की क्षमता नहीं है. यहां दी गई टेबल में, 100 साल के अनुमानों के नतीजों की खास जानकारी दी गई है:

कैटगरी	नंबर
TP	0
TN	36499
एफ़पी	0
FN	25

इसलिए, इस मॉडल के सटीक होने की संभावना यह है:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

हालांकि, 99.93% सटीकता का प्रतिशत बहुत अच्छा लगता है, लेकिन मॉडल में अनुमान लगाने की क्षमता नहीं है.

क्लास-इंबैलेंस वाले डेटासेट पर ट्रेन किए गए मॉडल का आकलन करने के लिए, सटीकता की तुलना में सटीक नतीजे और वापस बुलाना आम तौर पर ज़्यादा काम की मेट्रिक होती हैं.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: सटीक, रीकॉल, प्रेसिज़न, और इनसे जुड़ी मेट्रिक देखें.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

यह एक ऐसा फ़ंक्शन है जो न्यूरल नेटवर्क को सुविधाओं और लेबल के बीच नॉनलीनियर (जटिल) संबंधों को समझने में मदद करता है.

लोकप्रिय ऐक्टिवेशन फ़ंक्शन में ये शामिल हैं:

ReLU
Sigmoid

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी सीधी लाइनें नहीं होते. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में दो सीधी लाइनें होती हैं:

दो लाइनों का कार्टेशियन प्लॉट. पहली लाइन में y की वैल्यू 0 है. यह x-ऐक्सिस पर -इनफ़िनिटी,0 से 0,-0 तक जाती है.
दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है. इसलिए, यह 0,0 से लेकर +इनफ़िनिटी,+इनफ़िनिटी तक जाती है.

सिगमॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

यह दो डाइमेंशन वाला घुमावदार प्लॉट है. इसमें x की वैल्यू, डोमेन -इनफ़िनिटी से +पॉज़िटिव तक होती है. वहीं, y की वैल्यू, लगभग 0 से लगभग 1 तक होती है. जब x की वैल्यू 0 होती है, तब y की वैल्यू 0.5 होती है. वक्र का ढलान हमेशा पॉज़िटिव होता है. 0 और 0.5 पर सबसे ज़्यादा ढलान होता है. साथ ही, x की ऐब्सलूट वैल्यू बढ़ने पर ढलान धीरे-धीरे कम होता जाता है.

उदाहरण देखने के लिए, आइकॉन पर क्लिक करें.

न्यूरल नेटवर्क में, ऐक्टिवेशन फ़ंक्शन, न्यूरॉन के सभी इनपुट के वेटेड सम में बदलाव करते हैं. वेटेड सम का हिसाब लगाने के लिए, न्यूरॉन काम की वैल्यू और वेट के प्रॉडक्ट को जोड़ता है. उदाहरण के लिए, मान लें कि किसी न्यूरॉन के लिए ज़रूरी इनपुट में यह जानकारी शामिल है:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, वज़न के हिसाब से कुल स्कोर यह होगा:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

मान लें कि इस न्यूरल नेटवर्क का डिज़ाइनर, ऐक्टिवेशन फ़ंक्शन के तौर पर सिग्मॉइड फ़ंक्शन को चुनता है. इस मामले में, न्यूरॉन -2.0 के सिग्मॉइड की गणना करता है, जो कि करीब 0.12 है. इसलिए, न्यूरॉन न्यूरल नेटवर्क की अगली लेयर को -2.0 के बजाय 0.12 पास करता है. इस इमेज में, प्रोसेस का ज़रूरी हिस्सा दिखाया गया है:

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: ऐक्टिवेशन फ़ंक्शन देखें.

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

ऐसा प्रोग्राम या मॉडल जो इंसान नहीं है और मुश्किल टास्क हल कर सकता है. उदाहरण के लिए, टेक्स्ट का अनुवाद करने वाला प्रोग्राम या मॉडल या रेडियोलॉजिकल इमेज से बीमारियों का पता लगाने वाला प्रोग्राम या मॉडल, दोनों में आर्टिफ़िशियल इंटेलिजेंस का इस्तेमाल किया जाता है.

आधिकारिक तौर पर, मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक उप-क्षेत्र है. हालांकि, हाल के वर्षों में कुछ संगठन, आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग शब्दों का इस्तेमाल एक-दूसरे की जगह कर रहे हैं.

AUC (आरओसी कर्व के नीचे का हिस्सा)

#fundamentals

#Metric

यह 0.0 से 1.0 के बीच की एक संख्या होती है. यह बाइनरी क्लासिफ़िकेशन मॉडल की, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता को दिखाती है. एयूसी की वैल्यू 1.0 के जितनी ज़्यादा करीब होगी, मॉडल की परफ़ॉर्मेंस उतनी ही बेहतर होगी.

उदाहरण के लिए, यहां दी गई इमेज में एक क्लासिफ़िकेशन मॉडल दिखाया गया है. यह पॉज़िटिव क्लास (हरे रंग के ओवल) को नेगेटिव क्लास (बैंगनी रंग के आयत) से अलग करता है. इस मॉडल का एयूसी 1.0 है, जो कि काफ़ी अच्छा है:

एक संख्या रेखा, जिसमें एक तरफ़ 8 पॉज़िटिव उदाहरण और दूसरी तरफ़ 9 नेगेटिव उदाहरण दिए गए हैं.

इसके उलट, यहां दिए गए उदाहरण में, क्लासिफ़िकेशन मॉडल के नतीजे दिखाए गए हैं. इस मॉडल ने रैंडम नतीजे जनरेट किए हैं. इस मॉडल का एयूसी 0.5 है:

एक संख्या रेखा, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण दिए गए हैं.
उदाहरणों का क्रम पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव है.

हां, पिछले मॉडल का एयूसी 0.5 है, न कि 0.0.

ज़्यादातर मॉडल, इन दोनों के बीच में कहीं होते हैं. उदाहरण के लिए, यहां दिया गया मॉडल, पॉज़िटिव और नेगेटिव वैल्यू को कुछ हद तक अलग करता है. इसलिए, इसका एयूसी 0.5 और 1.0 के बीच है:

एक संख्या रेखा, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण दिए गए हैं.
उदाहरणों का क्रम इस तरह है: नकारात्मक, नकारात्मक, नकारात्मक, नकारात्मक, सकारात्मक, नकारात्मक, सकारात्मक, सकारात्मक, नकारात्मक, सकारात्मक, सकारात्मक, सकारात्मक.

एयूसी, क्लासिफ़िकेशन थ्रेशोल्ड के लिए सेट की गई किसी भी वैल्यू को अनदेखा करता है. इसके बजाय, एयूसी, क्लासिफ़िकेशन के सभी संभावित थ्रेशोल्ड पर विचार करता है.

एयूसी और आरओसी कर्व के बीच के संबंध के बारे में जानने के लिए, आइकॉन पर क्लिक करें.

AUC, ROC कर्व के नीचे के क्षेत्र को दिखाता है. उदाहरण के लिए, किसी ऐसे मॉडल के लिए आरओसी कर्व यहां दिया गया है जो पॉज़िटिव और नेगेटिव को पूरी तरह से अलग करता है:

एयूसी, ऊपर दिए गए इलस्ट्रेशन में ग्रे रंग वाला हिस्सा है. इस खास मामले में, क्षेत्रफल निकालने के लिए ग्रे क्षेत्र की लंबाई (1.0) को ग्रे क्षेत्र की चौड़ाई (1.0) से गुणा किया जाता है. इसलिए, 1.0 और 1.0 का प्रॉडक्ट, एयूसी के तौर पर ठीक 1.0 देता है. यह एयूसी का सबसे ज़्यादा स्कोर है.

इसके उलट, क्लासिफ़िकेशन मॉडल के लिए आरओसी कर्व, क्लास को अलग नहीं कर सकता. यह इस तरह दिखता है. इस ग्रे रंग के क्षेत्र का क्षेत्रफल 0.5 है.

एक सामान्य आरओसी कर्व, कुछ ऐसा दिखता है:

इस कर्व के नीचे के एरिया का हिसाब मैन्युअल तरीके से लगाना मुश्किल होता है. इसलिए, आम तौर पर कोई प्रोग्राम ज़्यादातर एयूसी वैल्यू का हिसाब लगाता है.

एयूसी की ज़्यादा औपचारिक परिभाषा के लिए, आइकॉन पर क्लिक करें.

एयूसी, इस बात की संभावना है कि क्लासिफ़िकेशन मॉडल को इस बात का ज़्यादा भरोसा होगा कि रैंडम तरीके से चुना गया पॉज़िटिव उदाहरण, असल में पॉज़िटिव है. इसके बजाय, रैंडम तरीके से चुना गया नेगेटिव उदाहरण पॉज़िटिव है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: आरओसी और एयूसी देखें.

B

बैकप्रॉपैगेशन

#fundamentals

यह एल्गोरिदम, न्यूरल नेटवर्क में ग्रेडिएंट डिसेंट को लागू करता है.

न्यूरल नेटवर्क को ट्रेन करने में, दो पास वाले साइकल के कई इटरेशन शामिल होते हैं. ये इटरेशन इस तरह से होते हैं:

फ़ॉरवर्ड पास के दौरान, सिस्टम उदाहरणों के बैच को प्रोसेस करता है, ताकि अनुमान लगाया जा सके. सिस्टम, हर अनुमान की तुलना हर लेबल वैल्यू से करता है. अनुमानित वैल्यू और लेबल की वैल्यू के बीच के अंतर को उस उदाहरण के लिए लॉस कहा जाता है. सिस्टम, सभी उदाहरणों के लिए नुकसान को इकट्ठा करता है, ताकि मौजूदा बैच के लिए कुल नुकसान का हिसाब लगाया जा सके.
बैकवर्ड पास (बैकप्रॉपैगेशन) के दौरान, सिस्टम सभी हिडन लेयर में मौजूद सभी न्यूरॉन के वेट को अडजस्ट करके, नुकसान को कम करता है.

न्यूरल नेटवर्क में, अक्सर कई हिडन लेयर में कई न्यूरॉन होते हैं. उनमें से हर न्यूरॉन, कुल नुकसान में अलग-अलग तरीके से योगदान देता है. बैकप्रॉपैगेशन से यह तय किया जाता है कि किसी न्यूरॉन पर लागू किए गए वेट को बढ़ाना है या घटाना है.

लर्निंग रेट एक मल्टीप्लायर होता है. यह कंट्रोल करता है कि हर बैकवर्ड पास, हर वेट को किस हद तक बढ़ाता या घटाता है. ज़्यादा लर्निंग रेट होने पर, हर वेट में कम लर्निंग रेट की तुलना में ज़्यादा बढ़ोतरी या गिरावट होगी.

कैलकुलस के हिसाब से, बैकप्रॉपैगेशन में कैलकुलस का चेन रूल लागू होता है. इसका मतलब है कि बैकप्रॉपैगेशन, हर पैरामीटर के हिसाब से गड़बड़ी के आंशिक अवकलज का हिसाब लगाता है.

कुछ साल पहले, एमएल प्रैक्टिशनर को बैकप्रॉपैगेशन लागू करने के लिए कोड लिखना पड़ता था. Keras जैसे आधुनिक एमएल एपीआई, अब आपके लिए बैकप्रोपैगेशन लागू करते हैं. वाह!

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

बैच

#fundamentals

एक ट्रेनिंग इटरेशन में इस्तेमाल किए गए उदाहरणों का सेट. बैच साइज़ से यह तय होता है कि किसी बैच में कितने उदाहरण होंगे.

बैच, युग से कैसे जुड़ा होता है, यह जानने के लिए युग देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: हाइपरपैरामीटर देखें.

बैच का आकार

#fundamentals

किसी बैच में उदाहरणों की संख्या. उदाहरण के लिए, अगर बैच का साइज़ 100 है, तो मॉडल हर इटरेशन में 100 उदाहरणों को प्रोसेस करता है.

बैच के साइज़ के लिए, यहां कुछ लोकप्रिय रणनीतियां दी गई हैं:

स्टोकास्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच का साइज़ 1 होता है.
पूरा बैच, जिसमें बैच का साइज़ पूरे ट्रेनिंग सेट में मौजूद उदाहरणों की संख्या होती है. उदाहरण के लिए, अगर ट्रेनिंग सेट में 10 लाख उदाहरण शामिल हैं, तो बैच का साइज़ 10 लाख उदाहरणों का होगा. पूरे बैच को प्रोसेस करना, आम तौर पर एक असरदार रणनीति नहीं होती.
मिनी-बैच, जिसमें बैच का साइज़ आम तौर पर 10 से 1,000 के बीच होता है. मिनी-बैच, आम तौर पर सबसे असरदार रणनीति होती है.

ज़्यादा जानकारी के लिए, यहां देखें:

पक्षपात (नीतिशास्त्र/निष्पक्षता)

#responsible

#fundamentals

1. किसी चीज़, व्यक्ति या ग्रुप को दूसरों से बेहतर बताना या उनके बारे में पूर्वाग्रह रखना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसकी व्याख्या करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम से इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के पूर्वाग्रह के उदाहरणों में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से हुई सिस्टमैटिक गड़बड़ी. इस तरह के पूर्वाग्रह के उदाहरणों में ये शामिल हैं:

इसे मशीन लर्निंग मॉडल में मौजूद बायस टर्म या पूर्वानुमान में भेदभाव से भ्रमित नहीं होना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.

बायस (गणित) या बायस टर्म

#fundamentals

किसी मूल बिंदु से इंटरसेप्ट या ऑफ़सेट. गड़बड़ी, मशीन लर्निंग मॉडल में एक पैरामीटर होता है. इसे इनमें से किसी भी तरीके से दिखाया जाता है:

b
w₀

उदाहरण के लिए, इस फ़ॉर्मूले में b, बायस है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

आसान शब्दों में कहें, तो दो डाइमेंशन वाली लाइन में बायस का मतलब "y-इंटरसेप्ट" होता है. उदाहरण के लिए, इस इलस्ट्रेशन में लाइन का झुकाव 2 है.

इस इमेज में, 0.5 के स्लोप और 2 के बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट दिखाया गया है.

बायस इसलिए मौजूद है, क्योंकि सभी मॉडल ओरिजन (0,0) से शुरू नहीं होते. उदाहरण के लिए, मान लें कि किसी अम्यूज़मेंट पार्क में जाने का शुल्क 200 रुपये है.इसके अलावा, हर घंटे के लिए 50 रुपये का अतिरिक्त शुल्क लगता है. इसलिए, कुल लागत को मैप करने वाले मॉडल में 2 का पूर्वाग्रह होता है, क्योंकि सबसे कम लागत 2 यूरो है.

पूर्वाग्रह को नैतिकता और निष्पक्षता में पूर्वाग्रह या अनुमान में पूर्वाग्रह से भ्रमित नहीं होना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

बाइनरी क्लासिफ़िकेशन

#fundamentals

यह वर्गीकरण टास्क का एक टाइप है. इसमें दो में से किसी एक क्लास के बारे में अनुमान लगाया जाता है:

पॉज़िटिव क्लास
नेगेटिव क्लास

उदाहरण के लिए, यहां दिए गए दोनों मशीन लर्निंग मॉडल, बाइनरी क्लासिफ़िकेशन करते हैं:

यह मॉडल यह तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) हैं या स्पैम नहीं हैं (नेगेटिव क्लास).
एक ऐसा मॉडल जो चिकित्सा से जुड़े लक्षणों का आकलन करता है. इससे यह पता चलता है कि किसी व्यक्ति को कोई खास बीमारी (पॉज़िटिव क्लास) है या नहीं (नेगेटिव क्लास).

इसकी तुलना मल्टी-क्लास क्लासिफ़िकेशन से करें.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में वर्गीकरण देखें.

बकेटिंग

#fundamentals

किसी एक फ़ीचर को कई बाइनरी फ़ीचर में बदलना. इन्हें बकेट या बिन कहा जाता है. आम तौर पर, यह वैल्यू की रेंज के आधार पर किया जाता है. आम तौर पर, काटी गई सुविधा एक लगातार चलने वाली सुविधा होती है.

उदाहरण के लिए, तापमान को एक फ़्लोटिंग-पॉइंट फ़ीचर के तौर पर दिखाने के बजाय, तापमान की रेंज को अलग-अलग बकेट में बांटा जा सकता है. जैसे:

<= 10 डिग्री सेल्सियस को "ठंडा" बकेट में रखा जाएगा.
11 से 24 डिग्री सेल्सियस के बीच के तापमान को "सामान्य" बकेट में रखा जाएगा.
>= 25 डिग्री सेल्सियस को "गर्म" बकेट में रखा जाएगा.

मॉडल, एक ही बकेट में मौजूद हर वैल्यू को एक जैसा मानेगा. उदाहरण के लिए, 13 और 22, दोनों वैल्यू को सामान्य बकेट में रखा गया है. इसलिए, मॉडल इन दोनों वैल्यू को एक जैसा मानता है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

अगर तापमान को लगातार बदलने वाली सुविधा के तौर पर दिखाया जाता है, तो मॉडल तापमान को एक सुविधा के तौर पर मानता है. अगर तापमान को तीन बकेट के तौर पर दिखाया जाता है, तो मॉडल हर बकेट को एक अलग सुविधा के तौर पर देखता है. इसका मतलब है कि मॉडल, हर बकेट के लेबल के साथ अलग-अलग संबंध सीख सकता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल, हर बकेट के लिए अलग-अलग वज़न के बारे में जान सकता है.

बकेट की संख्या बढ़ाने से, आपका मॉडल ज़्यादा जटिल हो जाता है. ऐसा इसलिए होता है, क्योंकि आपके मॉडल को ज़्यादा संबंधों के बारे में सीखना पड़ता है. उदाहरण के लिए, ठंडा, सामान्य, और गर्म बकेट, आपके मॉडल को ट्रेनिंग देने के लिए तीन अलग-अलग सुविधाएं हैं. अगर आपको दो और बकेट जोड़नी हैं, जैसे कि फ़्रीज़िंग और हॉट, तो आपके मॉडल को अब पांच अलग-अलग सुविधाओं के हिसाब से ट्रेनिंग देनी होगी.

आपको कैसे पता चलेगा कि कितने बकेट बनाने हैं या हर बकेट के लिए रेंज क्या होनी चाहिए? आम तौर पर, जवाबों के लिए काफ़ी एक्सपेरिमेंट करने की ज़रूरत होती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में संख्यात्मक डेटा: बिनिंग देखें.

C

कैटगोरिकल डेटा

#fundamentals

सुविधाएं, जिनमें संभावित वैल्यू का कोई खास सेट होता है. उदाहरण के लिए, traffic-light-state नाम की कैटगरी वाली सुविधा पर विचार करें. इसकी सिर्फ़ तीन वैल्यू हो सकती हैं:

red
yellow
green

traffic-light-state को कैटगरी के हिसाब से तय की गई सुविधा के तौर पर दिखाने से, मॉडल यह जान सकता है कि ड्राइवर के व्यवहार पर red, green, और yellow का क्या असर पड़ता है.

कैटगोरिकल फ़ीचर को कभी-कभी डिसक्रीट फ़ीचर भी कहा जाता है.

संख्यात्मक डेटा से तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी में बांटे गए डेटा का इस्तेमाल करना लेख पढ़ें.

क्लास

#fundamentals

वह कैटगरी जिससे कोई लेबल जुड़ा हो सकता है. उदाहरण के लिए:

स्पैम का पता लगाने वाले बाइनरी क्लासिफ़िकेशन मॉडल में, दो क्लास स्पैम और स्पैम नहीं है हो सकती हैं.
मल्टी-क्लास क्लासिफ़िकेशन मॉडल में, कुत्ते की नस्लों की पहचान की जाती है. इसमें क्लास पूडल, बीगल, पग वगैरह हो सकती हैं.

क्लासिफ़िकेशन मॉडल किसी क्लास का अनुमान लगाता है. इसके उलट, रिग्रेशन मॉडल, क्लास के बजाय किसी संख्या का अनुमान लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में वर्गीकरण देखें.

क्लासिफ़िकेशन मॉडल

#fundamentals

ऐसा मॉडल जिसका अनुमान, क्लास होता है. उदाहरण के लिए, यहां दिए गए सभी क्लासिफ़िकेशन मॉडल हैं:

ऐसा मॉडल जो किसी इनपुट वाक्य की भाषा का अनुमान लगाता है (क्या यह फ़्रेंच है? स्पैनिश? इटैलियन?).
ऐसा मॉडल जो पेड़ की प्रजातियों का अनुमान लगाता है (मेपल? ओक? बेओबैब?).
ऐसा मॉडल जो किसी खास बीमारी के लिए पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है.

इसके उलट, रिग्रेशन मॉडल क्लास के बजाय संख्याओं का अनुमान लगाते हैं.

आम तौर पर, क्लासिफ़िकेशन मॉडल दो तरह के होते हैं:

बाइनरी क्लासिफ़िकेशन
मल्टी-क्लास क्लासिफ़िकेशन

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 से 1 के बीच की कोई संख्या, लॉजिस्टिक रिग्रेशन मॉडल के रॉ आउटपुट को पॉज़िटिव क्लास या नेगेटिव क्लास के अनुमान में बदलती है. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड एक ऐसी वैल्यू होती है जिसे कोई व्यक्ति चुनता है. यह मॉडल ट्रेनिंग के दौरान चुनी गई वैल्यू नहीं होती.

लॉजिस्टिक रिग्रेशन मॉडल, 0 और 1 के बीच की रॉ वैल्यू दिखाता है. इसके बाद:

अगर यह रॉ वैल्यू, क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो पॉज़िटिव क्लास का अनुमान लगाया जाता है.
अगर यह रॉ वैल्यू, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लें कि क्लासिफ़िकेशन थ्रेशोल्ड 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल नेगेटिव क्लास का अनुमान लगाता है.

क्लासिफ़िकेशन थ्रेशोल्ड चुनने से, फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव की संख्या पर काफ़ी असर पड़ता है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

मॉडल या डेटासेट में बदलाव होने पर, इंजीनियर कभी-कभी क्लासिफ़िकेशन थ्रेशोल्ड में भी बदलाव करते हैं. क्लासिफ़िकेशन थ्रेशोल्ड में बदलाव होने पर, पॉज़िटिव क्लास के अनुमान अचानक नेगेटिव क्लास में बदल सकते हैं. इसके उलट भी हो सकता है.

उदाहरण के लिए, बीमारी का अनुमान लगाने वाले बाइनरी क्लासिफ़िकेशन मॉडल पर विचार करें. मान लें कि सिस्टम के पहले साल में:

किसी मरीज़ के लिए रॉ वैल्यू 0.95 है.
क्लासिफ़िकेशन थ्रेशोल्ड 0.94 है.

इसलिए, सिस्टम पॉज़िटिव क्लास का पता लगाता है. (मरीज़ हांफ़ता है, "ओह नहीं! मुझे बुखार है!")

एक साल बाद, शायद वैल्यू इस तरह दिखें:

एक ही मरीज़ के लिए रॉ वैल्यू 0.95 पर बनी रहती है.
क्लासिफ़िकेशन थ्रेशोल्ड बदलकर 0.97 हो जाता है.

इसलिए, सिस्टम अब उस मरीज़ को नेगेटिव क्लास के तौर पर फिर से क्लासिफ़ाई करता है. ("Happy day! मुझे कोई बीमारी नहीं है.") एक ही मरीज़. अलग-अलग डाइग्नोसिस.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में थ्रेशोल्ड और कन्फ़्यूज़न मैट्रिक्स देखें.

डेटा की कैटगरी तय करने वाला

#fundamentals

क्लासिफ़िकेशन मॉडल के लिए इस्तेमाल किया जाने वाला सामान्य शब्द.

क्लास-इंबैलेंस वाला डेटासेट

#fundamentals

क्लासिफ़िकेशन के लिए डेटासेट, जिसमें हर क्लास के लेबल की कुल संख्या में काफ़ी अंतर होता है. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन वाले किसी डेटासेट पर विचार करें. इसके दो लेबल इस तरह बांटे गए हैं:

10,00,000 नेगेटिव लेबल
10 पॉज़िटिव लेबल

नेगेटिव और पॉज़िटिव लेबल का अनुपात 100,000 से 1 है. इसलिए, यह क्लास-इंबैलेंस वाला डेटासेट है.

इसके उलट, यहां दिया गया डेटासेट क्लास-बैलेंस है, क्योंकि नेगेटिव लेबल और पॉज़िटिव लेबल का अनुपात 1 के आस-पास है:

517 नेगेटिव लेबल
483 पॉज़िटिव लेबल

मल्टी-क्लास डेटासेट में क्लास का बैलेंस भी बिगड़ा हो सकता है. उदाहरण के लिए, यहां दिया गया मल्टी-क्लास क्लासिफ़िकेशन डेटासेट भी क्लास के असंतुलन वाला है. ऐसा इसलिए, क्योंकि एक लेबल के उदाहरण, अन्य दो लेबल के मुकाबले काफ़ी ज़्यादा हैं:

"green" क्लास वाले 10,00,000 लेबल
"बैंगनी" क्लास वाले 200 लेबल
"ऑरेंज" क्लास वाले 350 लेबल

ट्रेनिंग के लिए, क्लास-इंबैलेंस वाले डेटासेट में खास चुनौतियां आ सकती हैं. ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट में क्लास का बंटवारा सही न होना देखें.

एंट्रॉपी, मेजर क्लास}, और माइनर क्लास के बारे में भी जानें.

क्लिपिंग

#fundamentals

यह आउटलायर को मैनेज करने का एक तरीका है. इसके तहत, इनमें से कोई एक या दोनों काम किए जाते हैं:

सुविधा की उन वैल्यू को कम करना जो ज़्यादा से ज़्यादा थ्रेशोल्ड से ज़्यादा हैं. इन वैल्यू को ज़्यादा से ज़्यादा थ्रेशोल्ड तक कम किया जाता है.
सुविधा की उन वैल्यू को बढ़ाना जो कम से कम थ्रेशोल्ड से कम हैं.

उदाहरण के लिए, मान लें कि किसी सुविधा के लिए, 0.5% से कम वैल्यू, 40 से 60 के बीच की सीमा से बाहर हैं. इस मामले में, ये काम किए जा सकते हैं:

60 से ज़्यादा की सभी वैल्यू को 60 पर सेट करें.
40 से कम (कम से कम थ्रेशोल्ड) वाली सभी वैल्यू को 40 पर सेट करें.

आउटलायर, मॉडल को नुकसान पहुंचा सकते हैं. कभी-कभी, ट्रेनिंग के दौरान वज़न ज़्यादा हो जाते हैं. कुछ आउटलायर, सटीकता जैसी मेट्रिक को भी काफ़ी हद तक खराब कर सकते हैं. क्लिपिंग, नुकसान को कम करने का एक सामान्य तरीका है.

ग्रेडिएंट क्लिपिंग, ट्रेनिंग के दौरान ग्रेडिएंट की वैल्यू को तय की गई रेंज में रखती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में संख्यात्मक डेटा: सामान्य बनाना देखें.

कन्फ़्यूज़न मैट्रिक्स

#fundamentals

यह NxN टेबल होती है. इसमें क्लासिफ़िकेशन मॉडल के सही और गलत अनुमानों की संख्या के बारे में खास जानकारी दी जाती है. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल के लिए, यहां दी गई कन्फ़्यूज़न मैट्रिक्स देखें:

	ट्यूमर (अनुमानित)	नॉन-ट्यूमर (अनुमानित)
ट्यूमर (ग्राउंड ट्रुथ)	18 (TP)	1 (FN)
ट्यूमर नहीं है (असल डेटा)	6 (FP)	452 (TN)

ऊपर दी गई कन्फ़्यूज़न मैट्रिक्स में यह जानकारी दिखती है:

जिन 19 अनुमानों में ग्राउंड ट्रुथ ट्यूमर था उनमें से मॉडल ने 18 को सही और 1 को गलत तरीके से क्लासिफ़ाई किया.
458 अनुमानों में से, मॉडल ने 452 अनुमानों को सही तरीके से और 6 अनुमानों को गलत तरीके से क्लासिफ़ाई किया. इन अनुमानों में, ग्राउंड ट्रुथ के तौर पर नॉन-ट्यूमर की जानकारी दी गई थी.

मल्टी-क्लास क्लासिफ़िकेशन की समस्या के लिए कन्फ़्यूज़न मैट्रिक्स की मदद से, गलतियों के पैटर्न की पहचान की जा सकती है. उदाहरण के लिए, तीन क्लास वाले मल्टी-क्लास क्लासिफ़िकेशन मॉडल के लिए, यहां दी गई कन्फ़्यूज़न मैट्रिक्स देखें. यह मॉडल, आइरिस की तीन अलग-अलग प्रजातियों (वर्जिनिका, वर्सीकलर, और सेटोसा) को कैटगरी में बांटता है. जब ग्राउंड ट्रुथ वर्जिनिका था, तब कन्फ़्यूज़न मैट्रिक्स से पता चलता है कि मॉडल ने सेटोसा के मुकाबले वर्सिकलर का अनुमान ज़्यादा गलत तरीके से लगाया:

	सेटोज़ा (अनुमानित)	वर्सीकलर (अनुमानित)	वर्जिनिका (अनुमानित)
सेटोज़ा (ग्राउंड ट्रूथ)	88	12	0
वर्सीकलर (ग्राउंड ट्रुथ)	6	141	7
वर्जिनिका (ग्राउंड ट्रुथ)	2	27	109

एक और उदाहरण के तौर पर, कन्फ़्यूज़न मैट्रिक्स से पता चल सकता है कि हाथ से लिखे गए अंकों को पहचानने के लिए ट्रेन किए गए मॉडल में, 4 की जगह 9 या 7 की जगह 1 का अनुमान लगाने की गड़बड़ी होती है.

कन्फ़्यूज़न मैट्रिक्स में, परफ़ॉर्मेंस की अलग-अलग मेट्रिक का हिसाब लगाने के लिए ज़रूरी जानकारी होती है. इनमें सटीकता और रिकॉल शामिल हैं.

लगातार काम करने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट सुविधा, जिसमें वैल्यू की रेंज बहुत ज़्यादा होती है. जैसे, तापमान या वज़न.

इसकी तुलना डिस्क्रीट फ़ीचर से करें.

कन्वर्जेंस

#fundamentals

यह ऐसी स्थिति होती है, जब हर इटरेशन के साथ नुकसान की वैल्यू में बहुत कम बदलाव होता है या कोई बदलाव नहीं होता. उदाहरण के लिए, यहां दिया गया लॉस कर्व, करीब 700 इटरेशन पर कन्वर्जेंस का सुझाव देता है:

कार्टीज़ियन प्लॉट. X-ऐक्सिस मौजूद नहीं है. Y-ऐक्सिस, ट्रेनिंग के इटरेशन की संख्या है. पहले कुछ इटरेशन के दौरान नुकसान बहुत ज़्यादा होता है, लेकिन
इसमें तेज़ी से गिरावट आती है. लगभग 100 बार दोहराने के बाद भी, नुकसान कम हो रहा है. हालांकि, यह काफ़ी धीरे-धीरे हो रहा है. लगभग 700 इटरेशन के बाद,
लॉस में कोई बदलाव नहीं होता.

जब ज़्यादा ट्रेनिंग देने से मॉडल में सुधार नहीं होता, तो उसे कन्वर्जेंस कहा जाता है.

डीप लर्निंग में, लॉस वैल्यू कभी-कभी कई इटरेशन के लिए स्थिर रहती हैं या आखिर में कम होने से पहले लगभग स्थिर रहती हैं. लंबे समय तक नुकसान की वैल्यू में लगातार बढ़ोतरी होने पर, आपको कुछ समय के लिए कन्वर्जेंस का गलत अनुमान मिल सकता है.

जल्दी रोकना भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में मॉडल कन्वर्जेंस और लॉस कर्व देखें.

D

DataFrame

#fundamentals

यह pandas का एक लोकप्रिय डेटा टाइप है. इसका इस्तेमाल मेमोरी में डेटासेट को दिखाने के लिए किया जाता है.

डेटाफ़्रेम, टेबल या स्प्रेडशीट की तरह होता है. डेटाफ़्रेम के हर कॉलम का एक नाम (हेडर) होता है. साथ ही, हर लाइन की पहचान एक यूनीक नंबर से होती है.

डेटाफ़्रेम में मौजूद हर कॉलम को 2D ऐरे की तरह स्ट्रक्चर किया जाता है. हालांकि, हर कॉलम को उसका डेटा टाइप असाइन किया जा सकता है.

आधिकारिक pandas.DataFrame रेफ़रंस पेज भी देखें.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन. आम तौर पर (लेकिन सिर्फ़) इसे इनमें से किसी एक फ़ॉर्मैट में व्यवस्थित किया जाता है:

स्प्रेडशीट
CSV (कॉमा लगाकर अलग की गई वैल्यू) फ़ॉर्मैट वाली फ़ाइल

डीप मॉडल

#fundamentals

एक न्यूरल नेटवर्क, जिसमें एक से ज़्यादा हिडन लेयर होती हैं.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

इसकी तुलना वाइड मॉडल से करें.

डेंस फ़ीचर

#fundamentals

यह एक सुविधा है, जिसमें ज़्यादातर या सभी वैल्यू शून्य नहीं होती हैं. आम तौर पर, यह फ़्लोटिंग-पॉइंट वैल्यू का टेंसर होता है. उदाहरण के लिए, नीचे दिया गया 10 एलिमेंट वाला टेंसर डेंस है, क्योंकि इसकी 9 वैल्यू शून्य नहीं हैं:

इसकी तुलना विरल सुविधा से करें.

गहराई

#fundamentals

न्यूरल नेटवर्क में, इनका योग:

छिपी हुई लेयर की संख्या
आउटपुट लेयर की संख्या, जो आम तौर पर 1 होती है
किसी भी embedding layers की संख्या

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाले न्यूरल नेटवर्क की डेप्थ 6 होती है.

ध्यान दें कि इनपुट लेयर से डेप्थ पर कोई असर नहीं पड़ता.

डिस्क्रीट सुविधा

#fundamentals

ऐसी सुविधा जिसमें संभावित वैल्यू का एक सीमित सेट होता है. उदाहरण के लिए, ऐसी सुविधा जिसकी वैल्यू सिर्फ़ animal, vegetable या mineral हो सकती है, वह डिसक्रीट (या कैटगरी वाली) सुविधा होती है.

लगातार चलने वाली सुविधा से तुलना करें.

डाइनैमिक

#fundamentals

कोई काम जो अक्सर या लगातार किया जाता है. मशीन लर्निंग में, डाइनैमिक और ऑनलाइन शब्द एक ही मतलब रखते हैं. मशीन लर्निंग में, डाइनैमिक और ऑनलाइन का इस्तेमाल आम तौर पर इन कामों के लिए किया जाता है:

डाइनैमिक मॉडल (या ऑनलाइन मॉडल) एक ऐसा मॉडल होता है जिसे बार-बार या लगातार फिर से ट्रेन किया जाता है.
डाइनैमिक ट्रेनिंग (या ऑनलाइन ट्रेनिंग) का मतलब है कि मॉडल को लगातार या बार-बार ट्रेन किया जाता है.
डाइनैमिक इन्फ़रेंस (या ऑनलाइन इन्फ़रेंस) एक ऐसी प्रोसेस है जिसमें मांग के आधार पर अनुमान जनरेट किए जाते हैं.

डाइनैमिक मॉडल

#fundamentals

ऐसा मॉडल जिसे बार-बार (कभी-कभी लगातार भी) फिर से ट्रेन किया जाता है. डाइनैमिक मॉडल एक "लाइफ़लॉन्ग लर्नर" होता है, जो लगातार बदलते डेटा के हिसाब से खुद को ढालता रहता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल भी कहा जाता है.

इसकी तुलना स्टैटिक मॉडल से करें.

E

अर्ली स्टॉपिंग

#fundamentals

यह रेगुलराइज़ेशन का एक तरीका है. इसमें ट्रेनिंग को पहले ही रोक दिया जाता है, ताकि ट्रेनिंग लॉस कम हो सके. अर्ली स्टॉपिंग में, मॉडल को ट्रेनिंग देना जान-बूझकर तब बंद कर दिया जाता है, जब पुष्टि करने वाले डेटासेट पर नुकसान बढ़ने लगता है. इसका मतलब है कि जब सामान्यीकरण की परफ़ॉर्मेंस खराब होने लगती है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

ऐसा हो सकता है कि आपको यह अजीब लगे. आखिरकार, मॉडल को ट्रेनिंग रोकने के लिए कहना, तब तक सही नहीं है, जब तक लॉस कम हो रहा है. यह कुछ ऐसा है जैसे किसी शेफ़ को डेज़र्ट पूरी तरह से बेक होने से पहले ही खाना पकाना बंद करने के लिए कहना. हालांकि, किसी मॉडल को बहुत ज़्यादा समय तक ट्रेनिंग देने से ओवरफ़िटिंग हो सकती है. इसका मतलब है कि अगर किसी मॉडल को बहुत ज़्यादा समय तक ट्रेन किया जाता है, तो हो सकता है कि मॉडल, ट्रेनिंग डेटा के हिसाब से बहुत सटीक अनुमान लगाए. हालांकि, नए उदाहरणों के लिए मॉडल सही अनुमान न लगा पाए.

जल्दी बाहर निकलना से तुलना करें.

एंबेडिंग लेयर

#fundamentals

यह एक खास हिडन लेयर होती है. यह ज़्यादा डाइमेंशन वाली कैटेगरी सुविधा पर ट्रेनिंग देती है, ताकि कम डाइमेंशन वाले एंबेड किए जा रहे वेक्टर को धीरे-धीरे सीखा जा सके. एम्बेडिंग लेयर की मदद से, न्यूरल नेटवर्क को ट्रेनिंग देने में काफ़ी आसानी होती है. ऐसा सिर्फ़ हाई-डाइमेंशनल कैटगरी वाली सुविधा के आधार पर ट्रेनिंग देने की तुलना में होता है.

उदाहरण के लिए, Earth में फ़िलहाल करीब 73,000 तरह के पेड़ों की प्रजातियों की जानकारी उपलब्ध है. मान लें कि आपके मॉडल में पेड़ की प्रजाति एक सुविधा है. इसलिए, आपके मॉडल की इनपुट लेयर में 73,000 एलिमेंट वाला वन-हॉट वेक्टर शामिल है. उदाहरण के लिए, शायद baobab को इस तरह दिखाया जाएगा:

इसमें 73,000 एलिमेंट का कलेक्शन होता है. पहले 6,232 एलिमेंट की वैल्यू 0 है. अगले एलिमेंट की वैल्यू 1 है. आखिरी 66,767 एलिमेंट में शून्य वैल्यू होती है.

73,000 एलिमेंट वाला ऐरे बहुत लंबा होता है. अगर मॉडल में एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. ऐसा इसलिए होगा, क्योंकि 72,999 शून्य को गुणा करना होगा. ऐसा हो सकता है कि आपने एम्बेडिंग लेयर को 12 डाइमेंशन से मिलकर बनाने का विकल्प चुना हो. इसलिए, एंबेड करने की प्रोसेस को स्टोर करने के लिए बनी लेयर, हर तरह के पेड़ के लिए धीरे-धीरे एक नया एंबेडिंग वेक्टर सीखेगी.

कुछ स्थितियों में, हैशिंग, एम्बेडिंग लेयर का एक बेहतर विकल्प है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में एम्बेडिंग देखें.

epoch

#fundamentals

पूरे ट्रेनिंग सेट पर ट्रेनिंग पास की जाती है, ताकि हर उदाहरण को एक बार प्रोसेस किया जा सके.

एक इपॉक, N/बैच साइज़ ट्रेनिंग इटरेशन को दिखाता है. इसमें N, उदाहरणों की कुल संख्या है.

उदाहरण के लिए, मान लें कि:

इस डेटासेट में 1,000 उदाहरण शामिल हैं.
बैच का साइज़ 50 उदाहरणों का है.

इसलिए, एक इपॉक के लिए 20 बार दोहराना ज़रूरी है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

उदाहरण

#fundamentals

features की एक लाइन की वैल्यू और शायद label. सुपरवाइज़्ड लर्निंग के उदाहरणों को दो सामान्य कैटगरी में बाँटा जा सकता है:

लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. ट्रेनिंग के दौरान, लेबल किए गए उदाहरणों का इस्तेमाल किया जाता है.
बिना लेबल वाले उदाहरण में एक या उससे ज़्यादा सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. अनुमान लगाने के दौरान, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

उदाहरण के लिए, मान लें कि आपको एक मॉडल को इस तरह से ट्रेन करना है कि वह यह पता लगा सके कि मौसम की स्थितियों का छात्र-छात्राओं के टेस्ट स्कोर पर क्या असर पड़ता है. लेबल किए गए तीन उदाहरण यहां दिए गए हैं:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट का स्कोर
15	47	998	अच्छा
19	34	1020	बहुत बढ़िया
18	92	1012	खराब

यहां बिना लेबल वाले तीन उदाहरण दिए गए हैं:

तापमान	नमी	दबाव
12	62	1014
21	47	1017
19	41	1021

किसी उदाहरण के लिए, डेटासेट की लाइन आम तौर पर रॉ सोर्स होती है. इसका मतलब है कि उदाहरण में आम तौर पर, डेटासेट में मौजूद कॉलम का सबसेट शामिल होता है. इसके अलावा, उदाहरण में दी गई सुविधाओं में सिंथेटिक सुविधाएं भी शामिल हो सकती हैं. जैसे, फ़ీचर क्रॉस.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

F

फ़ॉल्स नेगेटिव (FN)

#fundamentals

#Metric

इस उदाहरण में, मॉडल ने गलती से नेगेटिव क्लास का अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास), लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (FP)

#fundamentals

#Metric

ऐसा उदाहरण जिसमें मॉडल, पॉज़िटिव क्लास के बारे में गलत अनुमान लगाता है. उदाहरण के लिए, मॉडल का अनुमान है कि कोई ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन वह ईमेल मैसेज असल में स्पैम नहीं है.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

#Metric

यह असल नेगेटिव उदाहरणों का अनुपात है जिनके लिए मॉडल ने गलती से पॉज़िटिव क्लास का अनुमान लगाया. यहां दिए गए फ़ॉर्मूले से, फ़ॉल्स पॉज़िटिव रेट का हिसाब लगाया जाता है:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में x-ऐक्सिस होता है.

सुविधा

#fundamentals

मशीन लर्निंग मॉडल के लिए इनपुट वैरिएबल. उदाहरण में एक या उससे ज़्यादा सुविधाएं होती हैं. उदाहरण के लिए, मान लीजिए कि आपको किसी मॉडल को इस तरह से ट्रेन करना है कि वह छात्र-छात्राओं के टेस्ट स्कोर पर मौसम की स्थितियों के असर का पता लगा सके. यहां दी गई टेबल में तीन उदाहरण दिए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल शामिल है:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट का स्कोर
15	47	998	92
19	34	1020	84
18	92	1012	87

लेबल से कंट्रास्ट.

सुविधा क्रॉस

#fundamentals

सिंथेटिक फ़ीचर, कैटगोरिकल या बकेटेड फ़ीचर को "क्रॉस" करके बनाई जाती है.

उदाहरण के लिए, "मौसम का पूर्वानुमान लगाने वाले" मॉडल पर विचार करें. यह मॉडल, तापमान को इन चार बकेट में से किसी एक में दिखाता है:

freezing
chilly
temperate
warm

साथ ही, हवा की रफ़्तार को इन तीन बकेट में से किसी एक में दिखाता है:

still
light
windy

फ़्रीक्वेंसी कैपिंग की सुविधा के बिना, लीनियर मॉडल पिछले सात अलग-अलग बकेट में से हर एक पर अलग से ट्रेन होता है. इसलिए, मॉडल को freezing के आधार पर ट्रेनिंग दी जाती है. हालांकि, windy के आधार पर ट्रेनिंग देने से मॉडल पर कोई असर नहीं पड़ता.

इसके अलावा, तापमान और हवा की रफ़्तार को मिलाकर एक नई सुविधा बनाई जा सकती है. इस सिंथेटिक फ़ीचर की ये 12 संभावित वैल्यू होंगी:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

फ़ीचर क्रॉस की वजह से, मॉडल को freezing-windy दिन और freezing-still दिन के मूड में अंतर का पता चल सकता है.

अगर आपने दो ऐसी सुविधाओं से कोई सिंथेटिक सुविधा बनाई है जिनमें अलग-अलग बकेट की संख्या बहुत ज़्यादा है, तो सुविधा क्रॉस में संभावित कॉम्बिनेशन की संख्या बहुत ज़्यादा होगी. उदाहरण के लिए, अगर एक सुविधा में 1,000 बकेट हैं और दूसरी सुविधा में 2,000 बकेट हैं, तो दोनों सुविधाओं को मिलाकर बनी सुविधा में 2,000,000 बकेट होंगी.

आसान शब्दों में कहें, तो क्रॉस एक कार्टीज़ियन प्रॉडक्ट है.

फ़्रीक्वेंसी क्रॉस का इस्तेमाल ज़्यादातर लीनियर मॉडल के साथ किया जाता है. इनका इस्तेमाल न्यूरल नेटवर्क के साथ बहुत कम किया जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटेगरी के हिसाब से डेटा: फ़ीचर क्रॉस देखें.

फ़ीचर इंजीनियरिंग

#fundamentals

#TensorFlow

यह एक ऐसी प्रोसेस है जिसमें ये चरण शामिल होते हैं:

यह तय करना कि मॉडल को ट्रेन करने के लिए, कौनसी सुविधाएं काम की हो सकती हैं.
डेटासेट के रॉ डेटा को उन सुविधाओं के बेहतर वर्शन में बदलना.

उदाहरण के लिए, आपको लग सकता है कि temperature एक काम की सुविधा है. इसके बाद, बकेटिंग का इस्तेमाल करके यह ऑप्टिमाइज़ किया जा सकता है कि मॉडल, अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी फ़ीचर एक्सट्रैक्शन या फ़ीचरराइज़ेशन भी कहा जाता है.

TensorFlow के बारे में ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

TensorFlow में, फ़ीचर इंजीनियरिंग का मतलब अक्सर रॉ लॉग फ़ाइल की एंट्री को tf.Example प्रोटोकॉल बफ़र में बदलना होता है. tf.Transform के बारे में भी जानें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में संख्यात्मक डेटा: मॉडल, फ़ीचर वेक्टर का इस्तेमाल करके डेटा को कैसे प्रोसेस करता है लेख पढ़ें.

सुविधाओं का सेट

#fundamentals

सुविधाओं का वह ग्रुप जिस पर आपका मशीन लर्निंग मॉडल ट्रेन होता है. उदाहरण के लिए, घर की कीमतों का अनुमान लगाने वाले मॉडल के लिए, सामान्य फ़ीचर सेट में पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति शामिल हो सकती है.

फ़ीचर वेक्टर

#fundamentals

feature वैल्यू की वह सरणी जिसमें example शामिल है. फ़ेचर वेक्टर को ट्रेनिंग और इनफ़रेंस के दौरान इनपुट किया जाता है. उदाहरण के लिए, दो डिस्क्रीट फ़ीचर वाले मॉडल के लिए फ़ीचर वेक्टर ऐसा हो सकता है:

[0.92, 0.56]

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.
इनपुट लेयर में दो नोड होते हैं. एक में वैल्यू 0.92 और दूसरे में वैल्यू 0.56 होती है.

हर उदाहरण में, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू दी गई हैं. इसलिए, अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ इस तरह का हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग से यह तय होता है कि फ़ीचर वेक्टर में फ़ीचर को कैसे दिखाया जाए. उदाहरण के लिए, पांच संभावित वैल्यू वाली बाइनरी कैटगोरिकल सुविधा को वन-हॉट एन्कोडिंग की मदद से दिखाया जा सकता है. इस मामले में, किसी उदाहरण के लिए फ़ीचर वेक्टर का हिस्सा, चार शून्य और तीसरी पोज़िशन में एक 1.0 होगा. यह इस तरह दिखेगा:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक और उदाहरण के तौर पर, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

एक बाइनरी कैटगरी वाली सुविधा, जिसकी पांच संभावित वैल्यू हैं. इन्हें वन-हॉट एन्कोडिंग की मदद से दिखाया गया है. उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
एक और बाइनरी कैटगरी वाली सुविधा, जिसकी तीन संभावित वैल्यू हैं. इन्हें वन-हॉट एन्कोडिंग की मदद से दिखाया गया है. उदाहरण के लिए: [0.0, 0.0, 1.0]
फ़्लोटिंग-पॉइंट फ़ीचर; उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को नौ वैल्यू से दिखाया जाएगा. ऊपर दी गई सूची में मौजूद उदाहरण वैल्यू के हिसाब से, फ़ीचर वेक्टर यह होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, ऐसी स्थिति जिसमें किसी मॉडल के अनुमान, उसी मॉडल या किसी दूसरे मॉडल के ट्रेनिंग डेटा पर असर डालते हैं. उदाहरण के लिए, फ़िल्मों का सुझाव देने वाला मॉडल, लोगों को दिखने वाली फ़िल्मों पर असर डालेगा. इसके बाद, यह फ़िल्मों का सुझाव देने वाले अन्य मॉडल पर असर डालेगा.

ज़्यादा जानकारी के लिए, Machine Learning Crash Course में प्रोडक्शन एमएल सिस्टम: पूछने लायक सवाल देखें.

G

सामान्यीकरण

#fundamentals

मॉडल की ऐसी क्षमता जिससे वह नए और पहले कभी न देखे गए डेटा के आधार पर सही अनुमान लगा सके. सामान्यीकरण करने वाला मॉडल, ओवरफ़िटिंग करने वाले मॉडल से अलग होता है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

ट्रेनिंग सेट में मौजूद उदाहरणों के आधार पर, मॉडल को ट्रेन किया जाता है. इसलिए, मॉडल ट्रेनिंग सेट में मौजूद डेटा की खास बातों को सीखता है. सामान्यीकरण का मतलब यह है कि क्या आपका मॉडल, ट्रेनिंग सेट में नहीं दिए गए उदाहरणों के आधार पर सही अनुमान लगा सकता है.

जनरलाइज़ेशन को बढ़ावा देने के लिए, रेगुलराइज़ेशन की मदद से मॉडल को ट्रेनिंग सेट में मौजूद डेटा की खास बातों के बारे में कम सटीक तरीके से ट्रेन किया जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में सामान्यीकरण देखें.

सामान्यीकरण कर्व

#fundamentals

इटरेशन की संख्या के आधार पर, ट्रेनिंग लॉस और वैलडेशन लॉस, दोनों का प्लॉट.

जनरलाइज़ेशन कर्व से, ओवरफ़िटिंग का पता लगाया जा सकता है. उदाहरण के लिए, यहां दिया गया सामान्यीकरण कर्व, ओवरफ़िटिंग के बारे में बताता है. ऐसा इसलिए, क्योंकि आखिर में पुष्टि करने के दौरान होने वाला नुकसान, ट्रेनिंग के दौरान होने वाले नुकसान से काफ़ी ज़्यादा हो जाता है.

कार्टिज़न ग्राफ़ में, y-ऐक्सिस को लॉस और x-ऐक्सिस को इटरेशन के तौर पर लेबल किया गया है. दो प्लॉट दिखते हैं. एक प्लॉट में ट्रेनिंग लॉस और दूसरे में पुष्टि करने से जुड़ा लॉस दिखता है.
दोनों प्लॉट की शुरुआत एक जैसी है, लेकिन ट्रेनिंग लॉस आखिर में, पुष्टि करने के लॉस से काफ़ी कम हो जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में सामान्यीकरण देखें.

ग्रेडिएंट डिसेंट

#fundamentals

यह एक गणितीय तकनीक है, जिसका इस्तेमाल नुकसान को कम करने के लिए किया जाता है. ग्रेडिएंट डिसेंट, वज़न और बायस को बार-बार अडजस्ट करता है. इससे, नुकसान को कम करने के लिए सबसे सही कॉम्बिनेशन धीरे-धीरे मिल जाता है.

ग्रेडिएंट डिसेंट, मशीन लर्निंग से बहुत पुराना है.

ज़्यादा जानकारी के लिए, Machine Learning Crash Course में लीनियर रिग्रेशन: ग्रेडिएंट डिसेंट देखें.

ग्राउंड ट्रूथ

#fundamentals

रियलिटी.

असल में क्या हुआ.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल पर विचार करें. यह मॉडल अनुमान लगाता है कि विश्वविद्यालय के पहले साल में पढ़ने वाला छात्र/छात्रा, छह साल के अंदर ग्रेजुएट होगा या नहीं. इस मॉडल के लिए, ग्राउंड ट्रुथ यह है कि छात्र-छात्रा ने छह साल के अंदर ग्रेजुएशन की है या नहीं.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

हम मॉडल की क्वालिटी का आकलन, ग्राउंड ट्रुथ के आधार पर करते हैं. हालांकि, ज़मीनी सच्चाई हमेशा पूरी तरह से सही नहीं होती. उदाहरण के लिए, ग्राउंड ट्रुथ में संभावित कमियों के ये उदाहरण देखें:

ग्रेजुएशन के उदाहरण में, क्या हम इस बात को लेकर पक्का हैं कि हर छात्र-छात्रा के ग्रेजुएशन के रिकॉर्ड हमेशा सही होते हैं? क्या विश्वविद्यालय के रिकॉर्ड रखने का तरीका सही है?
मान लें कि लेबल, इंस्ट्रूमेंट से मेज़र की गई फ़्लोटिंग-पॉइंट वैल्यू है. उदाहरण के लिए, बैरोमीटर. हम यह कैसे पक्का करें कि हर इंस्ट्रूमेंट को एक जैसा कैलिब्रेट किया गया है या हर रीडिंग एक जैसी परिस्थितियों में ली गई है?
अगर लेबल, किसी व्यक्ति की राय पर आधारित है, तो हम यह कैसे पक्का करें कि हर रेटिंग देने वाला व्यक्ति, इवेंट का आकलन एक ही तरीके से कर रहा है? जवाबों को बेहतर बनाने के लिए, विशेषज्ञ लोग कभी-कभी रेटिंग देते हैं.

H

छिपी हुई लेयर

#fundamentals

यह न्यूरल नेटवर्क में एक लेयर होती है. यह इनपुट लेयर (सुविधाएं) और आउटपुट लेयर (अनुमान) के बीच होती है. हर छिपी हुई लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, इस न्यूरल नेटवर्क में दो हिडन लेयर हैं. पहली लेयर में तीन न्यूरॉन और दूसरी लेयर में दो न्यूरॉन हैं:

डीप न्यूरल नेटवर्क में एक से ज़्यादा हिडन लेयर होती हैं. उदाहरण के लिए, ऊपर दी गई इमेज एक डीप न्यूरल नेटवर्क है, क्योंकि मॉडल में दो हिडन लेयर शामिल हैं.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: नोड और छिपी हुई लेयर देखें.

हाइपर पैरामीटर

#fundamentals

ये ऐसे वैरिएबल होते हैं जिन्हें मॉडल को ट्रेन करने के दौरान, आपने या हाइपरपैरामीटर ट्यूनिंग सेवा ने अडजस्ट किया है. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है. ट्रेनिंग सेशन से पहले, लर्निंग रेट को 0.01 पर सेट किया जा सकता है. अगर आपको लगता है कि 0.01 बहुत ज़्यादा है, तो अगले ट्रेनिंग सेशन के लिए लर्निंग रेट को 0.003 पर सेट किया जा सकता है.

इसके उलट, पैरामीटर अलग-अलग वज़न और बायस होते हैं. मॉडल, ट्रेनिंग के दौरान इन्हें सीखता है.

I

स्वतंत्र और समान रूप से डिस्ट्रिब्यूट किया गया (आई.आई.डी.)

#fundamentals

यह ऐसे डिस्ट्रिब्यूशन से लिया गया डेटा होता है जिसमें कोई बदलाव नहीं होता. साथ ही, इसमें ली गई हर वैल्यू, पहले ली गई वैल्यू पर निर्भर नहीं करती. आई.आई.डी., मशीन लर्निंग का आदर्श गैस है. यह एक उपयोगी गणितीय कॉन्सेप्ट है, लेकिन असल दुनिया में यह कभी भी पूरी तरह से नहीं मिलता. उदाहरण के लिए, किसी वेब पेज पर आने वाले लोगों का डिस्ट्रिब्यूशन, कुछ समय के लिए i.i.d. हो सकता है. इसका मतलब है कि उस अवधि के दौरान डिस्ट्रिब्यूशन में कोई बदलाव नहीं होता. साथ ही, आम तौर पर एक व्यक्ति की विज़िट, दूसरे व्यक्ति की विज़िट से अलग होती है. हालांकि, अगर समय अवधि को बढ़ाया जाता है, तो वेब पेज पर आने वाले लोगों की संख्या में सीज़नल अंतर दिख सकता है.

नॉनस्टेशनैरिटी के बारे में भी जानें.

अनुमान

#fundamentals

#generativeAI

ट्रेडिशनल मशीन लर्निंग में, बिना लेबल वाले उदाहरणों पर ट्रेन किए गए मॉडल को लागू करके अनुमान लगाने की प्रोसेस. ज़्यादा जानने के लिए, एमएल के बारे में जानकारी देने वाले कोर्स में निगरानी में की जाने वाली लर्निंग सेक्शन देखें.

लार्ज लैंग्वेज मॉडल में, अनुमान लगाने की प्रोसेस का इस्तेमाल, ट्रेनिंग पा चुके मॉडल की मदद से किया जाता है. इससे, इनपुट प्रॉम्प्ट के लिए जवाब जनरेट किया जाता है.

आंकड़ों में अनुमान का मतलब कुछ अलग होता है. ज़्यादा जानकारी के लिए, सांख्यिकीय अनुमान के बारे में Wikipedia लेख पढ़ें.

इनपुट लेयर

#fundamentals

न्यूरल नेटवर्क की वह लेयर जिसमें फ़ीचर वेक्टर होता है. इसका मतलब है कि इनपुट लेयर, ट्रेनिंग या अनुमान के लिए उदाहरण देती है. उदाहरण के लिए, यहां दिए गए न्यूरल नेटवर्क की इनपुट लेयर में दो सुविधाएं शामिल हैं:

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.

व्याख्या करने की क्षमता

#fundamentals

किसी इंसान को मशीन लर्निंग मॉडल's के फ़ैसले के पीछे की वजह को आसान शब्दों में समझाना या पेश करना.

ज़्यादातर लीनियर रिग्रेशन मॉडल, उदाहरण के लिए, आसानी से समझे जा सकते हैं. (आपको सिर्फ़ हर सुविधा के लिए, ट्रेनिंग के दौरान तय किए गए वेट देखने हैं.) डिसिज़न फ़ॉरेस्ट को आसानी से समझा जा सकता है. हालांकि, कुछ मॉडल को समझने के लिए, बेहतर विज़ुअलाइज़ेशन की ज़रूरत होती है.

एमएल मॉडल को समझने के लिए, लर्निंग इंटरप्रेटेबिलिटी टूल (एलआईटी) का इस्तेमाल किया जा सकता है.

इटरेशन

#fundamentals

मॉडल के पैरामीटर में एक बार किया गया अपडेट. ट्रेनिंग के दौरान, मॉडल के वज़न और बायस में किया गया अपडेट. बैच साइज़ से यह तय होता है कि मॉडल एक बार में कितने उदाहरणों को प्रोसेस करेगा. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो मॉडल पैरामीटर को अडजस्ट करने से पहले 20 उदाहरणों को प्रोसेस करता है.

न्यूरल नेटवर्क को ट्रेन करते समय, एक बार में ये दो पास शामिल होते हैं:

किसी एक बैच पर नुकसान का आकलन करने के लिए फ़ॉरवर्ड पास.
मॉडल के पैरामीटर को नुकसान और लर्निंग रेट के आधार पर अडजस्ट करने के लिए, बैकवर्ड पास (बैकप्रॉपैगेशन) का इस्तेमाल किया जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ग्रेडिएंट डिसेंट देखें.

L

L₀ रेगुलराइज़ेशन

#fundamentals

यह एक तरह का रेगुलराइज़ेशन है. यह मॉडल में, शून्य से अलग वज़न की कुल संख्या को कम करता है. उदाहरण के लिए, 11 नॉन-ज़ीरो वेट वाले मॉडल पर, 10 नॉन-ज़ीरो वेट वाले मॉडल की तुलना में ज़्यादा जुर्माना लगाया जाएगा.

L₀ रेगुलराइज़ेशन को कभी-कभी L0-नॉर्म रेगुलराइज़ेशन भी कहा जाता है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

बड़े मॉडल में L₀ रेगुलराइज़ेशन का इस्तेमाल करना आम तौर पर मुश्किल होता है, क्योंकि L₀ रेगुलराइज़ेशन, ट्रेनिंग को कॉन्वेक्स ऑप्टिमाइज़ेशन की समस्या में बदल देता है.

L₁ नुकसान

#fundamentals

#Metric

यह एक लॉस फ़ंक्शन है. यह असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर की ऐब्सलूट वैल्यू कैलकुलेट करता है. उदाहरण के लिए, यहां पांच उदाहरणों के बैच के लिए, L₁ लॉस की गणना दी गई है:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा की ऐब्सलूट वैल्यू
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ नुकसान

L₁ लॉस, L₂ लॉस की तुलना में आउटलायर के लिए कम संवेदनशील होता है.

कुल गड़बड़ी का मध्यमान, हर उदाहरण के लिए औसत L₁ लॉस होता है.

गणित के फ़ॉर्मूले देखने के लिए, आइकॉन पर क्लिक करें.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$ उदाहरणों की संख्या है.
$y$ लेबल की असल वैल्यू है.
$\hat{y}$ वह वैल्यू है जिसका अनुमान मॉडल, $y$ के लिए लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: लॉस देखें.

L₁ रेगुलराइज़ेशन

#fundamentals

यह एक तरह का रेगुलराइज़ेशन है. इसमें वेट को, वेट की ऐब्सलूट वैल्यू के योग के अनुपात में दंडित किया जाता है. L₁ रेगुलराइज़ेशन की मदद से, काम की नहीं या बहुत कम काम की सुविधाओं के वेट को शून्य पर सेट किया जा सकता है. वज़न के तौर पर 0 वैल्यू वाली सुविधा को मॉडल से हटा दिया जाता है.

इसकी तुलना L₂ रेगुलराइज़ेशन से करें.

L₂ नुकसान

#fundamentals

#Metric

यह एक लॉस फ़ंक्शन है. यह असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर का स्क्वेयर कैलकुलेट करता है. उदाहरण के लिए, यहां पांच उदाहरणों के बैच के लिए, L₂ लॉस की गणना दी गई है:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा का स्क्वेयर
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ लॉस

स्क्वेयर करने की वजह से, L₂ लॉस, आउटलायर के असर को बढ़ा देता है. इसका मतलब है कि खराब अनुमानों पर L₂ लॉस, L₁ लॉस की तुलना में ज़्यादा असर डालता है. उदाहरण के लिए, पिछले बैच के लिए L₁ लॉस, 16 के बजाय 8 होगा. ध्यान दें कि एक आउटलायर, 16 में से 9 के लिए ज़िम्मेदार है.

रिग्रेशन मॉडल, आम तौर पर लॉस फ़ंक्शन के तौर पर L₂ लॉस का इस्तेमाल करते हैं.

मीन स्क्वेयर्ड एरर, हर उदाहरण के लिए औसत L₂ लॉस होता है. स्क्वेयर्ड लॉस को L₂ लॉस भी कहा जाता है.

गणित के फ़ॉर्मूले देखने के लिए, आइकॉन पर क्लिक करें.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

where:

$n$ उदाहरणों की संख्या है.
$y$ लेबल की असल वैल्यू है.
$\hat{y}$ वह वैल्यू है जिसका अनुमान मॉडल, $y$ के लिए लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लॉजिस्टिक रिग्रेशन: लॉस और रेगुलराइज़ेशन देखें.

L₂ रेगुलराइज़ेशन

#fundamentals

यह रेगुलराइज़ेशन का एक टाइप है. इसमें वज़न को, वज़न के स्क्वेयर के योग के अनुपात में दंडित किया जाता है. L₂ रेगुलराइज़ेशन, आउटलायर वेट (ज़्यादा पॉज़िटिव या कम नेगेटिव वैल्यू वाले) को 0 के करीब लाने में मदद करता है, लेकिन पूरी तरह से 0 नहीं करता. जिन सुविधाओं की वैल्यू 0 के बहुत करीब होती है वे मॉडल में बनी रहती हैं, लेकिन मॉडल के अनुमान पर इनका ज़्यादा असर नहीं पड़ता.

L₂ रेगुलराइज़ेशन, लीनियर मॉडल में हमेशा सामान्यीकरण को बेहतर बनाता है.

L₁ रेगुलराइज़ेशन से तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: L2 रेगुलराइज़ेशन देखें.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, उदाहरण का "जवाब" या "नतीजा" वाला हिस्सा.

हर लेबल किए गए उदाहरण में एक या उससे ज़्यादा विशेषताएं और एक लेबल होता है. उदाहरण के लिए, स्पैम का पता लगाने वाले डेटासेट में, लेबल शायद "स्पैम" या "स्पैम नहीं" होगा. बारिश के डेटासेट में, लेबल यह हो सकता है कि किसी समयावधि के दौरान कितनी बारिश हुई.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी में सुपरवाइज़्ड लर्निंग देखें.

लेबल किया गया उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें एक या उससे ज़्यादा सुविधाएं और एक लेबल शामिल हो. उदाहरण के लिए, यहां दी गई टेबल में घर की कीमत का अनुमान लगाने वाले मॉडल के तीन लेबल किए गए उदाहरण दिखाए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल है:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र	घर की कीमत (लेबल)
3	2	15	$345,000
2	1	72	$179,000
4	2	34	$3,92,000

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल को लेबल किए गए उदाहरणों के आधार पर ट्रेन किया जाता है. साथ ही, वे बिना लेबल वाले उदाहरणों के आधार पर अनुमान लगाते हैं.

लेबल किए गए उदाहरण की तुलना, लेबल नहीं किए गए उदाहरणों से करें.

lambda

#fundamentals

रेगुलराइज़ेशन रेट के लिए समानार्थी शब्द.

Lambda एक ओवरलोडेड शब्द है. यहां हम रेगुलराइज़ेशन के तहत, शब्द की परिभाषा पर फ़ोकस कर रहे हैं.

लेयर

#fundamentals

न्यूरल नेटवर्क में न्यूरॉन का एक सेट. लेयर तीन तरह की होती हैं. इनके बारे में यहां बताया गया है:

इनपुट लेयर, जो सभी सुविधाओं के लिए वैल्यू देती है.
एक या उससे ज़्यादा छिपी हुई लेयर, जो सुविधाओं और लेबल के बीच नॉनलीनियर संबंध ढूंढती हैं.
आउटपुट लेयर, जो अनुमान देती है.

उदाहरण के लिए, इस इमेज में एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क दिखाया गया है:

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क. इनपुट लेयर में दो सुविधाएं होती हैं. पहली छिपी हुई लेयर में तीन न्यूरॉन और दूसरी छिपी हुई लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक नोड होता है.

TensorFlow में, लेयर भी Python फ़ंक्शन होती हैं. ये टेंसर और कॉन्फ़िगरेशन के विकल्पों को इनपुट के तौर पर लेती हैं और आउटपुट के तौर पर अन्य टेंसर जनरेट करती हैं.

सीखने की दर

#fundamentals

यह एक फ़्लोटिंग-पॉइंट नंबर होता है. इससे ग्रेडिएंट डिसेंट एल्गोरिदम को यह पता चलता है कि हर इटरेशन पर, वज़न और बायस को कितना अडजस्ट करना है. उदाहरण के लिए, 0.3 का लर्निंग रेट, 0.1 के लर्निंग रेट की तुलना में वज़न और पूर्वाग्रहों को तीन गुना ज़्यादा असरदार तरीके से अडजस्ट करेगा.

लर्निंग रेट, एक मुख्य हाइपरपैरामीटर है. अगर लर्निंग रेट बहुत कम सेट किया जाता है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. अगर लर्निंग रेट को बहुत ज़्यादा पर सेट किया जाता है, तो ग्रेडिएंट डिसेंट को अक्सर कन्वर्जेंस तक पहुंचने में परेशानी होती है.

गणित के हिसाब से ज़्यादा जानकारी पाने के लिए, आइकॉन पर क्लिक करें.

हर इटरेशन के दौरान, ग्रेडिएंट डिसेंट एल्गोरिदम, लर्निंग रेट को ग्रेडिएंट से गुणा करता है. इस तरह से तैयार हुए प्रॉडक्ट को ग्रेडिएंट स्टेप कहा जाता है.

रेखीय

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा करके दिखाया जा सकता है.

लीनियर रिलेशनशिप का प्लॉट, एक लाइन होती है.

नॉनलीनियर विज्ञापन से तुलना करें.

लीनियर मॉडल

#fundamentals

यह एक ऐसा मॉडल होता है जो पूर्वानुमान लगाने के लिए, हर सुविधा के हिसाब से एक वज़न असाइन करता है. (लीनियर मॉडल में भी बायस शामिल होता है.) इसके उलट, डीप मॉडल में, सुविधाओं और अनुमानों के बीच का संबंध आम तौर पर नॉनलीनियर होता है.

लीनियर मॉडल को आम तौर पर ट्रेन करना आसान होता है. साथ ही, डीप मॉडल की तुलना में इन्हें समझना ज़्यादा आसान होता है. हालांकि, डीप मॉडल, सुविधाओं के बीच जटिल संबंधों को समझ सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन, दो तरह के लीनियर मॉडल होते हैं.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

लीनियर मॉडल इस फ़ॉर्मूले के हिसाब से काम करता है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

where:

y' रॉ अनुमान है. (कुछ तरह के लीनियर मॉडल में, इस रॉ अनुमान में और बदलाव किया जाएगा. उदाहरण के लिए, लॉजिस्टिक रिग्रेशन देखें.)
b में भेदभाव किया गया है.
w एक वज़न है. इसलिए, w₁ पहले फ़ीचर का वज़न है, w₂ दूसरे फ़ीचर का वज़न है, और इसी तरह आगे भी.
x एक सुविधा है. इसलिए, x₁ पहली सुविधा की वैल्यू है, x₂ दूसरी सुविधा की वैल्यू है, और इसी तरह आगे भी.

उदाहरण के लिए, मान लें कि तीन सुविधाओं के लिए लीनियर मॉडल, यहां दिए गए बायस और वज़न के बारे में जानता है:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

इसलिए, तीन सुविधाओं (x₁, x₂, और x₃) को देखते हुए, लीनियर मॉडल हर अनुमान को जनरेट करने के लिए इस समीकरण का इस्तेमाल करता है:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

मान लें कि किसी उदाहरण में ये वैल्यू शामिल हैं:

x₁ = 4
x₂ = -10
x₃ = 5

इन वैल्यू को फ़ॉर्मूले में डालने पर, इस उदाहरण के लिए अनुमान मिलता है:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

लीनियर मॉडल में, न सिर्फ़ ऐसे मॉडल शामिल होते हैं जो अनुमान लगाने के लिए सिर्फ़ लीनियर इक्वेशन का इस्तेमाल करते हैं, बल्कि ऐसे मॉडल का एक बड़ा सेट भी शामिल होता है जो अनुमान लगाने के लिए, फ़ॉर्मूले के सिर्फ़ एक कॉम्पोनेंट के तौर पर लीनियर इक्वेशन का इस्तेमाल करते हैं. उदाहरण के लिए, लॉजिस्टिक रिग्रेशन, रॉ प्रेडिक्शन (y') को पोस्ट-प्रोसेस करके, 0 से 1 के बीच की फ़ाइनल प्रेडिक्शन वैल्यू जनरेट करता है.

लीनियर रिग्रेशन

#fundamentals

यह एक तरह का मशीन लर्निंग मॉडल है. इसमें ये दोनों बातें सही होती हैं:

यह मॉडल, लीनियर मॉडल है.
अनुमान, फ़्लोटिंग-पॉइंट वैल्यू होती है. (यह लीनियर रिग्रेशन का रिग्रेशन हिस्सा है.)

लॉजिस्टिक रिग्रेशन की तुलना में लीनियर रिग्रेशन के बारे में जानकारी. साथ ही, रिग्रेशन की तुलना क्लासिफ़िकेशन से करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

लॉजिस्टिक रिग्रेशन

#fundamentals

यह एक तरह का रिग्रेशन मॉडल है, जो संभावना का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल में ये विशेषताएं होती हैं:

लेबल कैटगरिकल है. लॉजिस्टिक रिग्रेशन शब्द का इस्तेमाल आम तौर पर बाइनरी लॉजिस्टिक रिग्रेशन के लिए किया जाता है. इसका मतलब है कि यह एक ऐसा मॉडल है जो दो संभावित वैल्यू वाले लेबल के लिए संभावनाओं का हिसाब लगाता है. मल्टीनोमियल लॉजिस्टिक रिग्रेशन, एक कम इस्तेमाल किया जाने वाला वैरिएंट है. यह दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, संभावनाओं का हिसाब लगाता है.
ट्रेनिंग के दौरान लॉस फ़ंक्शन लॉग लॉस होता है. (दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, एक साथ कई लॉग लॉस यूनिट रखी जा सकती हैं.)
मॉडल में लीनियर आर्किटेक्चर है, न कि डीप न्यूरल नेटवर्क. हालांकि, इस परिभाषा का बाकी हिस्सा, डीप मॉडल पर भी लागू होता है. ये मॉडल, कैटगरी के हिसाब से लेबल की संभावनाओं का अनुमान लगाते हैं.

उदाहरण के लिए, लॉजिस्टिक रिग्रेशन मॉडल पर विचार करें. यह मॉडल, किसी इनपुट ईमेल के स्पैम होने या न होने की संभावना का हिसाब लगाता है. मान लें कि अनुमान लगाने के दौरान, मॉडल 0.72 का अनुमान लगाता है. इसलिए, मॉडल अनुमान लगा रहा है कि:

ईमेल के स्पैम होने की 72% संभावना है.
इस ईमेल के स्पैम न होने की 28% संभावना है.

लॉजिस्टिक रिग्रेशन मॉडल, दो चरणों वाले इस आर्किटेक्चर का इस्तेमाल करता है:

यह मॉडल, इनपुट सुविधाओं पर लीनियर फ़ंक्शन लागू करके, अनुमान (y') जनरेट करता है.
मॉडल, उस रॉ अनुमान का इस्तेमाल सिग्मॉइड फ़ंक्शन के इनपुट के तौर पर करता है. यह फ़ंक्शन, रॉ अनुमान को 0 से 1 के बीच की वैल्यू में बदलता है. इसमें 0 और 1 शामिल नहीं होते.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल भी किसी संख्या का अनुमान लगाता है. हालांकि, आम तौर पर यह संख्या, बाइनरी क्लासिफ़िकेशन मॉडल का हिस्सा बन जाती है. जैसे:

अगर अनुमानित संख्या, वर्गीकरण थ्रेशोल्ड से ज़्यादा है, तो बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लॉजिस्टिकल रिग्रेशन देखें.

लॉग लॉस

#fundamentals

बाइनरी लॉजिस्टिक रिग्रेशन में इस्तेमाल किया गया लॉस फ़ंक्शन.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

लॉग लॉस का हिसाब लगाने के लिए, यहां दिया गया फ़ॉर्मूला इस्तेमाल किया जाता है:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

where:

$(x,y)\in D$ ऐसा डेटासेट है जिसमें लेबल किए गए कई उदाहरण शामिल हैं. ये उदाहरण, $(x,y)$ जोड़े के तौर पर होते हैं.
$y$ , लेबल किए गए उदाहरण में मौजूद लेबल है. यह लॉजिस्टिक रिग्रेशन है, इसलिए $y$ की हर वैल्यू 0 या 1 होनी चाहिए.
$y'$ , अनुमानित वैल्यू है. यह 0 और 1 के बीच की कोई वैल्यू होती है. $x$में मौजूद सुविधाओं के सेट के आधार पर यह वैल्यू तय की जाती है.

लॉग-ऑड्स

#fundamentals

यह किसी इवेंट के होने की संभावना का लॉगरिद्म होता है.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

अगर इवेंट की बाइनरी प्रॉबबिलिटी है, तो odds का मतलब है, सफलता की प्रॉबबिलिटी (p) और विफलता की प्रॉबबिलिटी (1-p) का अनुपात. उदाहरण के लिए, मान लें कि किसी इवेंट के सफल होने की संभावना 90% है और उसके फ़ेल होने की संभावना 10% है. इस मामले में, ऑड का हिसाब इस तरह लगाया जाता है:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

लॉग-ऑड्स, ऑड्स का लॉगरिद्म होता है. आम तौर पर, "लॉगरिद्म" का मतलब नेचुरल लॉगरिद्म होता है. हालांकि, लॉगरिद्म का आधार 1 से ज़्यादा कुछ भी हो सकता है. इसलिए, कन्वेंशन के हिसाब से हमारे उदाहरण का लॉग-ऑड इस तरह होगा:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

लॉग-ऑड्स फ़ंक्शन, सिग्मॉइड फ़ंक्शन का उलटा होता है.

हार

#fundamentals

#Metric

निगरानी वाले मॉडल की ट्रेनिंग के दौरान, यह मेज़रमेंट किया जाता है कि मॉडल का अनुमान, उसके लेबल से कितना अलग है.

लॉस फ़ंक्शन, लॉस का हिसाब लगाता है.

ज़्यादा जानकारी के लिए, Machine Learning Crash Course में लीनियर रिग्रेशन: लॉस देखें.

ऐप्लिकेशन हटाने का कर्व

#fundamentals

ट्रेनिंग के इटरेशन की संख्या के फ़ंक्शन के तौर पर, नुकसान का प्लॉट. नीचे दिए गए प्लॉट में, सामान्य लॉस कर्व दिखाया गया है:

यह कार्टेशियन ग्राफ़, ट्रेनिंग के इटरेशन के मुकाबले नुकसान दिखाता है. इसमें शुरुआती इटरेशन के लिए नुकसान में तेज़ी से गिरावट दिखाई गई है. इसके बाद, धीरे-धीरे गिरावट और फिर फ़ाइनल इटरेशन के दौरान फ़्लैट स्लोप दिखाया गया है.

लॉस कर्व से यह पता लगाया जा सकता है कि आपका मॉडल कब कन्वर्ज हो रहा है या ओवरफ़िट हो रहा है.

लॉस कर्व में, यहां दिए गए सभी तरह के लॉस को प्लॉट किया जा सकता है:

ट्रेनिंग लॉस
पुष्टि करने के दौरान होने वाला नुकसान
टेस्ट लॉस

जनरलाइज़ेशन कर्व भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: लॉस कर्व की व्याख्या करना देखें.

लॉस फ़ंक्शन

#fundamentals

#Metric

ट्रेनिंग या टेस्टिंग के दौरान, यह एक गणितीय फ़ंक्शन होता है. यह उदाहरणों के बैच के नुकसान का हिसाब लगाता है. लॉस फ़ंक्शन, अच्छी परफ़ॉर्मेंस वाले मॉडल के लिए कम लॉस दिखाता है. वहीं, खराब परफ़ॉर्मेंस वाले मॉडल के लिए ज़्यादा लॉस दिखाता है.

ट्रेनिंग का मकसद आम तौर पर, लॉस फ़ंक्शन से मिलने वाले नुकसान को कम करना होता है.

कई तरह के लॉस फ़ंक्शन मौजूद होते हैं. बनाए जा रहे मॉडल के हिसाब से, सही लॉस फ़ंक्शन चुनें. उदाहरण के लिए:

L₂ लॉस या मीन स्क्वेयर्ड एरर, लीनियर रिग्रेशन के लिए लॉस फ़ंक्शन होता है.
लॉग लॉस, लॉजिस्टिक्स रिग्रेशन के लिए लॉस फ़ंक्शन है.

M

मशीन लर्निंग

#fundamentals

यह एक प्रोग्राम या सिस्टम है, जो इनपुट डेटा की मदद से मॉडल को ट्रेन करता है. ट्रेन किया गया मॉडल, नए (पहले कभी न देखे गए) डेटा से काम के अनुमान लगा सकता है. यह डेटा, मॉडल को ट्रेन करने के लिए इस्तेमाल किए गए डेटा के डिस्ट्रिब्यूशन से लिया जाता है.

मशीन लर्निंग, पढ़ाई के उस फ़ील्ड को भी कहा जाता है जो इन प्रोग्राम या सिस्टम से जुड़ा है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी कोर्स देखें.

मेजर क्लास

#fundamentals

क्लास-इंबैलेंस वाले डेटासेट में सबसे ज़्यादा बार दिखने वाला लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो नेगेटिव लेबल को मेजॉरिटी क्लास माना जाएगा.

माइनॉरिटी क्लास से तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: असंतुलित डेटासेट देखें.

मिनी-बैच

#fundamentals

यह बैच का एक छोटा सबसेट होता है. इसे रैंडम तरीके से चुना जाता है और एक इटरेशन में प्रोसेस किया जाता है. मिनी-बैच का बैच साइज़ आम तौर पर 10 से 1,000 उदाहरणों के बीच होता है.

उदाहरण के लिए, मान लें कि पूरे ट्रेनिंग सेट (पूरे बैच) में 1,000 उदाहरण शामिल हैं. मान लें कि आपने हर मिनी-बैच का बैच साइज़ 20 पर सेट किया है. इसलिए, हर इटरेशन में 1,000 उदाहरणों में से 20 उदाहरणों के नुकसान का पता लगाया जाता है. इसके बाद, वेट और बायस में बदलाव किया जाता है.

पूरे बैच के सभी उदाहरणों के नुकसान की तुलना में, मिनी-बैच के नुकसान का हिसाब लगाना ज़्यादा आसान होता है.

माइनॉरिटी क्लास

#fundamentals

क्लास-इम्बैलेंस वाले डेटासेट में सबसे कम बार दिखने वाला लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो पॉज़िटिव लेबल माइनॉरिटी क्लास में आते हैं.

ज़्यादातर क्लास के साथ कंट्रास्ट.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

दस लाख उदाहरणों वाला ट्रेनिंग सेट बहुत अच्छा लगता है. हालांकि, अगर माइनॉरिटी क्लास को ठीक से नहीं दिखाया गया है, तो ट्रेनिंग के लिए बहुत बड़ा डेटासेट भी काफ़ी नहीं हो सकता. डेटासेट में मौजूद उदाहरणों की कुल संख्या पर कम और माइनॉरिटी क्लास में मौजूद उदाहरणों की संख्या पर ज़्यादा ध्यान दें.

अगर आपके डेटासेट में माइनॉरिटी क्लास के उदाहरणों की संख्या कम है, तो माइनॉरिटी क्लास को बेहतर बनाने के लिए, डाउनसैंपलिंग का इस्तेमाल करें. इसकी परिभाषा दूसरे बुलेट पॉइंट में दी गई है.

मॉडल

#fundamentals

आम तौर पर, कोई भी ऐसा गणितीय फ़ंक्शन जो इनपुट डेटा को प्रोसेस करता है और आउटपुट देता है. दूसरे शब्दों में कहें, तो मॉडल, पैरामीटर और स्ट्रक्चर का ऐसा सेट होता है जिसकी ज़रूरत सिस्टम को अनुमान लगाने के लिए होती है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल उदाहरण को इनपुट के तौर पर लेता है और अनुमान को आउटपुट के तौर पर दिखाता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल कुछ हद तक अलग-अलग होते हैं. उदाहरण के लिए:

लीनियर रिग्रेशन मॉडल में वज़न और बायस का सेट होता है.
न्यूरल नेटवर्क मॉडल में ये शामिल होते हैं:
- छिपी हुई लेयर का एक सेट. हर लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं.
- हर न्यूरॉन से जुड़े वेट और बायस.
डिसिज़न ट्री मॉडल में ये शामिल होते हैं:
- ट्री का आकार. इसका मतलब है कि शर्तें और पत्तियां किस पैटर्न में जुड़ी हैं.
- छुट्टियों और शर्तों के बारे में जानकारी.

आपके पास किसी मॉडल को सेव करने, वापस लाने या उसकी कॉपी बनाने का विकल्प होता है.

बिना निगरानी वाली मशीन लर्निंग भी मॉडल जनरेट करती है. आम तौर पर, यह एक ऐसा फ़ंक्शन होता है जो इनपुट उदाहरण को सबसे सही क्लस्टर से मैप कर सकता है.

बीजगणितीय और प्रोग्रामिंग फ़ंक्शन की तुलना एमएल मॉडल से करने के लिए, आइकॉन पर क्लिक करें.

नीचे दिए गए उदाहरण की तरह, बीजगणितीय फ़ंक्शन एक मॉडल होता है:

  f(x, y) = 3x -5xy + y² + 17

ऊपर दिया गया फ़ंक्शन, इनपुट वैल्यू (x और y) को आउटपुट पर मैप करता है.

इसी तरह, प्रोग्रामिंग फ़ंक्शन भी एक मॉडल होता है. जैसे:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

कॉल करने वाला व्यक्ति, Python फ़ंक्शन को आर्ग्युमेंट पास करता है. इसके बाद, Python फ़ंक्शन return स्टेटमेंट के ज़रिए आउटपुट जनरेट करता है.

हालांकि, डीप न्यूरल नेटवर्क का गणितीय स्ट्रक्चर, बीजगणितीय या प्रोग्रामिंग फ़ंक्शन से बहुत अलग होता है. इसके बावजूद, डीप न्यूरल नेटवर्क अब भी इनपुट (उदाहरण) लेता है और आउटपुट (अनुमान) देता है.

कोई प्रोग्रामर, प्रोग्रामिंग फ़ंक्शन को मैन्युअल तरीके से कोड करता है. इसके उलट, मशीन लर्निंग मॉडल, ऑटोमेटेड ट्रेनिंग के दौरान धीरे-धीरे सबसे सही पैरामीटर सीखता है.

मल्टी-क्लास क्लासिफ़िकेशन

#fundamentals

यह सुपरवाइज़्ड लर्निंग में वर्गीकरण की समस्या है. इसमें डेटासेट में लेबल की दो से ज़्यादा क्लास होती हैं. उदाहरण के लिए, आइरिस डेटासेट में मौजूद लेबल, इन तीन क्लास में से कोई एक होना चाहिए:

आइरिस सेटोसा
आइरिस वर्जिनिका
आइरिस वर्सिकलर

आइरिस डेटासेट पर ट्रेन किया गया मॉडल, नए उदाहरणों के आधार पर आइरिस टाइप का अनुमान लगाता है. यह मल्टी-क्लास क्लासिफ़िकेशन करता है.

इसके उलट, क्लासिफ़िकेशन की ऐसी समस्याएं जिनमें सिर्फ़ दो क्लास के बीच अंतर किया जाता है उन्हें बाइनरी क्लासिफ़िकेशन मॉडल कहा जाता है. उदाहरण के लिए, ईमेल मॉडल जो स्पैम या स्पैम नहीं का अनुमान लगाता है, वह बाइनरी क्लासिफ़िकेशन मॉडल होता है.

क्लस्टरिंग की समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन का मतलब दो से ज़्यादा क्लस्टर से होता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: मल्टी-क्लास क्लासिफ़िकेशन देखें.

नहीं

नेगेटिव क्लास

#fundamentals

#Metric

बाइनरी क्लासिफ़िकेशन में, एक क्लास को पॉज़िटिव और दूसरी क्लास को नेगेटिव कहा जाता है. पॉज़िटिव क्लास, वह चीज़ या इवेंट होता है जिसके लिए मॉडल की टेस्टिंग की जा रही है. वहीं, नेगेटिव क्लास, दूसरी संभावना होती है. उदाहरण के लिए:

मेडिकल टेस्ट में नेगेटिव क्लास "ट्यूमर नहीं है" हो सकती है.
ईमेल के क्लासिफ़िकेशन मॉडल में नेगेटिव क्लास "स्पैम नहीं है" हो सकती है.

पॉज़िटिव क्लास से तुलना करें.

न्यूरल नेटवर्क

#fundamentals

एक मॉडल, जिसमें कम से कम एक हिडन लेयर हो. डीप न्यूरल नेटवर्क, न्यूरल नेटवर्क का एक टाइप है. इसमें एक से ज़्यादा हिडन लेयर होती हैं. उदाहरण के लिए, इस डायग्राम में दो हिडन लेयर वाला डीप न्यूरल नेटवर्क दिखाया गया है.

इनपुट लेयर, दो छिपी हुई लेयर, और आउटपुट लेयर वाला न्यूरल नेटवर्क.

न्यूरल नेटवर्क में मौजूद हर न्यूरॉन, अगली लेयर के सभी नोड से कनेक्ट होता है. उदाहरण के लिए, ऊपर दिए गए डायग्राम में देखें कि पहली हिडन लेयर में मौजूद तीनों न्यूरॉन, दूसरी हिडन लेयर में मौजूद दोनों न्यूरॉन से अलग-अलग तरीके से कनेक्ट होते हैं.

कंप्यूटर पर लागू किए गए न्यूरल नेटवर्क को कभी-कभी आर्टिफ़िशियल न्यूरल नेटवर्क कहा जाता है. ऐसा इसलिए, ताकि इन्हें दिमाग़ और अन्य नर्वस सिस्टम में मौजूद न्यूरल नेटवर्क से अलग किया जा सके.

कुछ न्यूरल नेटवर्क, अलग-अलग सुविधाओं और लेबल के बीच बेहद जटिल नॉनलीनियर रिलेशनशिप की नकल कर सकते हैं.

कन्वलूशनल न्यूरल नेटवर्क और रीकरंट न्यूरल नेटवर्क के बारे में भी जानें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, न्यूरल नेटवर्क की हिडन लेयर में मौजूद एक अलग यूनिट. हर न्यूरॉन, दो चरणों में यह कार्रवाई करता है:

यह नोड, इनपुट वैल्यू को उनके वेट से गुणा करके, वेटेड सम की कैलकुलेशन करता है.
वेटेड सम को ऐक्टिवेशन फ़ंक्शन के इनपुट के तौर पर पास करता है.

पहली हिडन लेयर में मौजूद न्यूरॉन, इनपुट लेयर में मौजूद फ़ीचर वैल्यू से इनपुट स्वीकार करता है. पहली हिडन लेयर के बाद की किसी भी हिडन लेयर में मौजूद न्यूरॉन, पिछली हिडन लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है. उदाहरण के लिए, दूसरी हिडन लेयर में मौजूद न्यूरॉन, पहली हिडन लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है.

इस इमेज में, दो न्यूरॉन और उनके इनपुट को हाइलाइट किया गया है.

इनपुट लेयर, दो छिपी हुई लेयर, और आउटपुट लेयर वाला न्यूरल नेटवर्क. दो न्यूरॉन हाइलाइट किए गए हैं: एक पहली छिपी हुई लेयर में और दूसरा दूसरी छिपी हुई लेयर में. पहली हिडन लेयर में हाइलाइट किया गया न्यूरॉन, इनपुट लेयर में मौजूद दोनों सुविधाओं से इनपुट पाता है. दूसरी हिडन लेयर में हाइलाइट किया गया न्यूरॉन, पहली हिडन लेयर में मौजूद तीनों न्यूरॉन से इनपुट लेता है.

न्यूरल नेटवर्क में मौजूद न्यूरॉन, दिमाग और नर्वस सिस्टम के अन्य हिस्सों में मौजूद न्यूरॉन की तरह काम करता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में मौजूद न्यूरॉन.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

नॉनलीनियर

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा करके नहीं दिखाया जा सकता. लीनियर संबंध को लाइन के तौर पर दिखाया जा सकता है. वहीं, नॉनलीनियर संबंध को लाइन के तौर पर नहीं दिखाया जा सकता. उदाहरण के लिए, ऐसे दो मॉडल पर विचार करें जिनमें से हर मॉडल, एक सुविधा को एक लेबल से जोड़ता है. बाईं ओर मौजूद मॉडल लीनियर है और दाईं ओर मौजूद मॉडल नॉनलीनियर है:

दो प्लॉट. एक प्लॉट एक लाइन है. इसलिए, यह एक लीनियर रिलेशनशिप है.
दूसरा प्लॉट एक कर्व है. इसलिए, यह एक नॉनलीनियर संबंध है.

अलग-अलग तरह के नॉनलीनियर फ़ंक्शन आज़माने के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: नोड और हिडन लेयर देखें.

नॉनस्टेशनैरिटी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन के हिसाब से बदलती हैं. आम तौर पर, यह समय के हिसाब से बदलती है. उदाहरण के लिए, नॉनस्टेशनरी के ये उदाहरण देखें:

किसी स्टोर पर बेचे गए स्विमसूट की संख्या, सीज़न के हिसाब से अलग-अलग होती है.
किसी खास इलाके में, किसी फल की फ़सल साल के ज़्यादातर समय में नहीं होती, लेकिन कुछ समय के लिए उसकी फ़सल बहुत ज़्यादा होती है.
जलवायु परिवर्तन की वजह से, सालाना औसत तापमान में बदलाव हो रहा है.

स्टेशनैरिटी से तुलना करें.

नॉर्मलाइज़ेशन

#fundamentals

सामान्य तौर पर, किसी वैरिएबल की वैल्यू की असल रेंज को वैल्यू की स्टैंडर्ड रेंज में बदलने की प्रोसेस को नॉर्मलाइज़ेशन कहते हैं. जैसे:

-1 से +1
0 से 1
ज़ेड-स्कोर (लगभग -3 से +3)

उदाहरण के लिए, मान लें कि किसी सुविधा की वैल्यू की असल रेंज 800 से 2,400 है. फ़ीचर इंजीनियरिंग के तहत, असल वैल्यू को स्टैंडर्ड रेंज में बदला जा सकता है. जैसे, -1 से +1.

नॉर्मलाइज़ेशन, फ़ीचर इंजीनियरिंग में आम तौर पर किया जाने वाला काम है. जब फ़ीचर वेक्टर में मौजूद हर संख्यात्मक फ़ीचर की रेंज लगभग एक जैसी होती है, तब मॉडल आम तौर पर तेज़ी से ट्रेन होते हैं और बेहतर अनुमान लगाते हैं.

ज़ेड-स्कोर नॉर्मलाइज़ेशन भी देखें.

न्यूमेरिकल डेटा

#fundamentals

सुविधाएं, जिन्हें पूर्णांक या वास्तविक वैल्यू वाली संख्याओं के तौर पर दिखाया जाता है. उदाहरण के लिए, घर की कीमत का अनुमान लगाने वाला मॉडल, घर के साइज़ (स्क्वेयर फ़ीट या स्क्वेयर मीटर में) को संख्या के तौर पर दिखाएगा. किसी सुविधा को संख्यात्मक डेटा के तौर पर दिखाने का मतलब है कि सुविधा की वैल्यू का लेबल से गणितीय संबंध है. इसका मतलब है कि घर के स्क्वेयर मीटर की संख्या का, घर की कीमत से कुछ गणितीय संबंध हो सकता है.

सभी पूर्णांक डेटा को संख्या के तौर पर नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों में पिन कोड पूर्णांक होते हैं. हालांकि, पूर्णांक वाले पिन कोड को मॉडल में संख्यात्मक डेटा के तौर पर नहीं दिखाया जाना चाहिए. ऐसा इसलिए है, क्योंकि 20000 पिन कोड, 10000 पिन कोड से दोगुना (या आधा) नहीं है. इसके अलावा, अलग-अलग पिन कोड के हिसाब से प्रॉपर्टी की वैल्यू अलग-अलग होती है. हालांकि, हम यह नहीं मान सकते कि पिन कोड 20000 के हिसाब से प्रॉपर्टी की वैल्यू, पिन कोड 10000 के हिसाब से प्रॉपर्टी की वैल्यू से दोगुनी है. इसके बजाय, पिन कोड को कैटेगरी के हिसाब से बंटे डेटा के तौर पर दिखाया जाना चाहिए.

संख्यात्मक सुविधाओं को कभी-कभी कंटीन्यूअस फ़ीचर कहा जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में संख्यात्मक डेटा के साथ काम करना लेख पढ़ें.

O

अॉफ़लाइन

#fundamentals

static का समानार्थी शब्द.

ऑफ़लाइन इन्फ़रेंस

#fundamentals

इस प्रोसेस में, मॉडल अनुमानों का एक बैच जनरेट करता है. इसके बाद, उन अनुमानों को कैश मेमोरी में सेव करता है. इसके बाद, ऐप्लिकेशन मॉडल को फिर से चलाने के बजाय, कैश मेमोरी से अनुमानित पूर्वानुमान को ऐक्सेस कर सकते हैं.

उदाहरण के लिए, एक ऐसे मॉडल पर विचार करें जो हर चार घंटे में एक बार, स्थानीय मौसम के पूर्वानुमान (अनुमान) जनरेट करता है. हर मॉडल रन के बाद, सिस्टम स्थानीय मौसम के सभी अनुमानों को कैश मेमोरी में सेव करता है. मौसम की जानकारी देने वाले ऐप्लिकेशन, कैश मेमोरी से पूर्वानुमान की जानकारी पाते हैं.

ऑफ़लाइन अनुमान को स्टैटिक अनुमान भी कहा जाता है.

इसकी तुलना ऑनलाइन इन्फ़रेंस से करें. ज़्यादा जानकारी के लिए, Machine Learning Crash Course में Production ML systems: Static versus dynamic inference देखें.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरी वाले डेटा को ऐसे वेक्टर के तौर पर दिखाया जाता है जिसमें:

एक एलिमेंट को 1 पर सेट किया गया है.
अन्य सभी एलिमेंट को 0 पर सेट किया जाता है.

आम तौर पर, वन-हॉट एन्कोडिंग का इस्तेमाल उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जिनकी वैल्यू सीमित होती हैं. उदाहरण के लिए, मान लें कि कैटगरी के हिसाब से तय की गई किसी सुविधा का नाम Scandinavia है और इसकी पांच संभावित वैल्यू हैं:

"डेनमार्क"
"स्वीडन"
"नॉर्वे"
"फ़िनलैंड"
"आइसलैंड"

वन-हॉट एन्कोडिंग, पांचों वैल्यू को इस तरह दिखा सकती है:

देश	वेक्टर
"डेनमार्क"	1	0	0	0	0
"स्वीडन"	0	1	0	0	0
"नॉर्वे"	0	0	1	0	0
"फ़िनलैंड"	0	0	0	1	0
"आइसलैंड"	0	0	0	0	1

वन-हॉट एन्कोडिंग की मदद से, मॉडल पांचों देशों के आधार पर अलग-अलग कनेक्शन के बारे में जान सकता है.

किसी फ़ीचर को न्यूमेरिकल डेटा के तौर पर दिखाना, वन-हॉट एन्कोडिंग का एक विकल्प है. माफ़ करें, स्कैंडिनेवियन देशों को संख्या के हिसाब से दिखाना सही नहीं है. उदाहरण के लिए, यहां दिए गए संख्यात्मक फ़ॉर्मैट पर ध्यान दें:

"डेनमार्क" के लिए 0
"स्वीडन" 1 है
"नॉर्वे" की वैल्यू 2 है
"फ़िनलैंड" की वैल्यू 3 है
"आइसलैंड" 4 है

न्यूमेरिक एन्कोडिंग की मदद से, मॉडल रॉ नंबर को गणित के हिसाब से समझता है और उन नंबरों के आधार पर ट्रेनिंग लेता है. हालांकि, आइसलैंड में नॉर्वे की तुलना में किसी चीज़ की कीमत दोगुनी (या आधी) नहीं है. इसलिए, मॉडल कुछ अजीब नतीजे देगा.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटेगरी के हिसाब से डेटा: शब्दावली और वन-हॉट एन्कोडिंग देखें.

वन-वर्सेज़-ऑल

#fundamentals

अगर क्लासिफ़िकेशन की समस्या में N क्लास हैं, तो N अलग-अलग बाइनरी क्लासिफ़िकेशन मॉडल का इस्तेमाल किया जाता है. हर संभावित नतीजे के लिए एक बाइनरी क्लासिफ़िकेशन मॉडल होता है. उदाहरण के लिए, अगर कोई मॉडल उदाहरणों को जानवर, सब्ज़ी या खनिज के तौर पर कैटगरी में बांटता है, तो वन-वर्सेज़-ऑल (एक बनाम सभी) समाधान, बाइनरी क्लासिफ़िकेशन (दो कैटगरी में बांटने वाला) के ये तीन अलग-अलग मॉडल उपलब्ध कराएगा:

जानवर बनाम जानवर नहीं
सब्ज़ी है या नहीं
मिनरल है या नहीं

online

#fundamentals

डाइनैमिक के लिए समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग के आधार पर अनुमान जनरेट करना. उदाहरण के लिए, मान लें कि कोई ऐप्लिकेशन, मॉडल को इनपुट देता है और अनुमान लगाने का अनुरोध करता है. ऑनलाइन इन्फ़्रेंस का इस्तेमाल करने वाला सिस्टम, मॉडल को चलाकर अनुरोध का जवाब देता है. साथ ही, ऐप्लिकेशन को अनुमानित नतीजे दिखाता है.

इसकी तुलना ऑफ़लाइन इन्फ़रेंस से करें.

ज़्यादा जानकारी के लिए, Machine Learning Crash Course में Production ML systems: Static versus dynamic inference देखें.

आउटपुट लेयर

#fundamentals

न्यूरल नेटवर्क की "फ़ाइनल" लेयर. आउटपुट लेयर में अनुमान शामिल होता है.

इस इलस्ट्रेशन में, इनपुट लेयर, दो छिपी हुई लेयर, और आउटपुट लेयर वाला एक छोटा डीप न्यूरल नेटवर्क दिखाया गया है:

ओवरफ़िटिंग

#fundamentals

ऐसा मॉडल बनाना जो ट्रेनिंग डेटा से इतना मिलता-जुलता हो कि मॉडल नए डेटा के आधार पर सही अनुमान न लगा पाए.

रेगुलराइज़ेशन से ओवरफ़िटिंग को कम किया जा सकता है. बड़े और अलग-अलग तरह के ट्रेनिंग सेट पर ट्रेनिंग देने से भी ओवरफ़िटिंग कम हो सकती है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

ओवरफ़िटिंग का मतलब है कि सिर्फ़ अपने पसंदीदा शिक्षक की सलाह को पूरी तरह से मानना. ऐसा हो सकता है कि आपको उस शिक्षक की क्लास में अच्छे नंबर मिल जाएं. हालांकि, ऐसा भी हो सकता है कि आप उस शिक्षक के विचारों के हिसाब से जवाब दें और आपको अन्य क्लास में अच्छे नंबर न मिलें. अलग-अलग शिक्षकों से सलाह लेने पर, आपको नई स्थितियों के हिसाब से बेहतर तरीके से ढलने में मदद मिलेगी.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग देखें.

P

पांडा

#fundamentals

यह कॉलम के हिसाब से डेटा का विश्लेषण करने वाला एपीआई है. इसे numpy के आधार पर बनाया गया है. TensorFlow जैसे कई मशीन लर्निंग फ़्रेमवर्क, pandas डेटा स्ट्रक्चर को इनपुट के तौर पर इस्तेमाल करते हैं. ज़्यादा जानकारी के लिए, pandas का दस्तावेज़ देखें.

पैरामीटर

#fundamentals

वेट और बायस, जो मॉडल ट्रेनिंग के दौरान सीखता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल में, पैरामीटर में बायस (b) और इस फ़ॉर्मूले में मौजूद सभी वेट (w₁, w₂ वगैरह) शामिल होते हैं:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

इसके उलट, हाइपरपैरामीटर वे वैल्यू होती हैं जिन्हें आप (या हाइपरपैरामीटर ट्यूनिंग सेवा) मॉडल को उपलब्ध कराती हैं. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

#Metric

वह क्लास जिसके लिए आपको टेस्ट करना है.

उदाहरण के लिए, कैंसर के मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल क्लासिफ़िकेशन मॉडल में पॉज़िटिव क्लास "स्पैम" हो सकती है.

नेगेटिव क्लास से तुलना करें.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

पॉज़िटिव क्लास शब्द से भ्रम हो सकता है, क्योंकि कई टेस्ट के "पॉज़िटिव" नतीजे अक्सर अवांछित होते हैं. उदाहरण के लिए, कई मेडिकल टेस्ट में पॉज़िटिव क्लास, ट्यूमर या बीमारियों से जुड़ी होती है. आम तौर पर, आपको डॉक्टर से यह सुनने की उम्मीद होती है कि "बधाई हो! आपकी जांच के नतीजे नेगेटिव हैं." हालांकि, पॉज़िटिव क्लास वह इवेंट होता है जिसे टेस्ट में ढूंढने की कोशिश की जाती है.

हालांकि, एक साथ पॉज़िटिव और नेगेटिव, दोनों क्लास के लिए टेस्टिंग की जा रही है.

प्रोसेस होने के बाद

#responsible

#fundamentals

मॉडल के चलने के बाद, उसके आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, निष्पक्षता से जुड़ी शर्तों को लागू करने के लिए किया जा सकता है. इसके लिए, मॉडल में बदलाव करने की ज़रूरत नहीं होती.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इसके लिए, क्लासिफ़िकेशन थ्रेशोल्ड को इस तरह से सेट किया जाता है कि किसी एट्रिब्यूट के लिए अवसर की समानता बनी रहे. इसके लिए, यह जांच की जाती है कि उस एट्रिब्यूट की सभी वैल्यू के लिए ट्रू पॉज़िटिव रेट एक जैसा है.

प्रीसिज़न

#fundamentals

#Metric

यह वर्गीकरण मॉडल के लिए एक मेट्रिक है. इससे इस सवाल का जवाब मिलता है:

जब मॉडल ने पॉज़िटिव क्लास का अनुमान लगाया, तो कितने प्रतिशत अनुमान सही थे?

यहां फ़ॉर्मूला दिया गया है:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

कहां:

ट्रू पॉज़िटिव का मतलब है कि मॉडल ने पॉज़िटिव क्लास का सही अनुमान लगाया है.
फ़ॉल्स पॉज़िटिव का मतलब है कि मॉडल ने पॉज़िटिव क्लास का गलत अनुमान लगाया है.

उदाहरण के लिए, मान लें कि किसी मॉडल ने 200 पॉज़िटिव अनुमान लगाए. इन 200 पॉज़िटिव अनुमानों में से:

इनमें से 150 सही पॉज़िटिव थे.
इनमें से 50 फ़ॉल्स पॉज़िटिव थे.

इस मामले में:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

इसकी तुलना सटीकता और रीकॉल से करें.

अनुमान

#fundamentals

मॉडल का आउटपुट. उदाहरण के लिए:

बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान, पॉज़िटिव क्लास या नेगेटिव क्लास होता है.
मल्टी-क्लास क्लासिफ़िकेशन मॉडल का अनुमान, एक क्लास होता है.
लीनियर रिग्रेशन मॉडल का अनुमान एक संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

लेबल का अनुमान लगाने के लिए इस्तेमाल किया गया डेटा, डेटासेट में सीधे तौर पर उपलब्ध नहीं है.

उदाहरण के लिए, मान लें कि आपको किसी मॉडल को कर्मचारी के तनाव के स्तर का अनुमान लगाने के लिए ट्रेन करना है. आपके डेटासेट में अनुमान लगाने वाली कई सुविधाएं हैं, लेकिन इसमें तनाव का स्तर नाम का कोई लेबल नहीं है. आपने "काम की जगह पर होने वाली दुर्घटनाएं" को तनाव के लेवल के लिए प्रॉक्सी लेबल के तौर पर चुना. ऐसा इसलिए है, क्योंकि तनाव में रहने वाले कर्मचारियों के साथ, शांत रहने वाले कर्मचारियों की तुलना में ज़्यादा दुर्घटनाएं होती हैं. या फिर ऐसा होता है? ऐसा हो सकता है कि काम की जगह पर होने वाली दुर्घटनाओं की संख्या में कई वजहों से उतार-चढ़ाव होता हो.

दूसरे उदाहरण के तौर पर, मान लें कि आपको अपने डेटासेट के लिए, क्या बारिश हो रही है? को बूलियन लेबल के तौर पर इस्तेमाल करना है, लेकिन आपके डेटासेट में बारिश का डेटा मौजूद नहीं है. अगर फ़ोटोग्राफ़ उपलब्ध हैं, तो क्या बारिश हो रही है? के लिए, छाता लिए हुए लोगों की तस्वीरों को प्रॉक्सी लेबल के तौर पर इस्तेमाल किया जा सकता है क्या यह एक अच्छा प्रॉक्सी लेबल है? ऐसा हो सकता है. हालांकि, कुछ संस्कृतियों में लोग बारिश से बचने के बजाय, धूप से बचने के लिए छतरी का इस्तेमाल ज़्यादा करते हैं.

प्रॉक्सी लेबल अक्सर सही नहीं होते. जब भी संभव हो, प्रॉक्सी लेबल के बजाय असली लेबल चुनें. हालांकि, जब कोई असल लेबल मौजूद न हो, तो प्रॉक्सी लेबल को बहुत सोच-समझकर चुनें. साथ ही, सबसे कम खराब प्रॉक्सी लेबल कैंडिडेट को चुनें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: लेबल देखें.

R

RAG

#fundamentals

रिट्रीवल-ऑगमेंटेड जनरेशन का संक्षिप्त नाम.

रेटिंग देने वाला

#fundamentals

एक ऐसा व्यक्ति जो उदाहरणों के लिए लेबल देता है. "एनोटेटर", रेटर का दूसरा नाम है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटेगरी के हिसाब से बंटा हुआ डेटा: सामान्य समस्याएं देखें.

रीकॉल

#fundamentals

#Metric

यह वर्गीकरण मॉडल के लिए एक मेट्रिक है. इससे इस सवाल का जवाब मिलता है:

जब ग्राउंड ट्रुथ, पॉज़िटिव क्लास थी, तब मॉडल ने कितने प्रतिशत अनुमानों को पॉज़िटिव क्लास के तौर पर सही तरीके से पहचाना?

यहां फ़ॉर्मूला दिया गया है:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

कहां:

ट्रू पॉज़िटिव का मतलब है कि मॉडल ने पॉज़िटिव क्लास का सही अनुमान लगाया है.
फ़ॉल्स नेगेटिव का मतलब है कि मॉडल ने गलती से नेगेटिव क्लास का अनुमान लगाया है.

उदाहरण के लिए, मान लें कि आपके मॉडल ने उन उदाहरणों के लिए 200 अनुमान लगाए जिनके लिए ग्राउंड ट्रुथ पॉज़िटिव क्लास था. इन 200 अनुमानों में से:

इनमें से 180 ट्रू पॉज़िटिव थे.
इनमें से 20 फ़ॉल्स नेगेटिव थे.

इस मामले में:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

क्लास के हिसाब से डेटासेट में अंतर होने के बारे में नोट देखने के लिए, आइकॉन पर क्लिक करें.

रिकॉल, खास तौर पर उन क्लासिफ़िकेशन मॉडल की अनुमान लगाने की क्षमता का पता लगाने के लिए उपयोगी होता है जिनमें पॉज़िटिव क्लास कम होती है. उदाहरण के लिए, क्लास-इंबैलेंस वाले डेटासेट पर विचार करें. इसमें किसी बीमारी के लिए पॉज़िटिव क्लास, 10 लाख में से सिर्फ़ 10 मरीज़ों में दिखती है. मान लें कि आपका मॉडल पांच करोड़ अनुमान लगाता है. इससे ये नतीजे मिलते हैं:

30 ट्रू पॉज़िटिव
20 फ़ॉल्स नेगेटिव
49,99,000 ट्रू नेगेटिव
950 फ़ॉल्स पॉज़िटिव

इसलिए, इस मॉडल का रिकॉल यह है:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

इसके उलट, इस मॉडल की सटीकता यह है:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

सटीकता की यह ज़्यादा वैल्यू देखने में अच्छी लगती है, लेकिन इसका कोई मतलब नहीं है. क्लास-इंबैलेंस वाले डेटासेट के लिए, सटीकता की तुलना में रीकॉल ज़्यादा काम की मेट्रिक है.

ज़्यादा जानकारी के लिए, क्लासिफ़िकेशन: सटीकता, रिकॉल, सटीक और इससे जुड़ी मेट्रिक देखें.

रेक्टिफ़ाइड लीनियर यूनिट (आरईएलयू)

#fundamentals

ऐक्टिवेशन फ़ंक्शन, जो इस तरह काम करता है:

अगर इनपुट नेगेटिव या शून्य है, तो आउटपुट 0 होता है.
अगर इनपुट पॉज़िटिव है, तो आउटपुट इनपुट के बराबर होता है.

उदाहरण के लिए:

अगर इनपुट -3 है, तो आउटपुट 0 होगा.
अगर इनपुट +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का एक प्लॉट दिया गया है:

ReLU, एक बहुत लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. आसान तरीके से काम करने के बावजूद, ReLU की मदद से न्यूरल नेटवर्क, नॉनलीनियर तरीके से विशेषताओं और लेबल के बीच संबंध सीख सकता है.

रिग्रेशन मॉडल

#fundamentals

आसान शब्दों में कहें, तो यह एक ऐसा मॉडल है जो संख्या के तौर पर अनुमान जनरेट करता है. (इसके उलट, क्लासिफ़िकेशन मॉडल, क्लास के बारे में अनुमान लगाता है.) उदाहरण के लिए, ये सभी रिग्रेशन मॉडल हैं:

ऐसा मॉडल जो किसी घर की कीमत का अनुमान यूरो में लगाता है. जैसे, 4,23,000.
ऐसा मॉडल जो किसी पेड़ की उम्र का अनुमान लगाता है. जैसे, 23.2 साल.
यह मॉडल, अगले छह घंटों में किसी शहर में होने वाली बारिश का अनुमान इंच में लगाता है. जैसे, 0.18.

आम तौर पर, दो तरह के रिग्रेशन मॉडल इस्तेमाल किए जाते हैं:

लीनियर रिग्रेशन, जो ऐसी लाइन ढूंढता है जो लेबल वैल्यू को सुविधाओं के हिसाब से सबसे सही तरीके से फ़िट करती है.
लॉजिस्टिक रिग्रेशन, जो 0.0 और 1.0 के बीच की प्रोबेबिलिटी जनरेट करता है. आम तौर पर, सिस्टम इस प्रोबेबिलिटी को क्लास के अनुमान पर मैप करता है.

संख्यात्मक अनुमान देने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, संख्यात्मक अनुमान लगाने वाला मॉडल सिर्फ़ एक क्लासिफ़िकेशन मॉडल होता है. हालांकि, इसमें क्लास के नाम संख्यात्मक होते हैं. उदाहरण के लिए, पिन कोड का अनुमान लगाने वाला मॉडल, क्लासिफ़िकेशन मॉडल होता है, न कि रिग्रेशन मॉडल.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जिससे ओवरफ़िटिंग कम हो जाती है. रेगुलराइज़ेशन के लोकप्रिय टाइप में ये शामिल हैं:

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन
ड्रॉपआउट रेगुलराइज़ेशन
अर्ली स्टॉपिंग (यह सामान्य तौर पर इस्तेमाल होने वाला तरीका नहीं है, लेकिन इससे ओवरफ़िटिंग को कम किया जा सकता है)

रेगुलराइज़ेशन को मॉडल की जटिलता पर लगने वाले जुर्माने के तौर पर भी तय किया जा सकता है.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन, काउंटरइंट्यूटिव है. रेगुलराइज़ेशन बढ़ाने से, ट्रेनिंग लॉस आम तौर पर बढ़ता है. यह उलझन भरा है, क्योंकि ट्रेनिंग लॉस को कम करना ही तो हमारा लक्ष्य होता है, है न?

दरअसल, ऐसा नहीं है. हमारा मकसद ट्रेनिंग लॉस को कम करना नहीं है. इसका मकसद, असल दुनिया से जुड़े उदाहरणों के बारे में सटीक अनुमान लगाना है. खास बात यह है कि रेगुलराइज़ेशन बढ़ाने से ट्रेनिंग लॉस बढ़ता है. हालांकि, इससे मॉडल को आम तौर पर, असल दुनिया से जुड़े उदाहरणों के बारे में बेहतर अनुमान लगाने में मदद मिलती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: मॉडल की जटिलता देखें.

रेगुलराइज़ेशन रेट

#fundamentals

यह एक ऐसा नंबर होता है जो ट्रेनिंग के दौरान, रेगुलराइज़ेशन के महत्व को दिखाता है. रेगुलराइज़ेशन रेट बढ़ाने से ओवरफ़िटिंग कम हो जाती है. हालांकि, इससे मॉडल की अनुमान लगाने की क्षमता कम हो सकती है. इसके उलट, रेगुलराइज़ेशन रेट को कम करने या हटाने से ओवरफ़िटिंग बढ़ जाती है.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन रेट को आम तौर पर, ग्रीक अक्षर लेम्ब्डा के तौर पर दिखाया जाता है. नुकसान के इस आसान समीकरण में, लैम्डा के असर को दिखाया गया है:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

यहां रेगुलराइज़ेशन, रेगुलराइज़ेशन का कोई भी तरीका है. जैसे:

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन

ReLU

#fundamentals

Rectified Linear Unit के लिए इस्तेमाल किया जाने वाला छोटा नाम.

रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी)

#fundamentals

यह लार्ज लैंग्वेज मॉडल (एलएलएम) के आउटपुट की क्वालिटी को बेहतर बनाने की एक तकनीक है. इसके लिए, मॉडल को ट्रेन करने के बाद, जानकारी के स्रोतों से हासिल की गई जानकारी का इस्तेमाल किया जाता है. आरएजी, एलएलएम के जवाबों को ज़्यादा सटीक बनाता है. इसके लिए, यह ट्रेनिंग वाले एलएलएम को भरोसेमंद नॉलेज बेस या दस्तावेज़ों से मिली जानकारी का ऐक्सेस देता है.

जानकारी खोजकर जवाब जनरेट करने की तकनीक का इस्तेमाल करने की सामान्य वजहें ये हैं:

मॉडल से जनरेट किए गए जवाबों में तथ्यों की सटीकता को बढ़ाना.
मॉडल को ऐसी जानकारी का ऐक्सेस देना जिसके बारे में उसे ट्रेनिंग नहीं दी गई है.
मॉडल जिस जानकारी का इस्तेमाल करता है उसे बदलना.
मॉडल को सोर्स के उद्धरण देने की सुविधा चालू करना.

उदाहरण के लिए, मान लें कि कोई केमिस्ट्री ऐप्लिकेशन, उपयोगकर्ता की क्वेरी से जुड़ी खास जानकारी जनरेट करने के लिए PaLM API का इस्तेमाल करता है. जब ऐप्लिकेशन के बैकएंड को कोई क्वेरी मिलती है, तो बैकएंड:

यह कुकी, उपयोगकर्ता की क्वेरी से जुड़ा डेटा खोजती है ("फिर से पाती है").
यह उपयोगकर्ता की क्वेरी में, केमिस्ट्री से जुड़ा काम का डेटा जोड़ता है ("बढ़ाता है").
यह LLM को, जोड़े गए डेटा के आधार पर खास जानकारी बनाने का निर्देश देता है.

आरओसी (रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक) कर्व

#fundamentals

#Metric

यह बाइनरी क्लासिफ़िकेशन में, अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड के लिए, ट्रू पॉज़िटिव रेट बनाम फ़ॉल्स पॉज़िटिव रेट का ग्राफ़ है.

आरओसी कर्व का आकार, बाइनरी क्लासिफ़िकेशन मॉडल की पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता के बारे में बताता है. उदाहरण के लिए, मान लें कि बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव क्लास को सभी पॉज़िटिव क्लास से पूरी तरह अलग करता है:

एक संख्या रेखा, जिसमें दाईं ओर आठ पॉज़िटिव उदाहरण और बाईं ओर सात नेगेटिव उदाहरण दिए गए हैं.

ऊपर दिए गए मॉडल के लिए आरओसी कर्व ऐसा दिखता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर ट्रू पॉज़िटिव रेट है. कर्व का आकार उल्टे L जैसा है. यह कर्व (0.0,0.0) से शुरू होता है और सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व (0.0,1.0) से (1.0,1.0) तक जाता है.

इसके उलट, इस इमेज में एक खराब मॉडल के लिए लॉजिस्टिक रिग्रेशन की रॉ वैल्यू दिखाई गई हैं. यह मॉडल, नेगेटिव क्लास को पॉज़िटिव क्लास से अलग नहीं कर सकता:

एक संख्या रेखा, जिसमें पॉज़िटिव उदाहरण और नेगेटिव क्लास पूरी तरह से एक-दूसरे में शामिल हैं.

इस मॉडल के लिए आरओसी कर्व ऐसा दिखता है:

आरओसी कर्व, जो असल में (0.0,0.0) से (1.0,1.0) तक की एक सीधी लाइन होती है.

वहीं, असल दुनिया में ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव और नेगेटिव क्लास को कुछ हद तक अलग करते हैं. हालांकि, वे आम तौर पर ऐसा पूरी तरह से नहीं कर पाते. इसलिए, एक सामान्य आरओसी कर्व, इन दोनों एक्सट्रीम के बीच कहीं होता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर ट्रू पॉज़िटिव रेट है. आरओसी कर्व, एक अस्थिर आर्क के जैसा दिखता है. यह कंपास के पॉइंट को पश्चिम से उत्तर की ओर ले जाता है.

आरओसी कर्व पर (0.0,1.0) के सबसे करीब वाला पॉइंट, सैद्धांतिक तौर पर सबसे सही क्लासिफ़िकेशन थ्रेशोल्ड की पहचान करता है. हालांकि, असल दुनिया की कई अन्य समस्याएं, क्लासिफ़िकेशन के सही थ्रेशोल्ड को चुनने पर असर डालती हैं. उदाहरण के लिए, ऐसा हो सकता है कि गलत पहचान किए जाने से ज़्यादा नुकसान, पहचान न किए जाने से होता हो.

AUC नाम की संख्यात्मक मेट्रिक, आरओसी कर्व को एक फ़्लोटिंग-पॉइंट वैल्यू में बदल देती है.

रूट मीन स्क्वेयर्ड एरर (आरएमएसई)

#fundamentals

#Metric

यह मीन स्क्वेयर्ड एरर का वर्गमूल होता है.

S

सिगमॉइड फ़ंक्शन

#fundamentals

यह एक गणितीय फ़ंक्शन है, जो इनपुट वैल्यू को सीमित रेंज में "स्क्वीज़" करता है. आम तौर पर, यह रेंज 0 से 1 या -1 से +1 होती है. इसका मतलब है कि सिग्मॉइड फ़ंक्शन में कोई भी संख्या (दो, दस लाख, नेगेटिव अरब वगैरह) डाली जा सकती है. हालांकि, आउटपुट हमेशा तय सीमा के अंदर ही होगा. सिगमॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

मशीन लर्निंग में सिगमॉइड फ़ंक्शन का इस्तेमाल कई कामों के लिए किया जाता है. जैसे:

लॉजिस्टिक रिग्रेशन या मल्टीनोमियल रिग्रेशन मॉडल के रॉ आउटपुट को संभावना में बदलना.
कुछ न्यूरल नेटवर्क में ऐक्टिवेशन फ़ंक्शन के तौर पर काम करता है.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

किसी इनपुट नंबर x के लिए सिगमॉइड फ़ंक्शन का फ़ॉर्मूला यह है:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

मशीन लर्निंग में, x आम तौर पर वेटेड सम होता है.

सॉफ़्टमैक्स

#fundamentals

यह फ़ंक्शन, मल्टी-क्लास क्लासिफ़िकेशन मॉडल में हर संभावित क्लास के लिए संभावनाएं तय करता है. सभी संभावनाओं का जोड़ 1.0 होता है. उदाहरण के लिए, यहां दी गई टेबल से पता चलता है कि सॉफ़्टमैक्स, अलग-अलग संभावनाओं को कैसे डिस्ट्रिब्यूट करता है:

इमेज एक...	प्रॉबेबिलिटी
कुत्ता	.85
cat	.13
घोड़ा	.02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवार के सैंपल से तुलना करें.

गणित के सवाल देखने के लिए, आइकॉन पर क्लिक करें.

सॉफ़्टमैक्स समीकरण यह है:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

where:

$\sigma_i$ आउटपुट वेक्टर है. आउटपुट वेक्टर का हर एलिमेंट, इस एलिमेंट की संभावना के बारे में बताता है. आउटपुट वेक्टर में मौजूद सभी एलिमेंट का योग 1.0 होता है. आउटपुट वेक्टर में उतने ही एलिमेंट होते हैं जितने इनपुट वेक्टर $z$ में होते हैं.
$z$ इनपुट वेक्टर है. इनपुट वेक्टर के हर एलिमेंट में फ़्लोटिंग-पॉइंट वैल्यू होती है.
$K$ इनपुट वेक्टर में मौजूद एलिमेंट की संख्या है. साथ ही, यह आउटपुट वेक्टर में मौजूद एलिमेंट की संख्या भी है.

उदाहरण के लिए, मान लें कि इनपुट वेक्टर यह है:

[1.2, 2.5, 1.8]

इसलिए, सॉफ़्टमैक्स, डिनॉमिनेटर का हिसाब इस तरह लगाता है:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

इसलिए, हर एलिमेंट की सॉफ़्टमैक्स संभावना यह है:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

इसलिए, आउटपुट वेक्टर यह है:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ में मौजूद तीनों एलिमेंट का जोड़ 1.0 है. वाह!

स्पार्स फ़ीचर

#fundamentals

ऐसी सुविधा जिसकी वैल्यू ज़्यादातर शून्य या खाली होती हैं. उदाहरण के लिए, अगर किसी सुविधा में एक वैल्यू 1 है और 10 लाख वैल्यू 0 हैं, तो उसे स्पार्स कहा जाता है. इसके उलट, डेंस फ़ीचर में ऐसी वैल्यू होती हैं जो ज़्यादातर शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में, कई फ़ीचर स्पार्स फ़ीचर होते हैं. कैटगोरिकल फ़ीचर आम तौर पर स्पार्स फ़ीचर होती हैं. उदाहरण के लिए, किसी जंगल में पेड़ की 300 प्रजातियां हो सकती हैं. ऐसे में, किसी एक उदाहरण में सिर्फ़ मेपल के पेड़ की पहचान की जा सकती है. इसके अलावा, वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से किसी एक उदाहरण में सिर्फ़ "कैसाब्लांका" की पहचान की जा सकती है.

किसी मॉडल में, आम तौर पर स्पार्स फ़ीचर को वन-हॉट एन्कोडिंग की मदद से दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए, वन-हॉट एन्कोडिंग के ऊपर एंबेडिंग लेयर लगाई जा सकती है.

स्पार्स वेक्टर के तौर पर दिखाना

#fundamentals

स्पार्स फ़ीचर में, सिर्फ़ गैर-शून्य एलिमेंट की जगह(जगहों) को सेव करना.

उदाहरण के लिए, मान लें कि कैटगरी वाली कोई सुविधा है, जिसका नाम species है. यह किसी जंगल में मौजूद 36 तरह के पेड़ों की पहचान करती है. यह भी मान लें कि हर उदाहरण में सिर्फ़ एक प्रजाति की पहचान की गई है.

हर उदाहरण में पेड़ की प्रजातियों को दिखाने के लिए, वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. वन-हॉट वेक्टर में एक 1 (उदाहरण में पेड़ की किसी खास प्रजाति को दिखाने के लिए) और 35 0 (उदाहरण में पेड़ की 35 प्रजातियों को नहीं दिखाने के लिए) शामिल होंगे. इसलिए, maple का वन-हॉट रिप्रेजेंटेशन कुछ ऐसा दिख सकता है:

यह एक ऐसा वेक्टर है जिसमें 0 से 23 तक की पोज़िशन में वैल्यू 0 है, 24वीं पोज़िशन में वैल्यू 1 है, और 25 से 35 तक की पोज़िशन में वैल्यू 0 है.

इसके अलावा, स्पार्स रिप्रेजेंटेशन से सिर्फ़ किसी खास प्रजाति की जगह की पहचान की जा सकती है. अगर maple 24वीं पोज़िशन पर है, तो maple का स्पार्स प्रज़ेंटेशन इस तरह होगा:

ध्यान दें कि स्पार्स प्रज़ेंटेशन, वन-हॉट प्रज़ेंटेशन की तुलना में ज़्यादा कॉम्पैक्ट होता है.

थोड़े ज़्यादा मुश्किल उदाहरण के लिए, आइकॉन पर क्लिक करें.

मान लें कि आपके मॉडल में मौजूद हर उदाहरण में, अंग्रेज़ी के किसी वाक्य में मौजूद शब्दों को शामिल करना ज़रूरी है. हालांकि, उन शब्दों का क्रम मायने नहीं रखता. अंग्रेज़ी में करीब 1,70,000 शब्द होते हैं. इसलिए, अंग्रेज़ी एक कैटगरिकल फ़ीचर है, जिसमें करीब 1,70,000 एलिमेंट होते हैं. अंग्रेज़ी के ज़्यादातर वाक्यों में, उन 1,70,000 शब्दों का बहुत छोटा हिस्सा इस्तेमाल किया जाता है. इसलिए, किसी एक उदाहरण में शब्दों का सेट, लगभग निश्चित रूप से स्पार्स डेटा होगा.

इस वाक्य पर ध्यान दें:

My dog is a great dog

इस वाक्य में मौजूद शब्दों को दिखाने के लिए, वन-हॉट वेक्टर के किसी वैरिएंट का इस्तेमाल किया जा सकता है. इस वैरिएंट में, वेक्टर की एक से ज़्यादा सेल में शून्य से अलग वैल्यू हो सकती है. इसके अलावा, इस वैरिएंट में किसी सेल में एक के अलावा कोई और पूर्णांक हो सकता है. हालांकि, वाक्य में "my", "is", "a", और "great" शब्द सिर्फ़ एक बार आए हैं, लेकिन "dog" शब्द दो बार आया है. इस वाक्य में मौजूद शब्दों को दिखाने के लिए, वन-हॉट वेक्टर के इस वैरिएंट का इस्तेमाल करने पर, 1,70,000 एलिमेंट वाला यह वेक्टर मिलता है:

इसी वाक्य को कम शब्दों में इस तरह लिखा जा सकता है:

अगर आपको कोई समस्या आ रही है, तो आइकॉन पर क्लिक करें.

"स्पार्स रिप्रेजेंटेशन" शब्द से कई लोग भ्रमित हो जाते हैं, क्योंकि स्पार्स रिप्रेजेंटेशन स्पार्स वेक्टर नहीं होता. इसके बजाय, स्पार्स रिप्रेजेंटेशन, स्पार्स वेक्टर का डेंस रिप्रेजेंटेशन होता है. समानार्थी शब्द इंडेक्स रिप्रेजेंटेशन, "स्पार्स रिप्रेजेंटेशन" से ज़्यादा सटीक है.

स्पार्स वेक्टर

#fundamentals

ऐसा वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती हैं. विरल फ़ीचर और विरलता के बारे में भी जानें.

स्क्वेयर्ड लॉस

#fundamentals

#Metric

L₂ नुकसान के लिए समानार्थी शब्द.

स्टैटिक

#fundamentals

कोई काम जो लगातार न किया जाए, बल्कि एक बार किया जाए. स्टैटिक और ऑफ़लाइन शब्द एक-दूसरे के समानार्थी हैं. मशीन लर्निंग में, static और offline का इस्तेमाल आम तौर पर इन कामों के लिए किया जाता है:

स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) एक ऐसा मॉडल होता है जिसे एक बार ट्रेन किया जाता है. इसके बाद, इसका इस्तेमाल कुछ समय तक किया जाता है.
स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग) का मतलब, स्टैटिक मॉडल को ट्रेनिंग देने की प्रोसेस से है.
स्टैटिक इन्फ़रेंस (या ऑफ़लाइन इन्फ़रेंस) एक ऐसी प्रोसेस है जिसमें मॉडल, एक बार में अनुमानों का एक बैच जनरेट करता है.

डाइनैमिक के साथ कंट्रास्ट करें.

स्टैटिक इन्फ़रेंस

#fundamentals

ऑफ़लाइन इन्फ़रेंस के लिए समानार्थी शब्द.

स्टेशनैरिटी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन (आम तौर पर, समय) में नहीं बदलती. उदाहरण के लिए, अगर किसी सुविधा की वैल्यू 2021 और 2023 में लगभग एक जैसी दिखती हैं, तो इसका मतलब है कि वह सुविधा स्टेशनरी है.

असल दुनिया में, बहुत कम सुविधाओं में स्टेशनरी की सुविधा होती है. स्थिरता से जुड़ी सुविधाओं (जैसे, समुद्र का स्तर) में भी समय के साथ बदलाव होता है.

इसकी तुलना नॉनस्टेशनैरिटी से करें.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

यह ग्रैडिएंट डिसेंट एल्गोरिदम है, जिसमें बैच साइज़ एक होता है. दूसरे शब्दों में कहें, तो SGD, ट्रेनिंग सेट से एक उदाहरण को रैंडम तरीके से चुनकर ट्रेनिंग देता है.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

सुविधाओं और उनके लेबल से मॉडल को ट्रेनिंग देना. सुपरवाइज़्ड मशीन लर्निंग, सवालों के सेट और उनके जवाबों का अध्ययन करके किसी विषय को सीखने जैसा है. जब छात्र-छात्रा को सवालों और जवाबों के बीच मैपिंग करने में महारत हासिल हो जाती है, तब वह उसी विषय पर नए (पहले कभी नहीं देखे गए) सवालों के जवाब दे सकता है.

इसकी तुलना अनसुपरवाइज़्ड मशीन लर्निंग से करें.

ज़्यादा जानकारी के लिए, एमएल कोर्स की बुनियादी जानकारी में पर्यवेक्षित लर्निंग देखें.

सिंथेटिक फ़ीचर

#fundamentals

ऐसी सुविधा जो इनपुट सुविधाओं में मौजूद नहीं है, लेकिन उनमें से एक या उससे ज़्यादा सुविधाओं से मिलकर बनी है. अप्राकृतिक सुविधाओं को बनाने के तरीकों में ये शामिल हैं:

किसी कंटीन्यूअस फ़ीचर को रेंज बिन में बकेटिंग करना.
क्रॉस-फ़िचर बनाना.
किसी सुविधा की वैल्यू को दूसरी सुविधा की वैल्यू या खुद से गुणा (या भाग) करना. उदाहरण के लिए, अगर a और b इनपुट फ़ीचर हैं, तो यहां सिंथेटिक फ़ीचर के उदाहरण दिए गए हैं:
- ab
- a²
किसी सुविधा की वैल्यू पर ट्रांसेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c एक इनपुट सुविधा है, तो यहां सिंथेटिक सुविधाओं के उदाहरण दिए गए हैं:
- sin(c)
- ln(c)

सिर्फ़ नॉर्मलाइज़ेशन या स्केलिंग करके बनाई गई सुविधाओं को सिंथेटिक सुविधाएं नहीं माना जाता.

T

टेस्ट लॉस

#fundamentals

#Metric

यह मेट्रिक, टेस्ट सेट के हिसाब से मॉडल के लॉस को दिखाती है. मॉडल बनाते समय, आम तौर पर टेस्ट लॉस को कम करने की कोशिश की जाती है. ऐसा इसलिए है, क्योंकि कम टेस्ट लॉस, कम ट्रेनिंग लॉस या कम वैलिडेशन लॉस की तुलना में ज़्यादा भरोसेमंद क्वालिटी सिग्नल होता है.

कभी-कभी, टेस्ट लॉस और ट्रेनिंग लॉस या पुष्टि करने के लॉस के बीच का अंतर यह बताता है कि आपको रेगुलराइज़ेशन रेट को बढ़ाना होगा.

ट्रेनिंग

#fundamentals

मॉडल में शामिल पैरामीटर (वज़न और बायस) तय करने की प्रोसेस. ट्रेनिंग के दौरान, सिस्टम उदाहरण पढ़ता है और धीरे-धीरे पैरामीटर में बदलाव करता है. ट्रेनिंग के दौरान, हर उदाहरण का इस्तेमाल कुछ बार से लेकर अरबों बार तक किया जाता है.

ट्रेनिंग लॉस

#fundamentals

#Metric

यह मेट्रिक, ट्रेनिंग के किसी खास इटरेशन के दौरान मॉडल के लॉस को दिखाती है. उदाहरण के लिए, मान लें कि लॉस फ़ंक्शन Mean Squared Error है. ऐसा हो सकता है कि 10वें इटरेशन के लिए ट्रेनिंग लॉस (मीन स्क्वेयर्ड एरर) 2.2 हो और 100वें इटरेशन के लिए ट्रेनिंग लॉस 1.9 हो.

लॉस कर्व, ट्रेनिंग लॉस की तुलना में इटरेशन की संख्या को प्लॉट करता है. लॉस कर्व से, ट्रेनिंग के बारे में ये संकेत मिलते हैं:

नीचे की ओर झुकी हुई लाइन का मतलब है कि मॉडल बेहतर हो रहा है.
ऊपर की ओर जाती हुई ढलान का मतलब है कि मॉडल की परफ़ॉर्मेंस खराब हो रही है.
स्लोप के फ़्लैट होने का मतलब है कि मॉडल कन्वर्जेंस पर पहुंच गया है.

उदाहरण के लिए, यहां दिए गए लॉस कर्व में यह दिखाया गया है:

शुरुआती इटरेशन के दौरान, नीचे की ओर तेज़ी से गिरता हुआ स्लोप. इससे पता चलता है कि मॉडल में तेज़ी से सुधार हो रहा है.
ट्रेनिंग के आखिर तक, धीरे-धीरे कम होने वाला (लेकिन अब भी नीचे की ओर) स्लोप. इसका मतलब है कि मॉडल में सुधार जारी है, लेकिन शुरुआती इटरेशन की तुलना में कुछ हद तक धीमी गति से.
ट्रेनिंग के आखिर में फ़्लैट स्लोप, जो कन्वर्जेंस का सुझाव देता है.

ट्रेनिंग लॉस बनाम इटरेशन का प्लॉट. इस लॉस कर्व की शुरुआत, नीचे की ओर तेज़ी से गिरते हुए स्लोप से होती है. स्लोप धीरे-धीरे तब तक कम होता है, जब तक स्लोप शून्य नहीं हो जाता.

ट्रेनिंग लॉस अहम होता है. हालांकि, सामान्यीकरण के बारे में भी जानें.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

ट्रेनिंग के दौरान मॉडल की परफ़ॉर्मेंस और सर्विंग के दौरान उसी मॉडल की परफ़ॉर्मेंस के बीच का अंतर.

ट्रेनिंग सेट

#fundamentals

डेटासेट का वह सबसेट जिसका इस्तेमाल मॉडल को ट्रेन करने के लिए किया जाता है.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को तीन अलग-अलग सबसेट में बांटा जाता है:

आदर्श रूप से, डेटासेट में मौजूद हर उदाहरण, ऊपर दिए गए सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, एक ही उदाहरण ट्रेनिंग सेट और पुष्टि करने वाले सेट, दोनों में शामिल नहीं होना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: ओरिजनल डेटासेट को बांटना लेख पढ़ें.

ट्रू नेगेटिव (टीएन)

#fundamentals

#Metric

इस उदाहरण में, मॉडल ने नेगेटिव क्लास का सही अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम नहीं है और वह ईमेल मैसेज वाकई स्पैम नहीं है.

ट्रू पॉज़िटिव (टीपी)

#fundamentals

#Metric

ऐसा उदाहरण जिसमें मॉडल, पॉज़िटिव क्लास का सही अनुमान लगाता है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम है और वह ईमेल मैसेज वाकई स्पैम है.

ट्रू पॉज़िटिव रेट (टीपीआर)

#fundamentals

#Metric

recall का समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

ट्रू पॉज़िटिव रेट, आरओसी कर्व में y-ऐक्सिस होता है.

U

अंडरफ़िटिंग

#fundamentals

मॉडल में अनुमान लगाने की क्षमता कम होना. ऐसा इसलिए होता है, क्योंकि मॉडल ने ट्रेनिंग डेटा की पूरी जटिलता को कैप्चर नहीं किया है. कई समस्याओं की वजह से अंडरफ़िटिंग हो सकती है. इनमें ये समस्याएं शामिल हैं:

सुविधाओं के गलत सेट पर ट्रेनिंग दी गई हो.
बहुत कम इपॉक के लिए ट्रेनिंग दी गई है या लर्निंग रेट बहुत कम है.
रेगुलराइज़ेशन रेट बहुत ज़्यादा होने पर ट्रेनिंग.
डीप न्यूरल नेटवर्क में बहुत कम हिडन लेयर उपलब्ध कराना.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग देखें.

बिना लेबल वाला उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें सुविधाएं शामिल हैं, लेकिन लेबल नहीं है. उदाहरण के लिए, यहां दी गई टेबल में, घर की वैल्यू का अनुमान लगाने वाले मॉडल के तीन ऐसे उदाहरण दिखाए गए हैं जिन्हें लेबल नहीं किया गया है. इनमें से हर उदाहरण में तीन सुविधाएं हैं, लेकिन घर की वैल्यू नहीं है:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र
3	2	15
2	1	72
4	2	34

सेमी-सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग में, ट्रेनिंग के दौरान बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

लेबल किए गए उदाहरण के साथ, बिना लेबल वाले उदाहरण की तुलना करें.

अनसुपरवाइज़्ड मशीन लर्निंग

#clustering

#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेन करना. आम तौर पर, यह लेबल नहीं किया गया डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे ज़्यादा इस्तेमाल, डेटा को मिलते-जुलते उदाहरणों के ग्रुप में क्लस्टर करने के लिए किया जाता है. उदाहरण के लिए, बिना निगरानी वाले मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों को क्लस्टर कर सकता है. इन क्लस्टर का इस्तेमाल, मशीन लर्निंग के अन्य एल्गोरिदम के लिए इनपुट के तौर पर किया जा सकता है. उदाहरण के लिए, संगीत के सुझाव देने वाली सेवा के लिए. अगर काम के लेबल कम हैं या मौजूद नहीं हैं, तो क्लस्टरिंग से मदद मिल सकती है. उदाहरण के लिए, धोखाधड़ी और गलत इस्तेमाल रोकने जैसे डोमेन में क्लस्टर, लोगों को डेटा को बेहतर तरीके से समझने में मदद कर सकते हैं.

इसकी तुलना सुपरवाइज़्ड मशीन लर्निंग से करें.

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

अनसुपरवाइज़्ड मशीन लर्निंग का एक और उदाहरण, मुख्य कॉम्पोनेंट का विश्लेषण (पीसीए) है. उदाहरण के लिए, लाखों शॉपिंग कार्ट के कॉन्टेंट वाले डेटासेट पर पीसीए लागू करने से यह पता चल सकता है कि जिन शॉपिंग कार्ट में नींबू होते हैं उनमें अक्सर एंटासिड भी होते हैं.

ज़्यादा जानकारी के लिए, एमएल के बारे में जानकारी देने वाले कोर्स में मशीन लर्निंग क्या है? देखें.

V

वैलिडेशन

#fundamentals

मॉडल की क्वालिटी का शुरुआती आकलन. पुष्टि करने की प्रोसेस में, मॉडल के अनुमानों की क्वालिटी की जांच की जाती है. इसके लिए, पुष्टि करने के लिए इस्तेमाल किए जाने वाले डेटा सेट का इस्तेमाल किया जाता है.

पुष्टि करने के लिए इस्तेमाल किया गया डेटा, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा से अलग होता है. इसलिए, पुष्टि करने से ओवरफ़िटिंग से बचने में मदद मिलती है.

मॉडल का आकलन करने के लिए, पुष्टि करने वाले सेट का इस्तेमाल करना, टेस्टिंग का पहला राउंड माना जा सकता है. वहीं, मॉडल का आकलन करने के लिए, टेस्ट सेट का इस्तेमाल करना, टेस्टिंग का दूसरा राउंड माना जा सकता है.

पुष्टि करने के दौरान होने वाला नुकसान

#fundamentals

#Metric

यह मेट्रिक, ट्रेनिंग के किसी इटरेशन के दौरान वैलिडेशन सेट पर मॉडल के लॉस को दिखाती है.

जनरलाइज़ेशन कर्व भी देखें.

वैलिडेशन सेट

#fundamentals

डेटासेट का वह सबसेट जो ट्रेन किए गए मॉडल के ख़िलाफ़ शुरुआती आकलन करता है. आम तौर पर, ट्रेन किए गए मॉडल का आकलन वैलिडेशन सेट के आधार पर कई बार किया जाता है. इसके बाद, मॉडल का आकलन टेस्ट सेट के आधार पर किया जाता है.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

W

वज़न का डेटा

#fundamentals

यह एक ऐसी वैल्यू होती है जिसे मॉडल, दूसरी वैल्यू से गुणा करता है. ट्रेनिंग, मॉडल के सबसे सही वेट तय करने की प्रोसेस है; अनुमान, अनुमान लगाने के लिए सीखे गए वेट का इस्तेमाल करने की प्रोसेस है.

लीनियर मॉडल में वेट का उदाहरण देखने के लिए, आइकॉन पर क्लिक करें.

मान लें कि दो सुविधाओं वाला लीनियर मॉडल है. मान लें कि ट्रेनिंग से ये वज़न (और पूर्वाग्रह) तय होते हैं:

बायस, b की वैल्यू 2.2 है
एक फ़ीचर से जुड़ा वेट, w₁, 1.5 है.
दूसरी सुविधा से जुड़ा वज़न, w₂ 0.4 है.

अब यहां एक उदाहरण दिया गया है, जिसमें इन सुविधाओं की वैल्यू दी गई हैं:

एक सुविधा, x₁ की वैल्यू 6 है.
दूसरी सुविधा, x₂ की वैल्यू 10 है.

यह लीनियर मॉडल, अनुमान लगाने के लिए इस फ़ॉर्मूले का इस्तेमाल करता है, y':

$$y' = b + w_1x_1 + w_2x_2$$

इसलिए, अनुमान यह है:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

अगर किसी वज़न की वैल्यू 0 है, तो इसका मतलब है कि उससे जुड़ी सुविधा मॉडल में योगदान नहीं देती है. उदाहरण के लिए, अगर w₁ की वैल्यू 0 है, तो x₁ की वैल्यू से कोई फ़र्क़ नहीं पड़ता.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

वेटेड सम

#fundamentals

सभी काम की इनपुट वैल्यू का योग, जिसे उनके संबंधित वेट से गुणा किया जाता है. उदाहरण के लिए, मान लें कि काम के इनपुट में यह जानकारी शामिल है:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, वज़न के हिसाब से कुल स्कोर यह होगा:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

वेटेड सम, ऐक्टिवेशन फ़ंक्शन का इनपुट आर्ग्युमेंट होता है.

Z

ज़ेड-स्कोर नॉर्मलाइज़ेशन

#fundamentals

यह स्केलिंग की एक ऐसी तकनीक है जो रॉ फ़ीचर वैल्यू को फ़्लोटिंग-पॉइंट वैल्यू से बदल देती है. यह वैल्यू, उस फ़ीचर के औसत से मानक विचलनों की संख्या को दिखाती है. उदाहरण के लिए, मान लें कि किसी सुविधा का औसत 800 है और उसका स्टैंडर्ड डेविएशन 100 है. यहां दी गई टेबल में दिखाया गया है कि Z-स्कोर नॉर्मलाइज़ेशन, रॉ वैल्यू को उसके Z-स्कोर में कैसे मैप करेगा:

असल वैल्यू	ज़ेड-स्कोर
800	0
950	+1.5
575	-2.25

इसके बाद, मशीन लर्निंग मॉडल, रॉ वैल्यू के बजाय उस सुविधा के लिए Z-स्कोर पर ट्रेन करता है.

A

सटीक

सटीकता और क्लास-इंबैलेंस वाले डेटासेट के बारे में ज़्यादा जानने के लिए, आइकॉन पर क्लिक करें.

ऐक्टिवेशन फ़ंक्शन

उदाहरण देखने के लिए, आइकॉन पर क्लिक करें.

आर्टिफ़िशियल इंटेलिजेंस

AUC (आरओसी कर्व के नीचे का हिस्सा)

एयूसी और आरओसी कर्व के बीच के संबंध के बारे में जानने के लिए, आइकॉन पर क्लिक करें.

एयूसी की ज़्यादा औपचारिक परिभाषा के लिए, आइकॉन पर क्लिक करें.

B

बैकप्रॉपैगेशन

बैच

बैच का आकार

पक्षपात (नीतिशास्त्र/निष्पक्षता)

बायस (गणित) या बायस टर्म

बाइनरी क्लासिफ़िकेशन

बकेटिंग

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

C

कैटगोरिकल डेटा

क्लास

क्लासिफ़िकेशन मॉडल

श्रेणी में बाँटने की सीमा

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

डेटा की कैटगरी तय करने वाला

क्लास-इंबैलेंस वाला डेटासेट

क्लिपिंग

कन्फ़्यूज़न मैट्रिक्स

लगातार काम करने वाली सुविधा

कन्वर्जेंस

D

DataFrame

डेटा सेट या डेटासेट

डीप मॉडल

डेंस फ़ीचर

गहराई

डिस्क्रीट सुविधा

डाइनैमिक

डाइनैमिक मॉडल

E

अर्ली स्टॉपिंग

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

एंबेडिंग लेयर

epoch

उदाहरण

F

फ़ॉल्स नेगेटिव (FN)

फ़ॉल्स पॉज़िटिव (FP)

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

सुविधा

सुविधा क्रॉस

फ़ीचर इंजीनियरिंग

TensorFlow के बारे में ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

सुविधाओं का सेट

फ़ीचर वेक्टर

फ़ीडबैक लूप

G

सामान्यीकरण

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

सामान्यीकरण कर्व

ग्रेडिएंट डिसेंट

ग्राउंड ट्रूथ

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

H

छिपी हुई लेयर

हाइपर पैरामीटर

I

स्वतंत्र और समान रूप से डिस्ट्रिब्यूट किया गया (आई.आई.डी.)

अनुमान

इनपुट लेयर

व्याख्या करने की क्षमता

इटरेशन

L

L0 रेगुलराइज़ेशन

अन्य नोट के लिए, आइकॉन पर क्लिक करें.

L1 नुकसान

गणित के फ़ॉर्मूले देखने के लिए, आइकॉन पर क्लिक करें.

L1 रेगुलराइज़ेशन

L2 नुकसान

गणित के फ़ॉर्मूले देखने के लिए, आइकॉन पर क्लिक करें.

L₀ रेगुलराइज़ेशन

L₁ नुकसान

L₁ रेगुलराइज़ेशन

L₂ नुकसान

L₂ रेगुलराइज़ेशन