इस पेज का अनुवाद Cloud Translation API से किया गया है.

मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज पर एमएल की बुनियादी बातों से जुड़े शब्दावली शब्द मौजूद हैं. शब्दावली शब्दों के लिए, यहां क्लिक करें.

A

सटीक

#fundamentals

सही क्लासिफ़िकेशन के अनुमान की संख्या को भाग देने पर मिलने वाली संख्या दिखाता है. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, ऐसा मॉडल जिसने 40 सही अनुमान लगाए और 10 गलत अनुमान लगाए अनुमानों के सटीक होने की यह जानकारी होगी:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन में कुछ खास नाम दिए जाते हैं सही अनुमानों की अलग-अलग कैटगरी के लिए और गलत अनुमान. इसलिए, द्विआधारी (बाइनरी) वर्गीकरण का सटीक फ़ॉर्मूला नीचे दिया गया है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

TP, ट्रू पॉज़िटिव (सही अनुमान) की संख्या होती है.
TN, सही नेगेटिव (सही अनुमान) की संख्या है.
FP गलत सकारात्मक (गलत पूर्वानुमान) की संख्या है.
FN, गलत नेगेटिव (गलत अनुमान) की संख्या होती है.

सटीक होने की तुलना सटीक और फिर से याद करें.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

हालांकि कुछ स्थितियों में यह एक अहम मेट्रिक होती है, लेकिन सटीक होना बेहद ज़रूरी है गुमराह करने वाला कॉन्टेंट. खास तौर पर, सटीक मेट्रिक आम तौर पर खराब मेट्रिक होती है जो डेटा को प्रोसेस करने वाले क्लास-असंतुलित डेटासेट.

उदाहरण के लिए, मान लीजिए कि किसी खास जगह में हर सदी में सिर्फ़ 25 दिन बर्फ़ गिरती है उपोष्णकटिबंधीय शहर. बिना बर्फ़बारी वाले दिनों से (नेगेटिव क्लास) दिनों की सबसे ज़्यादा बर्फ़बारी के साथ (पॉज़िटिव क्लास), बर्फ़बारी का डेटासेट यह शहर वर्ग असंतुलित है. एक बाइनरी क्लासिफ़िकेशन बनाने के बारे में सोचें मॉडल को यह अनुमान लगाना चाहिए कि हर दिन बर्फ़बारी होगी या नहीं बस यह अनुमान लगाता है कि "बर्फ़ नहीं है" मदद मिलती है. यह मॉडल बहुत सटीक है, लेकिन इसमें अनुमान लगाने की कोई क्षमता नहीं है. यहां दी गई टेबल में, एक सदी के अनुमान के नतीजों की खास जानकारी दी गई है:

कैटगरी	नंबर
TP	0
ट्यूनीशिया (TN)	36500
एफ़पी	25
FN	0

इस मॉडल की सटीकता है:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

हालांकि, मॉडल को 99.93% सटीक बनाना ही काफ़ी बेहतर है, लेकिन यह मॉडल अनुमान लगाने की कोई क्षमता नहीं है.

सटीक और आम तौर पर, याद रखना ज़्यादा काम की मेट्रिक होती हैं क्लास-असंतुलित डेटासेट पर ट्रेनिंग किए गए मॉडल का आकलन करने के लिए, सटीक होने के बारे में भी बताया गया है.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

यह एक ऐसा फ़ंक्शन है जो न्यूरल नेटवर्क को यह सीखने में मदद करता है nonlinear सुविधाओं के बीच का जटिल संबंध और लेबल.

ऐक्टिवेशन से जुड़े लोकप्रिय फ़ंक्शन में ये शामिल हैं:

ReLU
सिगमॉइड

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी सीधी लाइन नहीं होते हैं. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में ये शामिल हैं दो सीधी रेखाएं:

दो पंक्तियों वाला कार्टिज़न प्लॉट. पहली पंक्ति में कोई नियतांक है
0 का y मान, जो x-ऐक्सिस के साथ -infinity,0 से 0,-0 तक चल रहा है.
दूसरी लाइन 0,0 से शुरू होती है. इस पंक्ति का स्लोप +1 है, इसलिए
यह 0,0 से लेकर +इनफ़िनिटी,+अनंत तक चलता है.

सिगमॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

दो डाइमेंशन वाला कर्व प्लॉट, जिसमें डोमेन में मौजूद x वैल्यू मौजूद हैं
-अंतरंग से +धनात्मक, जबकि y के मान करीब 0 से लेकर
करीब 1. जब x का मान 0 होता है, तो y का मान 0.5 होता है. कर्व का स्लोप हमेशा होता है
पॉज़िटिव, सबसे ज़्यादा ढलान के साथ 0,0.5 और धीरे-धीरे घटता जा रहा है
x का निरपेक्ष मान बढ़ने पर स्लोप.

उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

न्यूरल नेटवर्क में, ऐक्टिवेशन फ़ंक्शन, सभी इनपुट का वेटेड योग, न्यूरॉन. भारित योग की गणना करने के लिए, न्यूरॉन जोड़ता है प्रासंगिक वैल्यू और वेट वाले प्रॉडक्ट. उदाहरण के लिए, मान लें कि न्यूरॉन के लिए, काम के इनपुट में ये शामिल होते हैं:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, भारित योग यह होता है:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

मान लीजिए कि इस न्यूरल नेटवर्क का डिज़ाइनर sigmoid फ़ंक्शन को ऐक्टिवेशन फ़ंक्शन. उस स्थिति में, न्यूरॉन -2.0 का सिग्मॉइड, जो करीब 0.12 होता है. इसलिए, न्यूरल नेटवर्क में अगली लेयर पर न्यूरॉन 0.12 (-2.0 के बजाय) से गुजरता है. नीचे दिए गए डायग्राम में, प्रोसेस के ज़रूरी हिस्से को दिखाया गया है:

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

कोई ऐसा प्रोग्राम या मॉडल जो मुश्किल कामों को हल कर सके. उदाहरण के लिए, टेक्स्ट का अनुवाद करने वाला प्रोग्राम या मॉडल या ऐसा प्रोग्राम या मॉडल जो रेडियोलॉजिक इमेज से बीमारियों की पहचान करता है. साथ ही, दोनों में आर्टिफ़िशियल इंटेलिजेंस का इस्तेमाल होता है.

आम तौर पर, मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक सब-फ़ील्ड है हो सकता है. हालांकि, हाल ही के सालों में, कुछ संगठनों ने आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग शब्दों का इस्तेमाल एक-दूसरे की जगह पर किया जा सकता है.

AUC (आरओसी कर्व के नीचे का क्षेत्र)

#fundamentals

0.0 और 1.0 के बीच की कोई संख्या, जो बाइनरी क्लासिफ़िकेशन मॉडल का पॉज़िटिव क्लास को इनसे अलग करने की क्षमता नेगेटिव क्लास. AUC 1.0 के जितना करीब होता है, मॉडल की अलग करने की क्षमता उतनी ही बेहतर होती है एक-दूसरे से क्लास.

उदाहरण के लिए, नीचे दिए गए इलस्ट्रेशन में क्लासिफ़ायर मॉडल दिखाया गया है जो पॉज़िटिव क्लास (हरे अंडाकार) को नेगेटिव क्लास से अलग करती है (बैंगनी आयत) सही तरीके से लिखें. असल दुनिया से परे एक शानदार मॉडल 1.0 का AUC:

ऐसी संख्या रेखा जिसमें एक तरफ़ 8 पॉज़िटिव उदाहरण दिए गए हों और
दूसरी तरफ़ 9 नेगेटिव उदाहरण.

इसके उलट, नीचे दिया गया इलस्ट्रेशन, क्लासिफ़ायर के लिए नतीजे दिखाता है बिना किसी क्रम के नतीजे जनरेट करने वाला मॉडल हो सकता है. इस मॉडल का AUC 0.5 है:

छह पॉज़िटिव उदाहरणों और छह नेगेटिव उदाहरणों वाली संख्या लाइन.
उदाहरणों का क्रम पॉज़िटिव, नेगेटिव,
पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव
नेगेटिव, पॉज़िटिव, नेगेटिव.

हां, पिछले मॉडल का AUC 0.5 है, न कि 0.0.

ज़्यादातर मॉडल दो चरम सीमाओं के बीच में होते हैं. उदाहरण के लिए, यह मॉडल, पॉज़िटिव को नेगेटिव से कुछ अलग करता है. इसलिए का AUC 0.5 और 1.0 के बीच होता है:

छह पॉज़िटिव उदाहरणों और छह नेगेटिव उदाहरणों वाली संख्या लाइन.
उदाहरणों का क्रम नेगेटिव, नेगेटिव, नेगेटिव, नेगेटिव,
पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव,
सकारात्मक.

AUC हर उस वैल्यू को अनदेखा कर देता है जिसके लिए आपने वैल्यू सेट की है क्लासिफ़िकेशन थ्रेशोल्ड. इसके बजाय, AUC सभी संभावित क्लासिफ़िकेशन थ्रेशोल्ड को ध्यान में रखता है.

AUC और ROC कर्व के बीच संबंध के बारे में जानने के लिए आइकॉन पर क्लिक करें.

AUC के तहत आने वाले क्षेत्र को दिखाया जाता है आरओसी कर्व. उदाहरण के लिए, यह ऐसे मॉडल के लिए आरओसी कर्व है जो पॉज़िटिव को सही तरह से अलग करता है नेगेटिव कीवर्ड इस तरह दिखते हैं:

ऊपर दिए गए इलस्ट्रेशन में, स्लेटी रंग के क्षेत्र का एरिया दिखाया गया है. इस असामान्य मामले में, क्षेत्र केवल धूसर क्षेत्र की लंबाई है (1.0) को स्लेटी रंग के क्षेत्र की चौड़ाई (1.0) से गुणा किया जाता है. इसलिए, प्रॉडक्ट 1.0 और 1.0 का AUC ठीक 1.0 का AUC देता है, जो कि सबसे ज़्यादा संभव है AUC स्कोर.

इसके उलट, क्लासिफ़ायर के लिए आरओसी कर्व, जो क्लास को अलग नहीं कर सकता कुछ इस तरह से होता है. स्लेटी रंग के इस क्षेत्र का एरिया 0.5 है.

ज़्यादा सामान्य ROC कर्व करीब नीचे दिखाया गया है:

इस कर्व के नीचे के क्षेत्रफल की गणना मैन्युअल रूप से करना बहुत मुश्किल काम होगा, इसलिए, एक प्रोग्राम आम तौर पर ज़्यादातर AUC वैल्यू का हिसाब लगाता है.

AUC की ज़्यादा औपचारिक परिभाषा के लिए आइकॉन पर क्लिक करें.

AUC इस बात की संभावना है कि क्लासिफ़ायर इस बात पर ज़्यादा भरोसा करेगा कि रैंडम तरीके से चुना गया पॉज़िटिव उदाहरण असल में पॉज़िटिव होता है, बल्कि यादृच्छिक रूप से चुना गया नकारात्मक उदाहरण सकारात्मक है.

B

बैकप्रोपगेशन

#fundamentals

लागू करने वाला एल्गोरिदम ग्रेडिएंट डिसेंट में न्यूरल नेटवर्क.

न्यूरल नेटवर्क को ट्रेनिंग देने के लिए, कई दोहरावों की ज़रूरत होती है जिससे नीचे दिए गए दो-पास चक्र में बदलाव हो सकता है:

फ़ॉरवर्ड पास के दौरान, सिस्टम इतने बैच को प्रोसेस करता है अनुमान लगाने के लिए, उदाहरण. सिस्टम हर एक की तुलना करता है हर label वैल्यू के लिए अनुमान. इनके बीच अंतर अनुमान और लेबल की वैल्यू, उस उदाहरण के लिए लॉस है. सिस्टम, सभी उदाहरणों के लिए लॉस को एग्रीगेट करता है, ताकि कुल वैल्यू का पता लगाया जा सके वर्तमान बैच के लिए हानि.
बैकवर्ड पास (बैकप्रॉपगेशन) के दौरान, सिस्टम नुकसान को इतने कम कर देता है: सभी न्यूरॉन के वेट को अडजस्ट करके, छिपी हुई लेयर.

न्यूरल नेटवर्क में अक्सर कई छिपी हुई लेयर में कई न्यूरॉन होते हैं. उनमें से हर एक न्यूरॉन अलग-अलग तरीकों से कुल नुकसान में योगदान देता है. बैकप्रोपगेशन से तय होता है कि वज़न को बढ़ाना है या कम करना है कुछ न्यूरॉन पर लागू होते हैं.

लर्निंग रेट एक मल्टीप्लायर है, जो वह डिग्री जिस पर हर बैकवर्ड पास हर वज़न को बढ़ाता या घटाता है. सीखने की बड़ी दर, हर वज़न को सीखने की कम दर.

कैलक्युलस के शब्दों में, बैकप्रोपगेशन प्रोसेस को चेन रूल. कैलक्युलस से हटाएं. इसका मतलब यह है कि बैकप्रोपगेशन, गड़बड़ी का पार्शियल डेरिवेटिव पैरामीटर के हिसाब से वैल्यू डालें.

कई साल पहले, मशीन लर्निंग इस्तेमाल करने वाले लोगों को बैकप्रॉपगेशन लागू करने के लिए कोड लिखना पड़ता था. TensorFlow जैसे मॉडर्न एमएल एपीआई, अब आपके लिए बैकप्रोपैगेशन की सुविधा को लागू करते हैं. वाह!

बैच

#fundamentals

एक ट्रेनिंग में इस्तेमाल किए गए उदाहरण का सेट दोहराव. बैच साइज़, बैच.

बैच किस तरह से जुड़ा होता है, यह जानने के लिए epoch देखें epoch का इस्तेमाल करें.

बैच का आकार

#fundamentals

किसी बैच में उदाहरण की संख्या. उदाहरण के लिए, अगर बैच का साइज़ 100 है, तो मॉडल हर दोहराव के 100 उदाहरण.

बैच साइज़ की लोकप्रिय रणनीतियां इस तरह से हैं:

स्टोकायस्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच का साइज़ 1 है.
पूरा बैच, जिसमें बैच का साइज़, उन सभी उदाहरणों की संख्या है ट्रेनिंग सेट. उदाहरण के लिए, अगर ट्रेनिंग सेट 10 लाख उदाहरण हैं, तो बैच का साइज़ 10 लाख होगा उदाहरण. आम तौर पर, एक साथ पूरी बैच बनाने की रणनीति, आम तौर पर गलत तरीके से काम करती है.
मिनी-बैच, जिसमें बैच का साइज़ आम तौर पर इनके बीच में होता है 10 और 1000 है. आम तौर पर, मिनी-बैच सबसे असरदार तरीका है.

पक्षपात (नैतिक/निष्पक्षता)

#fairness

#fundamentals

1. कुछ चीज़ों, लोगों, या ग्रुप में शामिल हैं. इन पक्षपातों से संग्रह और डेटा की व्याख्या, सिस्टम का डिज़ाइन, और उपयोगकर्ता कैसे इंटरैक्ट करते हैं इस्तेमाल किया जा सकता है. इस तरह के पूर्वाग्रह में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग की प्रोसेस के दौरान सिस्टम में कोई गड़बड़ी हुई. इस तरह के पूर्वाग्रह में ये शामिल हैं:

मशीन लर्निंग मॉडल में इसे बायस टर्म न समझें या पूर्वानुमान के मापदंड.

बायस (गणित) या बायस टर्म

#fundamentals

किसी ऑरिजिन से कोई रुकावट या ऑफ़सेट. पूर्वाग्रह मशीन लर्निंग मॉडल को दर्शाता है, जिसे फ़ॉलो किया जा रहा है:

b
w₀

उदाहरण के लिए, इस फ़ॉर्मूला में पूर्वाग्रह b है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

एक सामान्य द्वि-आयामी रेखा में, पक्षपात का मतलब "y-इंटरसेप्ट" है. उदाहरण के लिए, इस इलस्ट्रेशन में लाइन का बायस 2 है.

0.5 के स्लोप और 2 के बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट.

पूर्वाग्रह मौजूद है क्योंकि सभी मॉडल ऑरिजिन (0,0) से शुरू नहीं होते. उदाहरण के लिए, मान लें कि किसी मनोरंजन पार्क में प्रवेश करने के लिए 2 यूरो का शुल्क लगता है और होटल के हर घंटे के लिए 0.5 यूरो. इसलिए, कुल लागत का बायस 2 है, क्योंकि सबसे कम लागत 2 यूरो है.

पूर्वाग्रह को नैतिकता और निष्पक्षता में पक्षपात से नहीं समझा जाना चाहिए या पूर्वानुमान के मापदंड.

बाइनरी क्लासिफ़िकेशन

#fundamentals

यह एक तरह का क्लासिफ़िकेशन टास्क है, जो दो म्युचुअली एक्सक्लूसिव क्लास में से किसी एक का अनुमान लगाता है:

पॉज़िटिव क्लास
नेगेटिव क्लास

उदाहरण के लिए, नीचे दिए गए दो मशीन लर्निंग मॉडल में से हर एक बाइनरी क्लासिफ़िकेशन:

वह मॉडल जो तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) या स्पैम नहीं है (नेगेटिव क्लास).
मेडिकल लक्षणों की जांच करने वाला मॉडल, ताकि यह पता लगाया जा सके कि व्यक्ति को कोई खास बीमारी है (पॉज़िटिव क्लास) या कोई बीमारी नहीं है बीमारी (नेगेटिव क्लास).

एक से ज़्यादा क्लास वाले क्लासिफ़िकेशन से अलग करें.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड.

बकेटिंग

#fundamentals

किसी एक सुविधा को एक से ज़्यादा बाइनरी सुविधाओं में बदलना जिसे बकेट या बिन कहा जाता है, जो आम तौर पर वैल्यू की रेंज के हिसाब से तय होती है. कटी हुई सुविधा आम तौर पर लगातार बदलाव करने की सुविधा.

उदाहरण के लिए, तापमान को एक के तौर पर दिखाने के बजाय लगातार फ़्लोटिंग-पॉइंट सुविधा की मदद से, आप तापमान की रेंज को काट सकते हैं अलग-अलग कैटगरी में बांटना, जैसे:

<= 10 डिग्री सेल्सियस का तापमान "ठंडा" रहेगा बकेट.
तापमान 11 से 24 डिग्री सेल्सियस के बीच रहेगा. यह "सामान्य तापमान" रहेगा बकेट.
>= 25 डिग्री सेल्सियस का तापमान "गर्म" रहेगा बकेट.

यह मॉडल, एक ही बकेट में मौजूद हर वैल्यू को एक जैसा मानेगा. इसके लिए उदाहरण के लिए, 13 और 22, दोनों ही समशीतोष्ण बकेट में हैं, इसलिए मॉडल, दोनों वैल्यू को एक जैसा रखता है.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

अगर तापमान को लगातार दिखाने वाली सुविधा के तौर पर दिखाया जाता है, तो मॉडल तापमान को एक सुविधा के तौर पर देखता है. अगर आप तापमान दिखाते हैं तीन बकेट के तौर पर सेट करता है, तो मॉडल हर बकेट को एक अलग सुविधा के रूप में देखता है. इसका मतलब है कि मॉडल हर बकेट के अलग-अलग संबंधों को label पर टैप करें. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल सीख सकता है हर बकेट के लिए अलग-अलग वेट.

बकेट की संख्या बढ़ाने से आपका मॉडल संबंधों की संख्या बढ़ाना, जिन्हें आपके मॉडल को सीखना चाहिए. उदाहरण के लिए, ठंडी, सामान्य तापमान, और गर्म बकेट ज़रूरी हैं तीन अलग-अलग सुविधाओं की मदद से, अपने मॉडल को ट्रेनिंग दें. अगर आपको अपनी सदस्यता को दो और बकेट -- उदाहरण के लिए, फ़्रीज़िंग और हॉट--तो आपका मॉडल अब पांच अलग-अलग सुविधाओं के साथ ट्रेनिंग करनी होगी.

आपको कैसे पता चलेगा कि कितने बकेट बनाना है या हर बकेट की रेंज क्या है बकेट में होनी चाहिए? आम तौर पर, जवाबों के लिए काफ़ी प्रयोग करना.

C

कैटगरी से जुड़ा डेटा

#fundamentals

सुविधाएं, जिनमें संभावित वैल्यू का एक खास सेट हो. उदाहरण के लिए, traffic-light-state नाम की एक ऐसी कैटगरी वाली सुविधा का इस्तेमाल करें जो सिर्फ़ इनमें से कोई एक वैल्यू हो सकती है:

red
yellow
green

traffic-light-state को कैटगरी वाली सुविधा के तौर पर दिखाकर, मॉडल यह सीख सकता है: ड्राइवर के व्यवहार पर red, green, और yellow का अलग-अलग असर हुआ है.

कैटगरी के लेवल की विशेषताओं को कभी-कभी कहा जाता है अलग-अलग सुविधाओं का इस्तेमाल करें.

संख्या के हिसाब से डेटा से अलग होना चाहिए.

क्लास

#fundamentals

वह कैटगरी जो लेबल से जुड़ी हो सकती है. उदाहरण के लिए:

बाइनरी क्लासिफ़िकेशन मॉडल में, जो स्पैम के तौर पर मार्क किया गया है, तो ये दो क्लास स्पैम हो सकती हैं और स्पैम नहीं.
मल्टी-क्लास क्लासिफ़िकेशन मॉडल में कुत्तों की नस्लों की पहचान करने वाली कैटगरी, पूडल, बीगल, पग, वगैरह.

क्लासिफ़िकेशन मॉडल, क्लास का अनुमान लगाता है. इसके उलट, रिग्रेशन मॉडल किसी संख्या का अनुमान लगाता है देखी जा सकती है.

क्लासिफ़िकेशन मॉडल

#fundamentals

कोई मॉडल, जिसका अनुमान क्लास के तौर पर होता है. उदाहरण के लिए, ये सभी क्लासिफ़िकेशन मॉडल नीचे दिए गए हैं:

इनपुट वाक्य की भाषा का अनुमान लगाने वाला मॉडल (फ़्रेंच? स्पैनिश? इटैलियन?).
ऐसा मॉडल जो पेड़ों की प्रजातियों का अनुमान लगाता है (मेपल? ओक? बेओबैब?).
ऐसा मॉडल जो किसी खास क्लास के लिए पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है बीमारी.

इसके उलट, रिग्रेशन मॉडल संख्याओं का अनुमान लगाते हैं की मदद से ज़्यादा काम किया जा सकता है.

क्लासिफ़िकेशन मॉडल आम तौर पर दो तरह के होते हैं:

बाइनरी क्लासिफ़िकेशन
मल्टी-क्लास क्लासिफ़िकेशन

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 से 1 के बीच की संख्या, जो लॉजिस्टिक रिग्रेशन मॉडल या तो पॉज़िटिव क्लास का अनुमान लगाकर या नेगेटिव क्लास. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड वह वैल्यू है जिसे कोई व्यक्ति चुनता है, नहीं, बल्कि मॉडल ट्रेनिंग के दौरान चुनी गई वैल्यू हो.

लॉजिस्टिक रिग्रेशन मॉडल, 0 और 1 के बीच का रॉ वैल्यू देता है. इसके बाद:

अगर यह रॉ वैल्यू, क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो पॉज़िटिव क्लास का अनुमान लगाया जाता है.
अगर यह रॉ वैल्यू, डेटा को कैटगरी में बांटने के लिए तय की गई थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लीजिए कि क्लासिफ़िकेशन थ्रेशोल्ड 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल नेगेटिव क्लास का अनुमान लगाता है.

क्लासिफ़िकेशन थ्रेशोल्ड का चुनाव, आपके विज्ञापनों की संख्या फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

मॉडल या डेटासेट में बदलाव होने पर, इंजीनियर कभी-कभी क्लासिफ़िकेशन थ्रेशोल्ड. जब डेटा की कैटगरी तय करने के लिए थ्रेशोल्ड में बदलाव होता है, पॉज़िटिव क्लास के अनुमान, अचानक नेगेटिव क्लास बन सकते हैं अब दुनिया भर के.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन बीमारी का अनुमान लगाने वाले मॉडल पर विचार करें. मान लें कि जब सिस्टम पहले साल में चलता है:

किसी मरीज़ के लिए रॉ वैल्यू 0.95 है.
डेटा की कैटगरी तय करने के लिए थ्रेशोल्ड 0.94 है.

इसलिए, सिस्टम पॉज़िटिव क्लास का पता लगाता है. (पेशेवर हांफ़ रहे हैं, "अरे नहीं! मैं बीमार हूं!")

एक साल बाद, शायद अब ये वैल्यू कुछ इस तरह दिखेंगी:

एक ही मरीज़ के लिए रॉ वैल्यू 0.95 ही रहती है.
डेटा की कैटगरी तय करने के लिए थ्रेशोल्ड, 0.97 हो जाता है.

इसलिए, अब सिस्टम उस मरीज़ को नेगेटिव क्लास की कैटगरी में फिर से बांटता है. ("आपका दिन शुभ हो! मैं बीमार नहीं हूं.") एक ही मरीज़. अलग-अलग तरह की जांच.

वर्ग-असंतुलित डेटासेट

#fundamentals

क्लासिफ़िकेशन सवाल के लिए डेटासेट, जिसमें कुल संख्या हर क्लास के लेबल में काफ़ी अंतर होता है. उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन डेटासेट पर विचार करें जिसके दो लेबल इन्हें इस तरह से बांटा गया है:

10,00,000 नेगेटिव लेबल
10 पॉज़िटिव लेबल

नेगेटिव और पॉज़िटिव लेबल का अनुपात 1,00, 000 बनाम 1 है. एक वर्ग असंतुलित डेटासेट है.

इसके उलट, नीचे दिया गया डेटासेट क्लास असंतुलित नहीं है, क्योंकि नेगेटिव लेबल और पॉज़िटिव लेबल का अनुपात 1 के करीब है:

517 नेगेटिव लेबल
483 पॉज़िटिव लेबल

कई क्लास वाले डेटासेट को क्लास-असंतुलित भी माना जा सकता है. उदाहरण के लिए, निम्न मल्टी-क्लास क्लासिफ़िकेशन डेटासेट भी क्लास असंतुलित है, क्योंकि एक लेबल में अन्य दो की तुलना में कहीं ज़्यादा उदाहरण हैं:

"हरे रंग" क्लास वाले 10,00,000 लेबल
"बैंगनी" क्लास वाले 200 लेबल
"नारंगी" क्लास वाले 350 लेबल

एंट्रॉपी, मैजरिटी क्लास, और अल्पसंख्यक वर्ग के नाम से जाना जाता है.

क्लिपिंग

#fundamentals

एक ऐसी तकनीक जिसकी मदद से आउटलायर को हैंडल किया जा सकता है. इनमें से कोई एक या दोनों शर्तें:

सुविधा की उन वैल्यू को कम करना जो तय की गई सबसे ज़्यादा वैल्यू से ज़्यादा हैं उस सीमा तक कम कर दें.
उस सीमा तक कम से कम थ्रेशोल्ड से भी कम में सुविधा की वैल्यू बढ़ाना कम से कम थ्रेशोल्ड.

उदाहरण के लिए, मान लें कि किसी खास सुविधा के मान का <0.5% मान कम होता है 40–60 की सीमा के बाहर है. इस स्थिति में, ये काम किए जा सकते हैं:

अगर सभी वैल्यू 60 (ज़्यादा से ज़्यादा थ्रेशोल्ड) से ज़्यादा हैं, तो उन्हें 60 करने के लिए क्लिप करें.
अगर वैल्यू 40 (कम से कम थ्रेशोल्ड) से कम है, तो उसे 40 करने के लिए क्लिप करें.

आउटलायर की वजह से, मॉडल को नुकसान पहुंच सकता है. इसकी वजह से कभी-कभी वेट की परफ़ॉर्मेंस होती है ट्रेनिंग के दौरान ओवरफ़्लो हो सकता है. कुछ आउटलायर्स भी आपकी परफ़ॉर्मेंस को खराब कर सकते हैं सटीक होने जैसे मेट्रिक. क्लिप बनाना, सीमित करने की सामान्य तकनीक है कोई नुकसान नहीं पहुंचाता है.

ग्रेडिएंट क्लिपिंग फ़ोर्स ट्रेनिंग के दौरान, तय की गई रेंज में ग्रेडिएंट वैल्यू.

भ्रम की स्थिति का मैट्रिक्स

#fundamentals

NxN टेबल, जिसमें सही और गलत अनुमानों की संख्या की खास जानकारी होती है जिसे क्लासिफ़िकेशन मॉडल बनाया गया है. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल:

	कैंसर (अनुमानित)	नॉन-ट्यूमर (अनुमानित)
टमर (ग्राउंड ट्रूथ)	18 (टीपी)	1 (FN)
नॉन-ट्यूमर (ग्राउंड ट्रूथ)	6 (एफ़पी)	452 (TN)

पहले वाले भ्रम की मेट्रिक में ये चीज़ें दिखती हैं:

उन 19 भविष्यवाणियों में से जिनमें असल सच था, टुमोर था इस मॉडल में, 18 को सही कैटगरी में रखा गया है. साथ ही, मॉडल को गलती से 1 की कैटगरी में रखा गया है.
जिन 458 अनुमानों में ज़मीनी सच्चाई का पता नॉन-ट्यूमोर था, उनमें से यह मॉडल 452 को सही तरीके से और गलत तरीके से 6 की कैटगरी में रखा गया है.

मल्टी-क्लास क्लासिफ़िकेशन में भ्रम की स्थिति दिखाने वाला मैट्रिक्स समस्या के बारे में जानने से, गलतियों के पैटर्न को पहचानने में मदद मिलती है. उदाहरण के लिए, 3-क्लास के लिए नीचे दिए गए भ्रम की मात्रा के आव्यूह पर विचार करें मल्टी-क्लास क्लासिफ़िकेशन मॉडल, जो आइरिस के तीन टाइप को कैटगरी में बांटता है (वर्जीनिका, वर्सीकलर, और सेटोसा). जब वर्जिनिका की ज़मीनी असली थी, तो भ्रम की स्थिति दिखाने वाले मैट्रिक्स से पता चलता है कि मॉडल, ग़लती से उस मॉडल Setosa की तुलना में Versicolor का अनुमान लगाएं:

	Setosa (अनुमानित)	वर्सीकलर (अनुमानित)	वर्जिनिका (अनुमानित)
सेटोसा (ग्राउंड ट्रूथ)	88	12	0
वर्सीकलर (ग्राउंड ट्रूथ)	6	141	7
वर्जिनिका (ग्राउंड ट्रूथ)	2	27	109

इसका एक और उदाहरण देखें. भ्रम की स्थिति दिखाने वाले मैट्रिक्स से यह पता चल सकता है कि मॉडल यह पता लगाने के लिए कि हाथ से लिखे गए अंक गलती से चार के बजाय 9 का अनुमान लगाते हैं, या गलती से 7 के बजाय 1 का अनुमान लगाती है.

कन्फ़्यूजन मैट्रिक्स में पर्याप्त जानकारी होती है. इसकी मदद से, अलग-अलग तरह की परफ़ॉर्मेंस मेट्रिक. जैसे, सटीक और याद रखें.

लगातार चलने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट सुविधा जिसमें कई विकल्प हो सकते हैं वैल्यू, जैसे कि तापमान या वज़न.

अलग-अलग सुविधा से कंट्रास्ट करें.

कन्वर्जेंस

#fundamentals

वह स्थिति तब पहुंच जाती है, जब लॉस की वैल्यू में बहुत कम या हर दोहराव के साथ नहीं. उदाहरण के लिए, निम्न लॉस कर्व, करीब 700 बार दोहराया गया है:

कार्टिज़न प्लॉट. X-ऐक्सिस में नुकसान होता है. Y-ऐक्सिस, ट्रेनिंग की वह संख्या है
बार-बार किया जा सकता है. शुरुआती कुछ बार में नुकसान बहुत ज़्यादा होता है, लेकिन
तेज़ी से गिरावट आता है. करीब 100 बार दोहराने के बाद भी नुकसान होता है
धीरे-धीरे घटता ही जा रहा है. करीब 700 बार दोहराने के बाद,
में गिरावट नहीं आती है.

कोई मॉडल तब कहता है, जब अतिरिक्त ट्रेनिंग काम नहीं करती मॉडल को बेहतर बनाने में मदद करता है.

डीप लर्निंग में, नुकसान की वैल्यू कभी-कभी स्थिर रहती हैं या अंत में घटते क्रम में कई प्रयोग करने पड़ते थे. लंबी अवधि के दौरान हो सकता है कि कुछ समय के लिए, आपको कन्वर्ज़न के बारे में गलत जानकारी दिखे.

शुरुआती स्टॉप भी देखें.

D

DataFrame

#fundamentals

लोकप्रिय पांडा का डेटा टाइप, जिन्हें पेश करने के लिए इस्तेमाल किया जाता है मेमोरी में डेटासेट.

DataFrame, टेबल या स्प्रेडशीट से मिलता-जुलता होता है. का प्रत्येक कॉलम DataFrame का एक नाम (एक हेडर) होता है और हर पंक्ति की पहचान अद्वितीय नंबर.

DataFrame में मौजूद हर कॉलम को 2D कलेक्शन की तरह बनाया जाता है. हालांकि, हर कॉलम को उसका डेटा टाइप असाइन किया जा सकता है.

ऑफ़िशियल pandas.DataFrame संदर्भ पेज पर जाएं.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन, जो आम तौर पर (खास तौर पर नहीं) एक ही तरह से व्यवस्थित होता है नीचे दिए गए फ़ॉर्मैट में शामिल हैं:

स्प्रेडशीट
CSV फ़ॉर्मैट वाली फ़ाइल (कॉमा लगाकर अलग की गई वैल्यू)

डीप मॉडल

#fundamentals

ऐसा न्यूरल नेटवर्क जिसमें एक से ज़्यादा न्यूरल नेटवर्क हों छिपी हुई लेयर.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

वाइड मॉडल से कंट्रास्ट अलग हो.

सघनता

#fundamentals

ऐसी सुविधा जिसमें ज़्यादातर या सभी वैल्यू शून्य नहीं होती हैं फ़्लोटिंग-पॉइंट वैल्यू का एक Tensor. उदाहरण के लिए, निम्न 10-एलिमेंट Tensor घना है, क्योंकि इसके नौ वैल्यू शून्य नहीं हैं:

स्पार्स सुविधा से कंट्रास्ट अलग होना चाहिए.

गहराई

#fundamentals

न्यूरल नेटवर्क में इनका योग:

छिपी हुई लेयर की संख्या
आउटपुट लेयर की संख्या, जो आम तौर पर 1 होती है
किसी भी एम्बेडिंग लेयर की संख्या

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाला न्यूरल नेटवर्क की गहराई 6 है.

ध्यान दें कि इनपुट लेयर प्रभाव गहराई.

डिस्क्रीट सुविधा

#fundamentals

एक ऐसी सुविधा जिसमें संभावित वैल्यू के सीमित सेट होते हैं. उदाहरण के लिए, ऐसी सुविधा जिसकी वैल्यू सिर्फ़ जानवर, सब्ज़ियां या खनिज हो सकती है अलग (या कैटगरी से जुड़ी) सुविधा का इस्तेमाल किया जा सकता है.

लगातार सुविधा से तुलना करें.

डाइनैमिक

#fundamentals

कोई ऐसा काम जो बार-बार किया जाता हो या लगातार किया जाता हो. मशीन लर्निंग में, डाइनैमिक और ऑनलाइन शब्दों का मतलब एक जैसा है. मशीन में डाइनैमिक और ऑनलाइन इस्तेमाल के कुछ सामान्य तरीके नीचे दिए गए हैं सीखना:

डाइनैमिक मॉडल (या ऑनलाइन मॉडल) एक मॉडल होता है जिसे बार-बार या लगातार ट्रेनिंग दी जाती है.
डाइनैमिक ट्रेनिंग या ऑनलाइन ट्रेनिंग, ट्रेनिंग की प्रोसेस है बार-बार या लगातार.
डाइनैमिक अनुमान (या ऑनलाइन अनुमान) ऐसी प्रोसेस है मांग पर अनुमान जनरेट करना.

डाइनैमिक मॉडल

#fundamentals

कोई मॉडल, जो बार-बार दिखता हो. ऐसा लगातार भी हो सकता है ट्रेनिंग दी गई. डाइनैमिक मॉडल, "हमेशा सीखते रहने वाला" होता है वह लगातार बदलते डेटा के हिसाब से ढल जाता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल.

स्टैटिक मॉडल से कंट्रास्ट अलग हो.

E

तय समय से पहले रुकना

#fundamentals

नियमित करने का तरीका, जिसके आखिर में शामिल होता है ट्रेनिंग में हार जाने से पहले ट्रेनिंग घटते क्रम में. जल्दी बंद होने पर, आपने जान-बूझकर मॉडल को ट्रेनिंग देना बंद कर दिया जब पुष्टि करने वाले डेटासेट में नुकसान होना शुरू हो जाता है increase; इसका मतलब है कि सामान्य वजहों से परफ़ॉर्मेंस खराब हो जाती है.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

शुरुआत में रोकना अजीब लग सकता है. आखिरकार, किसी मॉडल को रोकने के लिए कहना ट्रेनिंग के दौरान नुकसान की आशंका कम हो रही है. ऐसा हो सकता है कि किसी शेफ़ को ट्रेनिंग देने के लिए कहा जाए मिठाई के पूरी तरह बेक होने से पहले, पकाना बंद कर दें. हालांकि, ज़्यादा लंबे होने से ओवरफ़िट हो सकता है. इसका मतलब है कि अगर आपको ट्रेनिंग की अवधि के दौरान, मॉडल ट्रेनिंग डेटा को इतना फ़िट कर सकता है कि यह मॉडल नए उदाहरणों के लिए अच्छे अनुमान नहीं लगाता.

एम्बेडिंग लेयर

#language

#fundamentals

एक विशेष छिपी हुई लेयर जो बड़े पैमाने पर उपलब्ध कैटगरिकल सुविधा का इस्तेमाल करके, लोअर डाइमेंशन एम्बेडिंग वेक्टर को धीरे-धीरे सीखें. अगर आप एम्बेडिंग लेयर की मदद से, न्यूरल नेटवर्क को बेहतर तरीके से ट्रेनिंग देने में मदद मिलती है न कि सिर्फ़ हाई-डाइमेंशन वाली कैटगरी वाली सुविधा पर ट्रेनिंग देने से ज़्यादा.

उदाहरण के लिए, फ़िलहाल Earth, पेड़ों की करीब 73,000 प्रजातियों का समर्थन करती है. मान लें आपके मॉडल में मौजूद पेड़ों की संख्या एक सुविधा है. इसलिए, आपके मॉडल इनपुट लेयर में वन-हॉट वेक्टर 73,000 शामिल है एलिमेंट की अवधि बढ़ाएं. उदाहरण के लिए, शायद baobab कुछ ऐसा दिखाया जाएगा:

73,000 एलिमेंट का कलेक्शन. पहले 6,232 एलिमेंट में वैल्यू होती है
0. अगले एलिमेंट की वैल्यू 1 होती है. आखिरी 66,767 एलिमेंट में
वैल्यू शून्य है.

73,000 एलिमेंट का अरे बहुत लंबा होता है. अगर आप एम्बेडिंग लेयर नहीं जोड़ते हैं, तो मॉडल की तुलना में, ट्रेनिंग में काफ़ी समय लगेगा. ऐसा इसलिए है, क्योंकि 72,999 शून्यों को गुणा करना. हो सकता है कि आप शामिल करने के लिए एम्बेडिंग लेयर को चुनें 12 डाइमेंशन चुने जा सकते हैं. ऐसा करने से, एम्बेडिंग लेयर धीरे-धीरे पेड़ की हर प्रजाति के लिए एक नया एम्बेड वेक्टर.

कुछ मामलों में, हैशिंग एक सही विकल्प है को एम्बेड करने वाली लेयर पर ले जाया जा सकता है.

epoch

#fundamentals

पूरे ट्रेनिंग सेट के लिए पूरा ट्रेनिंग पास इस तरह हर उदाहरण को एक बार प्रोसेस कर दिया गया है.

Epoch N/बैच साइज़ को दिखाता है ट्रेनिंग इटरेशन में, जहां N उदाहरणों की कुल संख्या.

उदाहरण के लिए, मान लें कि:

इस डेटासेट में 1,000 उदाहरण शामिल हैं.
बैच का साइज़ 50 उदाहरण है.

इसलिए, एक epoch को 20 बार दोहराना ज़रूरी है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

उदाहरण

#fundamentals

सुविधाओं की एक पंक्ति की वैल्यू और शायद लेबल. इसमें उदाहरण सुपरवाइज़्ड लर्निंग के दो लेवल सामान्य कैटगरी:

लेबल किए गए उदाहरण में एक या एक से ज़्यादा सुविधाएं होती हैं और एक लेबल. ट्रेनिंग के दौरान लेबल किए गए उदाहरणों का इस्तेमाल किया जाता है.
बिना लेबल वाले उदाहरण में एक या ज़्यादा सुविधाएं उपलब्ध हैं, लेकिन कोई लेबल नहीं. बिना लेबल वाले उदाहरणों का इस्तेमाल, अनुमान लगाने के लिए किया जाता है.

उदाहरण के लिए, मान लें कि आप किसी मॉडल को ट्रेनिंग के दौरान और छात्र-छात्राओं के टेस्ट स्कोर के बारे में जानकारी दी. लेबल किए गए तीन उदाहरण यहां दिए गए हैं:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट के स्कोर
15	47	998	अच्छा
19	34	1020	बहुत बढ़िया
18	92	1012	खराब

यहां बिना लेबल वाले तीन उदाहरण दिए गए हैं:

तापमान	नमी	दबाव
12	62	1014
21	47	1017
19	41	1021

उदाहरण के लिए, आम तौर पर डेटासेट की लाइन, रॉ सोर्स होती है. उदाहरण के लिए, आम तौर पर इसमें कॉलम का एक सबसेट शामिल होता है डेटासेट. इसके अलावा, उदाहरण में दी गई सुविधाओं में ये चीज़ें भी शामिल हो सकती हैं सिंथेटिक सुविधाएं, जैसे कि सुविधा क्रॉस.

F

फ़ॉल्स नेगेटिव (एफ़एन)

#fundamentals

एक उदाहरण जिसमें मॉडल ग़लती से नेगेटिव क्लास. उदाहरण के लिए, मॉडल अनुमान लगाता है कि कोई खास ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास) है, लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (एफ़पी)

#fundamentals

एक उदाहरण जिसमें मॉडल ग़लती से पॉज़िटिव क्लास. उदाहरण के लिए, मॉडल एक खास ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन यह ईमेल मैसेज असल में स्पैम नहीं है.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

असल नेगेटिव उदाहरणों का अनुपात, जिनके लिए मॉडल ने गलती से ऐसा किया है पॉज़िटिव क्लास का अनुमान लगाया. यह फ़ॉर्मूला असत्य की गणना करता है पॉज़िटिव रेट:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में x-ऐक्सिस होता है.

सुविधा

#fundamentals

किसी मशीन लर्निंग मॉडल के लिए इनपुट वैरिएबल. एक उदाहरण इसमें एक या एक से ज़्यादा सुविधाएँ शामिल हैं. उदाहरण के लिए, मान लें कि आप किसी मॉडल का इस्तेमाल करके, छात्र-छात्राओं के टेस्ट स्कोर पर मौसम की स्थितियों का असर पता लगाया जा सकता है. नीचे दी गई टेबल में तीन उदाहरण दिए गए हैं. हर उदाहरण में तीन सुविधाएँ और एक लेबल:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट के स्कोर
15	47	998	92
19	34	1020	84
18	92	1012	87

लेबल से अलग करें.

फ़ीचर क्रॉस

#fundamentals

"क्रॉसिंग" से बनाई गई सिंथेटिक सुविधा कैटगरिकल या बकेट की गई सुविधाएं.

उदाहरण के लिए, "मूड का पूर्वानुमान" इस्तेमाल करें जो यहां दिए गए चार बकेट में से किसी एक में तापमान:

freezing
chilly
temperate
warm

और यहां दी गई तीन बकेट में से किसी एक में हवा की रफ़्तार का पता लगाता है:

still
light
windy

फ़ीचर क्रॉस के बिना, लीनियर मॉडल जिसमें सात अलग-अलग बाल्टी आ गई थी. उदाहरण के लिए, मॉडल इन बातों से ट्रेनिंग लेता है, freezing, ट्रेनिंग से अलग हैं. उदाहरण के लिए, windy.

इसके अलावा, आप एक ऐसा फ़ीचर क्रॉस ऑफ़ टेंपरेचर बना सकते हैं जिसमें हवा की रफ़्तार. इस सिंथेटिक सुविधा की मदद से, मान:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

क्रॉस फ़ीचर की मदद से, मॉडल को मूड के अंतर को समझने में मदद मिली freezing-windy दिन से freezing-still दिन के बीच.

अगर दो तरह की एआई से जनरेट की गई किसी सुविधा को बनाया जाता है, जिसमें हर एक में अलग-अलग बकेट, जो कि एक फ़ीचर क्रॉस है, यहां दिखाई गई सभी झलक सिर्फ़ उदाहरण हैं. उदाहरण के लिए, अगर किसी सुविधा में 1,000 बकेट हैं और अन्य सुविधा में 2,000 बकेट हैं, और इससे बने फ़ीचर क्रॉस में 2,000,000 बकेट हैं बकेट.

औपचारिक रूप से, क्रॉस एक कार्टीज़न प्रॉडक्ट.

फ़ीचर क्रॉस का इस्तेमाल, ज़्यादातर लीनियर मॉडल के साथ किया जाता है. साथ ही, इनका इस्तेमाल बहुत कम किया जाता है न्यूरल नेटवर्क से कनेक्ट करता है.

फ़ीचर इंजीनियरिंग

#fundamentals

#TensorFlow

इस प्रोसेस में, ये चरण शामिल होते हैं:

यह तय करना कि कौनसी सुविधाएं काम की हैं एक मॉडल को ट्रेनिंग दी.
डेटासेट से रॉ डेटा को, सुविधाएं मौजूद हैं.

उदाहरण के लिए, आपके पास यह तय करने का विकल्प है कि temperature आपके काम का हो सकता है सुविधा. इसके बाद, बकेटिंग का इस्तेमाल किया जा सकता है ताकि यह ऑप्टिमाइज़ किया जा सके कि मॉडल अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी इस नाम से जाना जाता है सुविधा एक्सट्रैक्ट करने की सुविधा या फ़ीचराइज़ेशन.

TensorFlow के बारे में ज़्यादा नोट देखने के लिए इस आइकॉन पर क्लिक करें.

TensorFlow में, फ़ीचर इंजीनियरिंग का अक्सर मतलब रॉ लॉग फ़ाइल को कन्वर्ट करना होता है tf.Example प्रोटोकॉल बफ़र की एंट्री. इन्हें भी देखें tf.Transform.

सुविधाओं का सेट

#fundamentals

आपकी मशीन लर्निंग की सुविधाओं का ग्रुप model ट्रेन चालू है. उदाहरण के लिए, पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति, इसमें ऐसे मॉडल के लिए एक सिंपल सुविधा का सेट होता है जो मकान की कीमतों का अनुमान लगाता है.

फ़ीचर वेक्टर

#fundamentals

सुविधा की वैल्यू की कैटगरी में उदाहरण. फ़ीचर वेक्टर के दौरान इनपुट दिया जाता है ट्रेनिंग और अनुमान के दौरान. उदाहरण के लिए, दो अलग-अलग सुविधाओं वाले मॉडल के लिए फ़ीचर वेक्टर हो सकता है:

[0.92, 0.56]

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.
इनपुट लेयर में दो नोड होते हैं, एक में वैल्यू होती है
0.92 और दूसरे में 0.56 की वैल्यू है.

हर उदाहरण, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू देता है, इसलिए अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ इस तरह का हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग की मदद से यह तय किया जाता है कि फ़ीचर वेक्टर में सुविधाएं. उदाहरण के लिए, पांच संभावित वैल्यू, इससे जुड़ी हो सकती हैं वन-हॉट एन्कोडिंग का इस्तेमाल करें. इस मामले में, किसी उदाहरण के लिए फ़ीचर वेक्टर में चार शून्य और तीसरे पक्ष में सिंगल 1.0 को इस तरह से दिखाया गया है:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक अन्य उदाहरण के रूप में, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

बाइनरी कैटगरी वाली सुविधा, जिसमें पांच संभावित वैल्यू दिखाई गई हैं वन-हॉट एन्कोडिंग; उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
अन्य बाइनरी कैटगरी वाली सुविधा, जिसमें तीन संभावित वैल्यू दिखाई गई हैं वन-हॉट एन्कोडिंग के साथ; उदाहरण के लिए: [0.0, 0.0, 1.0]
फ़्लोटिंग-पॉइंट की सुविधा; उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को दिखाया जाएगा नौ वैल्यू से. अगर पिछली सूची में उदाहरण के तौर पर दी गई वैल्यू दी गई हैं, तो फ़ीचर वेक्टर यह होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, एक स्थिति जिसमें मॉडल का अनुमान ट्रेनिंग डेटा की ज़रूरत होती है. उदाहरण के लिए, ऐसा मॉडल जो का सुझाव देता है कि फ़िल्में लोगों को दिखाई देने वाली फ़िल्मों पर असर डालेंगी. इससे लोगों को फ़िल्मों के सुझाव वाले बाद के मॉडल पर असर डालती हैं.

G

सामान्यीकरण

#fundamentals

किसी नए मॉडल की मदद से, पहले से देखा हुआ डेटा नहीं है. जो मॉडल सामान्य बना सकता है वह इसके उलट होता है जो ओवरफ़िटिंग हो.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

ट्रेनिंग सेट में दिए गए उदाहरणों के आधार पर, मॉडल को ट्रेनिंग दी जाती है. इस वजह से, मॉडल, ट्रेनिंग सेट में मौजूद डेटा की विशेषताओं को समझता है. सामान्य जानकारी यह सवाल ज़रूर पूछेगा कि क्या आपका मॉडल, उदाहरणों के लिए अच्छे अनुमान लगा सकता है जो ट्रेनिंग सेट में नहीं हैं.

लोगों को सामान्य जानकारी देने के लिए, रेगुलर एक्सप्रेशन से मॉडल ट्रेन में मदद मिलती है वे ट्रेनिंग सेट में मौजूद डेटा की खासियत से कम सटीक होते हैं.

सामान्यीकरण कर्व

#fundamentals

ट्रेनिंग में कमी और, दोनों का प्लॉट वैलिडेशन लॉस: दोहरावों.

सामान्यीकरण कर्व की मदद से यह पता लगाया जा सकता है कि ओवरफ़िटिंग (ओवरफ़िटिंग). उदाहरण के लिए, निम्न सामान्यीकरण कर्व, ओवरफ़िटिंग का सुझाव देता है, क्योंकि पुष्टि नहीं हो सकती आखिरकार, ट्रेनिंग में कमी की तुलना में काफ़ी ज़्यादा हो जाती है.

ऐसा कार्टिज़न ग्राफ़ जिसमें y-ऐक्सिस को लॉस और x-ऐक्सिस के तौर पर लेबल किया गया है
बार-बार दोहराए जाने का लेबल है. दो प्लॉट दिखते हैं. एक प्लॉट में,
और दूसरे में पुष्टि न हो पाने का पता चलता है.
दोनों प्लॉट एक ही तरह से शुरू होते हैं, लेकिन ट्रेनिंग खत्म हो जाती है
पुष्टि करने में हुई गड़बड़ी की तुलना में काफ़ी कम हो जाती है.

ग्रेडिएंट डिसेंट

#fundamentals

लॉस को कम करने के लिए, गणित की तकनीक. ग्रेडिएंट ढलान, पुनरावृत्तीय रूप से समायोजित होता है वज़न और पक्षपात, नुकसान को कम करने के लिए, धीरे-धीरे सबसे अच्छे कॉम्बिनेशन को खोजा जा सकेगा.

ग्रेडिएंट ढलान पुराना है—जो मशीन लर्निंग की तुलना में बहुत पुराना है.

ज़मीनी हकीकत

#fundamentals

हकीकत.

यह असल में हुआ था.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन का इस्तेमाल करें मॉडल, जो यह अनुमान लगाता है कि छात्र-छात्राओं ने यूनिवर्सिटी में पढ़ाई के अपने पहले साल में क्या किया पास छह साल में पास हो जाएगा. इस मॉडल के लिए ज़मीनी हकीकत यह है कि या नहीं है कि उस छात्र ने वास्तव में छह साल के भीतर ग्रेजुएशन किया.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

हम ज़मीनी हकीकत को ध्यान में रखते हुए मॉडल की क्वालिटी का आकलन करते हैं. हालांकि, ज़मीनी हकीकत हमेशा पूरी तरह से, सही, और ईमानदार नहीं होता. उदाहरण के लिए, ज़मीनी हकीकत की संभावित कमियों के उदाहरण:

ग्रेजुएशन के उदाहरण में, क्या हम पक्का हैं कि ग्रेजुएशन क्या हर छात्र-छात्रा के रिकॉर्ड हमेशा सही होते हैं? क्या यह यूनिवर्सिटी क्या उसमें कोई गड़बड़ी नहीं है?
मान लीजिए कि लेबल एक फ़्लोटिंग-पॉइंट वैल्यू है, जिसे इंस्ट्रुमेंट से मेज़र किया गया है (जैसे, बैरोमीटर). हम यह कैसे पक्का कर सकते हैं कि हर इंस्ट्रुमेंट को समान रूप से कैलिब्रेट किया जाता है या हर रीडिंग को उसी हालात?
अगर लेबल लोगों की राय के बारे में है, तो हम कैसे पक्का कर सकते हैं कि हर रेटर, इवेंट का आकलन करता है उसी तरह? परफ़ॉर्मेंस में सुधार लाने के लिए, कभी-कभी विशेषज्ञ समीक्षकों की राय हस्तक्षेप करें.

H

छिपी हुई लेयर

#fundamentals

न्यूरल नेटवर्क में एक लेयर, जो इनपुट लेयर (सुविधाएं) और आउटपुट लेयर (अनुमान). हर छिपी हुई लेयर में एक या एक से ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में दो छिपी हुई लेयर हैं, पहला तीन न्यूरॉन और दूसरे में दो न्यूरॉन है:

डीप न्यूरल नेटवर्क में एक से ज़्यादा, छिपी हुई लेयर. उदाहरण के लिए, ऊपर दिया गया इलस्ट्रेशन डीप न्यूरल है नेटवर्क सेट करता है, क्योंकि मॉडल में दो छिपी हुई लेयर होती हैं.

हाइपर पैरामीटर

#fundamentals

ऐसे वैरिएबल जिन्हें आपने या हाइपर पैरामीटर ट्यूनिंग सेवा के लिए इस्तेमाल किया है मॉडल को ट्रेनिंग देने के दौरान लगातार बदलाव करते रहें. उदाहरण के लिए, लर्निंग रेट हाइपर पैरामीटर है. आप एक ट्रेनिंग सेशन से पहले, लर्निंग रेट को 0.01 पर सेट करना होगा. अगर आपको यह तय किया जा सकता है कि 0.01 बहुत ज़्यादा है, तो ऐसे में अगले ट्रेनिंग सेशन के लिए रेट 0.003 हो जाएगा.

वहीं दूसरी ओर, पैरामीटर वज़न और पूर्वाग्रह जो मॉडल ट्रेनिंग के दौरान सीखता है.

I

अलग-अलग और एक समान रूप से डिस्ट्रिब्यूट किए गए (i.i.d)

#fundamentals

ऐसे डिस्ट्रिब्यूशन से लिया गया डेटा जिसमें बदलाव नहीं होता है. साथ ही, जिसमें हर वैल्यू ड्रॉर, पहले बनाई गई वैल्यू पर निर्भर नहीं करता है. कोई आई॰आई॰डी॰ आदर्श गैस है मशीन का सीखना—एक उपयोगी गणितीय निर्माण, जो शायद सटीक रूप से कभी नहीं मिला अनुभव करते हैं. उदाहरण के लिए, किसी वेब पेज पर विज़िटर का वितरण ये आई.आई.डी. हो सकते है का समय पूरा हो जाता है. इसका मतलब है कि डिस्ट्रिब्यूशन उस संक्षिप्त विंडो के दौरान बदलाव हो जाता है और आम तौर पर एक व्यक्ति का आना-जाना होता है स्वतंत्र रूप से काम करते हैं. हालांकि, अगर आप समय की वह विंडो बढ़ाते हैं, इसलिए, वेब पेज पर आने वाले लोगों में सीज़न के मुताबिक अंतर दिख सकता है.

नॉनस्टेशनरिटी भी देखें.

अनुमान

#fundamentals

मशीन लर्निंग में, उसके हिसाब से अनुमान लगाने की बिना लेबल वाले उदाहरणों पर, ट्रेन किए गए मॉडल को लागू करना.

आंकड़ों में अनुमान का कुछ अलग मतलब होता है. ज़्यादा जानकारी के लिए, ज़्यादा जानकारी के लिए, आंकड़ों के अनुमान पर Wikipedia का लेख.

इनपुट लेयर

#fundamentals

उस न्यूरल नेटवर्क की लेयर जो फ़ीचर वेक्टर को दबाकर रखा जाता है. इसका मतलब है कि इनपुट लेयर ट्रेनिंग के लिए उदाहरण देता है या अनुमान. उदाहरण के लिए, यहां दी गई इनपुट लेयर में न्यूरल नेटवर्क में दो सुविधाएं होती हैं:

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.

इंटरप्रेटेडेबिलिटी

#fundamentals

एमएल मॉडल की रीज़निंग के बारे में जानकारी देने या उसे प्रज़ेंट करने की क्षमता समझने में आसान शब्दों का इस्तेमाल किया है.

उदाहरण के लिए, ज़्यादातर लीनियर रिग्रेशन मॉडल अनुवाद किया जा सकता है. (आपको हर एक के लिए ट्रेन किए गए वज़न को देखने की ज़रूरत है feature.) डिसिज़न फ़ॉरेस्ट भी आसानी से समझे जा सकते हैं. हालांकि, कुछ मॉडल, उसे समझने लायक बनाने के लिए, मुश्किल विज़ुअलाइज़ेशन का होना ज़रूरी है.

Google आपके यूआरएल पैरामीटर को कैसे इस्तेमाल करेगा, यह तय करने के लिए लर्निंग इंटरप्रिटेबिलिटी टूल (एलआईटी) एमएल मॉडल को समझने के लिए.

फिर से करें

#fundamentals

किसी मॉडल के पैरामीटर का एक अपडेट—मॉडल के भार और पक्षपात—इस अवधि के दौरान ट्रेनिंग. बैच के साइज़ से तय होता है कि एक बार में यह मॉडल प्रोसेस होने के कितने उदाहरण देता है. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो मॉडल पहले 20 उदाहरणों को प्रोसेस करता है पैरामीटर अडजस्ट करना.

न्यूरल नेटवर्क को ट्रेनिंग देते समय, एक बार दोहराना इसमें ये दो पास शामिल हैं:

एक बैच में नुकसान का आकलन करने के लिए फ़ॉरवर्ड पास.
बैकवर्ड पास (बैकप्रोपगेशन) की मदद से, लॉस और लर्निंग रेट के आधार पर मॉडल के पैरामीटर.

L

L₀ रेगुलराइज़ेशन

#fundamentals

यह एक तरह का रेगुलराइज़ेशन होता है, गैर-शून्य वेट की कुल संख्या को कम करता है एक मॉडल में काम करती है. उदाहरण के लिए, 11 अशून्य भार वाला मॉडल 10 नॉन शून्य वेट वाले मिलते-जुलते मॉडल की तुलना में ज़्यादा जुर्माना लगाया जाएगा.

L₀ रेगुलराइज़ेशन को कभी-कभी L0-norm रेगुलराइज़ेशन भी कहा जाता है.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

बड़े मॉडल में, L₀ रेगुलराइज़ेशन लागू नहीं किया जा सकता, क्योंकि L₀ को नियमित करने से ट्रेनिंग में बदल जाता है कॉन्वैक्स ऑप्टिमाइज़ेशन से जुड़ी समस्या.

L₁ की कमी

#fundamentals

ऐब्सलूट वैल्यू का हिसाब लगाने वाला लॉस फ़ंक्शन असली लेबल की वैल्यू और वे वैल्यू जिनका अनुमान मॉडल लगाता है. उदाहरण के लिए, यहां पांच के बैच के लिए L₁ लॉस का हिसाब उदाहरण:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा का निरपेक्ष मान
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ नुकसान

L₁ की कमी, बाहरी वजहों के हिसाब से कम संवेदनशील होती है L₂ नुकसान से ज़्यादा है.

मीन ऐब्सॉल्यूट एरर औसत वैल्यू है हर उदाहरण के लिए L₁ नुकसान.

औपचारिक गणित देखने के लिए आइकन पर क्लिक करें.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

कहां:

$n$ उदाहरणों की संख्या है.
लेबल की असल वैल्यू $y$ है.
$\हैट{y}$ वह वैल्यू है जिसका अनुमान, मॉडल $y$ के लिए लगाता है.

L₁ रेगुलराइज़ेशन

#fundamentals

एक तरह का रेगुलराइज़ेशन, जिसकी वजह से के निरपेक्ष मान के योग के अनुपात में भार वज़न. L₁ रेगुलराइज़ेशन की मदद से, उन क्वेरी को प्राथमिकता दी जाती है जो काम के नहीं हैं या शायद ही किसी काम की सुविधा को बिलकुल 0 कर पाएं. इनके साथ वाली सुविधा मॉडल से 0 वज़न हटा दिया जाता है.

L₂ रेगुलराइज़ेशन से अलग करें.

L₂ की कमी

#fundamentals

ऐसा लॉस फ़ंक्शन जो स्क्वेयर कैलकुलेट करता है असली लेबल की वैल्यू और वे वैल्यू जिनका अनुमान मॉडल लगाता है. उदाहरण के लिए, यहां पांच के बैच के लिए, L₂ लॉस का हिसाब उदाहरण:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा का वर्ग
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ नुकसान

स्क्वैरिंग की वजह से, L₂ की कमी से आउटलायर. इसका मतलब है कि अगर L₂ लॉस, खराब अनुमानों पर ज़्यादा प्रतिक्रिया देता है, तो L₁ नुकसान. उदाहरण के लिए, L₁ का नुकसान तो पिछले बैच के लिए, 16 के बजाय 8 होगा. ध्यान दें कि एक बाहरी खाते 16 में से 9 के लिए हैं.

रिग्रेशन मॉडल आम तौर पर, L₂ लॉस का इस्तेमाल करते हैं घटाने के फ़ंक्शन के तौर पर.

मीन स्क्वेयर्ड एरर औसत वैल्यू है हर उदाहरण के लिए L₂ नुकसान. L₂ लॉस का दूसरा नाम स्क्वेयर लॉस भी है.

औपचारिक गणित देखने के लिए आइकन पर क्लिक करें.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

कहां:

$n$ उदाहरणों की संख्या है.
लेबल की असल वैल्यू $y$ है.
$\हैट{y}$ वह वैल्यू है जिसका अनुमान, मॉडल $y$ के लिए लगाता है.

L₂ रेगुलराइज़ेशन

#fundamentals

एक तरह का रेगुलराइज़ेशन, जिसकी वजह से भार के स्क्वेयर के योग के अनुपात में भार. L₂ को रेगुलर करने से आउटलायर वेट (जिन्हें वैल्यू 0 के करीब हों, लेकिन 0 के आस-पास न हों. ऐसी सुविधाएं मॉडल में बनी रहती हैं जिनकी वैल्यू 0 के बहुत करीब होती है लेकिन मॉडल के अनुमान पर ज़्यादा असर नहीं डालते.

L₂ रेगुलराइज़ेशन की सुविधा से, सामान्य जानकारी पाने में हमेशा मदद मिलती है लीनियर मॉडल.

L₁ रेगुलराइज़ेशन से अलग करें.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, "जवाब दो" या "नतीजे" वाला हिस्सा एक उदाहरण का है.

लेबल किए गए हर उदाहरण में एक या एक से ज़्यादा चीज़ें होती हैं सुविधाएं और एक लेबल. उदाहरण के लिए, स्पैम फ़ोल्डर में डेटासेट का पता लगाने के लिए, वह लेबल या तो "स्पैम" हो सकता है या "यह स्पैम नहीं है." बारिश के डेटासेट में, लेबल एक तय समय के दौरान हुई बारिश.

लेबल किया गया उदाहरण

#fundamentals

उदाहरण के लिए, एक या एक से ज़्यादा सुविधाएं और label. उदाहरण के लिए, नीचे दी गई टेबल में तीन हाउस वैल्यूएशन मॉडल के लेबल किए गए उदाहरण. हर एक में तीन सुविधाएं हैं और एक लेबल:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र	घर की कीमत (लेबल)
3	2	15	3,45,000 डॉलर
2	1	72	1,79,000 डॉलर
4	2	34	3,92,000 डॉलर

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल, लेबल किए गए उदाहरणों के आधार पर ट्रेनिंग देते हैं और इन पर अनुमान लगाते हैं बिना लेबल वाले उदाहरण.

बिना लेबल वाले उदाहरणों के साथ कंट्रास्ट लेबल किए गए उदाहरण.

लैम्डा

#fundamentals

रेगुलराइज़ेशन रेट का समानार्थी शब्द.

Lambda एक ओवरलोडेड टर्म है. यहां हम उन कीवर्ड पर फ़ोकस कर रहे हैं जिनका रेगुलराइज़ेशन में दी गई परिभाषा.

लेयर

#fundamentals

न्यूरॉन के एक सेट को न्यूरल नेटवर्क. लेयर के तीन सामान्य टाइप ये हैं:

इनपुट लेयर, जो सभी सुविधाएं का इस्तेमाल करें.
एक या ज़्यादा छिपी हुई लेयर, जिन्हें सुविधाओं और लेबल के बीच गैर-रेखीय संबंध.
आउटपुट लेयर, जिससे अनुमान लगाया जाता है.

उदाहरण के लिए, नीचे दिए गए इलस्ट्रेशन में न्यूरल नेटवर्क दिखाया गया है, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर:

एक इनपुट लेयर, छिपी हुई दो लेयर, और एक लेयर वाला न्यूरल नेटवर्क
आउटपुट लेयर. इनपुट लेयर में दो सुविधाएं होती हैं. पहला
छिपी हुई लेयर में तीन न्यूरॉन और दूसरी छिपी हुई लेयर होती है
इसमें दो न्यूरॉन होते हैं. आउटपुट लेयर में एक नोड होता है.

TensorFlow में, layers ऐसे Python फ़ंक्शन भी हैं जो इनपुट और कॉन्फ़िगरेशन के विकल्पों के तौर पर टेंसर और आउटपुट के रूप में अन्य टेंसर बनाएं.

सीखने की दर

#fundamentals

एक फ़्लोटिंग-पॉइंट नंबर, जो ग्रेडिएंट डिसेंट के बारे में बताता है एल्गोरिदम की सुरक्षा के लिए, दोहराव. उदाहरण के लिए, 0.3 की सीखने की दर सीखने की दर की तुलना में तीन गुना ज़्यादा बेहतर तरीके से वज़न और पूर्वाग्रह को घटाना या बढ़ाना 0.1 में से.

लर्निंग रेट, एक मुख्य हाइपर पैरामीटर है. अगर आपने सेट किया है, तो सीखने की दर बहुत कम है, इसलिए ट्रेनिंग में बहुत समय लगेगा. अगर आपने आपने सीखने की दर को बहुत ज़्यादा पर सेट किया हो, ग्रेडिएंट ढलान में अक्सर परेशानी होती है कन्वर्ज़न तक पहुंचना.

गणित के बारे में ज़्यादा जानकारी पाने के लिए, आइकॉन पर क्लिक करें.

हर बार के दौरान, ग्रेडिएंट डिसेंट एल्गोरिदम की मदद से, ग्रेडिएंट के हिसाब से सीखने की दर. नतीजे के तौर पर मिलने वाले प्रॉडक्ट को ग्रेडिएंट चरण पर जाएं.

रेखीय

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ दिखाया जा सकता है जोड़ने और गुणा करने की सुविधा का इस्तेमाल करके.

लीनियर रिलेशनशिप का प्लॉट एक लाइन होता है.

nonlinear से कंट्रास्ट करें.

लीनियर मॉडल

#fundamentals

ऐसा मॉडल जो हर छात्र-छात्रा के लिए एक वज़न असाइन करता हो पूर्वानुमान बनाने के लिए, सुविधा का इस्तेमाल करें. (लीनियर मॉडल में पूर्वाग्रह भी शामिल होता है.) इसके उलट, डीप मॉडल में, अनुमान और सुविधाओं के बीच संबंध आम तौर पर, nonlinear होता है.

आम तौर पर, लीनियर मॉडल को ट्रेनिंग देना आसान होता है. साथ ही, डीप मॉडल की तुलना में समझा जा सकता है. हालांकि, डीप मॉडल, सुविधाओं के बीच जटिल संबंध सीख सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन दो तरह के लीनियर मॉडल हैं.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

लीनियर मॉडल में यह फ़ॉर्मूला अपनाया जाता है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

कहां:

y' सटीक अनुमान होता है. (कुछ खास तरह के लीनियर मॉडल में, रॉ अनुमान में और बदलाव किया जाएगा. उदाहरण के लिए, देखें लॉजिस्टिक रिग्रेशन.)
b, पूर्वाग्रह है.
w का वज़न है, इसलिए w₁ w₂ पहली सुविधा का वेट, दूसरी सुविधा, और ऐसे ही अन्य फ़ीचर.
x एक सुविधा है. इसलिए, x₁ x₂ पहली सुविधा की वैल्यू है, जो दूसरी सुविधा की वैल्यू है. वगैरह.

उदाहरण के लिए, मान लें कि तीन सुविधाओं के लिए एक रैखिक मॉडल निम्न सीखता है पक्षपात और भार:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

इसलिए, इन तीन सुविधाओं (x₁, x₂, और x₃), लीनियर मॉडल में इन इक्वेशन का इस्तेमाल किया जाता है हर अनुमान जनरेट करने के लिए:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

मान लें कि किसी खास उदाहरण में ये वैल्यू शामिल हैं:

x₁ = 4
x₂ = -10
x₃ = 5

उन वैल्यू को फ़ॉर्मूला में प्लग करने से, इस उदाहरण के लिए एक अनुमान मिलता है:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

रैखिक मॉडल में केवल वे मॉडल शामिल नहीं होते जो रेखीय समीकरण का इस्तेमाल करने वाले मॉडल के विस्तृत सेट के साथ-साथ पूर्वानुमान भी लगाते हैं का इस्तेमाल, अनुमान लगाने वाले फ़ॉर्मूला के सिर्फ़ एक कॉम्पोनेंट के तौर पर करता है. उदाहरण के लिए, लॉजिस्टिक रिग्रेशन, प्रोसेस किए जाने के बाद रॉ अनुमान (y') की मदद से 0 और 1 के बीच की आखिरी वैल्यू मिलती है, खास तौर पर.

लीनियर रिग्रेशन

#fundamentals

एक तरह का मशीन लर्निंग मॉडल, जिसमें नीचे दी गई दोनों बातें सही होती हैं:

यह मॉडल एक लीनियर मॉडल है.
अनुमान, फ़्लोटिंग-पॉइंट की एक वैल्यू होती है. (यह रिग्रेशन, लीनियर रिग्रेशन का हिस्सा है.)

लॉजिस्टिक रिग्रेशन की मदद से, लीनियर रिग्रेशन के बीच का अंतर बताएं. इसके अलावा, क्लासिफ़िकेशन के साथ रिग्रेशन के कंट्रास्ट का इस्तेमाल करें.

लॉजिस्टिक रिग्रेशन

#fundamentals

यह एक तरह का रिग्रेशन मॉडल है, जो प्रॉबबिलिटी का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल की विशेषताएं:

लेबल कैटगरिकल है. लॉजिस्टिक शब्द आम तौर पर, रिग्रेशन का मतलब बाइनरी लॉजिस्टिक रिग्रेशन होता है. इसका मतलब है कि , जो दो संभावित वैल्यू वाले लेबल के लिए, प्रॉबबिलिटी कैलकुलेट करता है. एक कम सामान्य वैरिएंट, मल्टीनोमियल लॉजिस्टिक रिग्रेशन दो से ज़्यादा संभावित मानों वाले लेबल के लिए प्रायिकता.
ट्रेनिंग के दौरान होने वाले नुकसान का फ़ंक्शन, लॉग लॉस है. (लॉग लॉस की एक से ज़्यादा यूनिट को लेबल के साथ-साथ रखा जा सकता है) दो से ज़्यादा संभावित वैल्यू वाला फ़ॉर्मैट इस्तेमाल करें.)
इस मॉडल में लीनियर आर्किटेक्चर का इस्तेमाल किया गया है, न कि डीप न्यूरल नेटवर्क. हालांकि, इस परिभाषा का शेष हिस्सा इन पर भी लागू होता है डीप मॉडल, जो संभावनाओं का अनुमान लगाते हैं इस्तेमाल किया जा सकता है.

उदाहरण के लिए, एक ऐसे लॉजिस्टिक रिग्रेशन मॉडल पर विचार करें जो किसी इनपुट ईमेल के स्पैम या स्पैम नहीं होने की संभावना. अनुमान के दौरान, मान लें कि मॉडल 0.72 का अनुमान लगाता है. इसलिए, मॉडल का अनुमान लगा रहा है:

ईमेल के स्पैम होने की 72% संभावना.
इस बात की 28% संभावना होती है कि ईमेल स्पैम न हो.

लॉजिस्टिक रिग्रेशन मॉडल में, दो चरणों वाले इन आर्किटेक्चर का इस्तेमाल किया जाता है:

यह मॉडल, लीनियर फ़ंक्शन लागू करके, अनुमानित अनुमान (y') जनरेट करता है सुविधाओं का इस्तेमाल करें.
यह मॉडल इस रॉ अनुमान का इस्तेमाल इनपुट के तौर पर sigmoid फ़ंक्शन, जो रॉ डेटा को कन्वर्ट करता है इसमें 0 और 1 के बीच की कोई वैल्यू का अनुमान शामिल होता है.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल किसी संख्या का अनुमान लगाता है. हालांकि, यह संख्या आम तौर पर बाइनरी क्लासिफ़िकेशन का हिस्सा बन जाती है मॉडल की जानकारी देखें:

अगर अनुमानित संख्या ज़्यादा है, तो क्लासिफ़िकेशन थ्रेशोल्ड, बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

लॉग लॉस

#fundamentals

बाइनरी में इस्तेमाल किया जाने वाला लॉस फ़ंक्शन लॉजिस्टिक रिग्रेशन.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

लॉग लॉस को कैलकुलेट करने के लिए, यह फ़ॉर्मूला इस्तेमाल किया जाता है:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

कहां:

$(x,y)\in D$ वह डेटासेट है जिसमें कई उदाहरण, जो $(x,y)$ पेयर हैं.
$y$ लेबल किए गए उदाहरण में लेबल है. यह लॉजिस्टिक रिग्रेशन है, इसलिए $y$ की हर वैल्यू 0 या 1 होनी चाहिए.
$y'$ कोई अनुमानित वैल्यू है (0 से 1 के बीच की कोई वैल्यू), खास के लिए $x$में सुविधाओं का सेट दिया गया है.

लॉग-ऑड

#fundamentals

किसी इवेंट की संख्याओं का लॉगरिद्म.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

अगर इवेंट बाइनरी प्रॉबबिलिटी है, तो ऑड का मतलब होता है सफलता की संभावना (p) और सफलता की संभावना का अनुपात गड़बड़ी (1-p). उदाहरण के लिए, मान लें कि किसी इवेंट का 90% सफलता और असफल होने की 10% संभावना. इस मामले में, ऑड का हिसाब इस तरह लगाया जाता है:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

लॉग-ऑड सिर्फ़ संख्याओं का लॉगारिद्म होता है. नियमों के हिसाब से, "लॉगारिदम" इससे संबंधित है नैचुरल लॉगारिद्म, लेकिन लॉगारिद्म असल में 1 से बड़ा कोई भी बेस हो सकता है. इसलिए, कन्वेंशन पर बने हमारे उदाहरण का लॉग-ऑड देखें:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

लॉग-ऑड फ़ंक्शन, sigmoid फ़ंक्शन का इस्तेमाल करें.

हार

#fundamentals

किसी निगरानी में रखा गया मॉडल. इससे पता चलता है कि मॉडल का अनुमान, उसके लेबल से लिया गया है.

लॉस फ़ंक्शन, नुकसान का हिसाब लगाता है.

लॉस कर्व

#fundamentals

ट्रेनिंग की संख्या के फ़ंक्शन के तौर पर लॉस का प्लॉट दोहरावों. इस प्लॉट में, आम तौर पर होने वाले नुकसान के बारे में बताया गया है कर्व:

नुकसान बनाम ट्रेनिंग के बार-बार दोहराने का कार्टेज़ियन ग्राफ़, जिसमें
शुरुआती डेटा में तेज़ी से गिरावट आती है और कुछ हद तक
ड्रॉप और फिर एक सपाट ढलान का इस्तेमाल किया जाता है.

लॉस कर्व की मदद से यह तय किया जा सकता है कि आपका मॉडल कब है कन्वर्ज़न या ओवरफ़िटिंग.

लॉस कर्व इस तरह की सभी नुकसान को प्लॉट कर सकते हैं:

ट्रेनिंग में कमी
पुष्टि न होने की वजह
टेस्ट में कमी

सामान्य तरीके से बताने वाला कर्व भी देखें.

लॉस फ़ंक्शन

#fundamentals

ट्रेनिंग या टेस्ट के दौरान, गणितीय फलन जो उदाहरणों के बैच में कमी. लॉस फ़ंक्शन से कम नुकसान होता है का उपयोग करने वाले मॉडलों की तुलना में सुझाव नहीं दिए हैं.

आम तौर पर, ट्रेनिंग का मकसद लॉस फ़ंक्शन में होने वाले नुकसान को कम करना होता है वापस करना.

लॉस फ़ंक्शन कई तरह के होते हैं. जिस नुकसान की भरपाई करनी है उसे चुनें फ़ंक्शन को लागू किया जा सकता है. उदाहरण के लिए:

L₂ लॉस (या मीन स्क्वेयर्ड एरर) लीनियर रिग्रेशन का लॉस फ़ंक्शन है.
लॉग लॉस: लॉजिस्टिक रिग्रेशन.

M

मशीन लर्निंग

#fundamentals

वह प्रोग्राम या सिस्टम जो को a इनपुट डेटा से लिया गया मॉडल. प्रशिक्षित मॉडल यह कर सकता है: इससे निकाले गए नए (पहले कभी नहीं देखे गए) डेटा से काम के अनुमान लगाने में डिस्ट्रिब्यूशन जो मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया जाता है.

मशीन लर्निंग का मतलब है, का इस्तेमाल कर सकते हैं.

बहुमत श्रेणी

#fundamentals

आम तौर पर, खोज के लिए इस्तेमाल होने वाले क्लास असंतुलित डेटासेट. उदाहरण के लिए, दिए गए डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल मौजूद हैं, ज़्यादातर नेगेटिव लेबल ही आते हैं.

माइनरिटी क्लास से अलग करें.

मिनी-बैच

#fundamentals

किसी एक में प्रोसेस किए गए बैच का एक छोटा, बिना किसी क्रम के चुना गया सबसेट दोहराव. आम तौर पर, मिनी-बैच का बैच का साइज़ होता है की कैटगरी में बांट सकते हैं.

उदाहरण के लिए, मान लें कि पूरा ट्रेनिंग सेट (पूरा बैच) इसमें 1,000 उदाहरण शामिल हैं. इसके बाद, यह मान लीजिए कि आपने हर मिनी-बैच का बैच साइज़ 20 तक होना चाहिए. इसलिए, प्रत्येक फिर से करने पर, 1,000 उदाहरणों में से 20 के क्रम में होने वाले नुकसान का पता चलता है और वज़न और पक्षपातों में बदलाव करता है.

मिनी-बैच में होने वाले नुकसान का हिसाब लगाना बेहतर होता है. पूरे बैच के सभी उदाहरणों में कमी.

अल्पसंख्यक वर्ग

#fundamentals

आम तौर पर, कम इस्तेमाल होने वाला लेबल क्लास असंतुलित डेटासेट. उदाहरण के लिए, दिए गए डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल मौजूद हैं, पॉज़िटिव लेबल, अल्पसंख्यक वर्ग हैं.

ज़्यादातर वर्ग से अलग करें.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

लाखों उदाहरणों वाले साउंड वाला ट्रेनिंग सेट शानदार. हालांकि, अगर अल्पसंख्यक वर्ग को खराब तरीके से दिखाया जाता है, तो हो सकता है कि बहुत बड़ा ट्रेनिंग सेट भी काम न करे. कम फ़ोकस करें डेटासेट में उदाहरणों की कुल संख्या और हर चीज़ के बारे में ज़्यादा जानने के लिए, अल्पसंख्यक वर्ग के उदाहरण हैं.

अगर आपके डेटासेट में अल्पसंख्यक वर्ग के ज़रूरी उदाहरण मौजूद नहीं हैं, तो देखें डाउनसैंपलिंग का इस्तेमाल करके (परिभाषा दूसरे बुलेट पॉइंट में) शामिल करें.

मॉडल

#fundamentals

आम तौर पर, इनपुट डेटा और रिटर्न को प्रोसेस करने वाला कोई भी गणितीय निर्माण आउटपुट. इसे अलग तरीके से बताया गया है. मॉडल, पैरामीटर और स्ट्रक्चर का सेट होता है ज़रूरत होती है, ताकि सिस्टम इसका अनुमान लगा सके. निगरानी में रखी गई मशीन लर्निंग में, कोई मॉडल, इनपुट के तौर पर उदाहरण लेता है और आउटपुट के रूप में अनुमान. निगरानी में रखी गई मशीन लर्निंग में, मॉडल कुछ हद तक अलग होते हैं. उदाहरण के लिए:

लीनियर रिग्रेशन मॉडल में वेट का सेट होता है और पूर्वाग्रह.
न्यूरल नेटवर्क मॉडल में ये चीज़ें शामिल होती हैं:
- छिपी हुई लेयर का सेट, जिसमें हर लेयर में एक या ज़्यादा न्यूरॉन.
- हर न्यूरॉन का वेट और बायस.
डिसिज़न ट्री मॉडल में ये चीज़ें शामिल होती हैं:
- पेड़ का आकार; इसका मतलब है कि वह पैटर्न जिसमें शर्तें और पत्तियां जुड़ी हुई हैं.
- शर्तें और पत्तियां.

आपके पास किसी मॉडल को सेव करने, उसे वापस लाने या उसकी कॉपी बनाने का विकल्प होता है.

अनसुपरवाइज़्ड मशीन लर्निंग भी मॉडल जनरेट करता है. आम तौर पर, यह ऐसा फ़ंक्शन होता है जो इनपुट के उदाहरण को मैप कर सकता है सबसे सही क्लस्टर.

बीजगणित और प्रोग्रामिंग फ़ंक्शन की एमएल मॉडल से तुलना करने के लिए, आइकॉन पर क्लिक करें.

बीजगणितीय फ़ंक्शन एक मॉडल है:

  f(x, y) = 3x -5xy + y² + 17

पिछला फ़ंक्शन, इनपुट वैल्यू (x और y) को मैप करता है आउटपुट.

इसी तरह, नीचे दिए गए जैसा प्रोग्रामिंग फ़ंक्शन भी एक मॉडल है:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

कॉलर पिछले Python फ़ंक्शन में आर्ग्युमेंट पास करता है और Python फ़ंक्शन, return स्टेटमेंट के ज़रिए आउटपुट जनरेट करता है.

हालांकि, डीप न्यूरल नेटवर्क इसका गणितीय स्ट्रक्चर, ऐलजेब्रिक या प्रोग्रामिंग से काफ़ी अलग है फ़ंक्शन है, तो डीप न्यूरल नेटवर्क अब भी इनपुट (उदाहरण) लेता है और आउटपुट (अनुमान) लगाने के लिए.

कोई प्रोग्रामर, प्रोग्रामिंग फ़ंक्शन को मैन्युअल तौर पर कोड करता है. इसके उलट, मशीन लर्निंग मॉडल, धीरे-धीरे सबसे अच्छे पैरामीटर सीखता है के दौरान करते हैं.

कई क्लास की कैटगरी

#fundamentals

निगरानी में रखी गई लर्निंग में, क्लासिफ़िकेशन की समस्या जिसमें डेटासेट में लेबल की दो से ज़्यादा क्लास हों. उदाहरण के लिए, Iris डेटासेट में मौजूद लेबल इनमें से एक होना चाहिए तीन क्लास:

आइरिस सेटोसा
आइरिस वर्जिनिका
आइरिस वर्सीकलर

Iris डेटासेट पर तैयार किया गया एक मॉडल, जो नए उदाहरणों में Iris टाइप का अनुमान लगाता है मल्टी-क्लास क्लासिफ़िकेशन का इस्तेमाल कर रहा है.

इसके उलट, वर्गीकरण से जुड़ी ऐसी समस्याएं होती हैं जो सिर्फ़ दो के बीच का अंतर दिखाती हैं क्लास, बाइनरी क्लासिफ़िकेशन मॉडल होती हैं. उदाहरण के लिए, ऐसा ईमेल मॉडल जो स्पैम या स्पैम नहीं है का अनुमान लगाता है एक बाइनरी क्लासिफ़िकेशन मॉडल है.

क्लस्टरिंग समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन का मतलब दो क्लस्टर में.

नहीं

नेगेटिव क्लास

#fundamentals

बाइनरी क्लासिफ़िकेशन में, एक क्लास उसे पॉज़िटिव और दूसरे को नेगेटिव कहा जाता है. पॉज़िटिव क्लास है ऐसी चीज़ या इवेंट के लिए जिसे मॉडल टेस्ट कर रहा है और नेगेटिव क्लास अन्य संभावना. उदाहरण के लिए:

किसी मेडिकल टेस्ट में नेगेटिव क्लास "ट्यूमर नहीं" हो सकती है.
ईमेल की कैटगरी तय करने वाली सुविधा में, नेगेटिव क्लास "स्पैम नहीं" हो सकती है.

पॉज़िटिव क्लास से अलग करें.

न्यूरल नेटवर्क

#fundamentals

ऐसा मॉडल जिसमें कम से कम एक हो छिपी हुई लेयर. डीप न्यूरल नेटवर्क एक तरह का न्यूरल नेटवर्क है जिसमें एक से ज़्यादा छिपे हुए लेयर हों. उदाहरण के लिए, नीचे दिया गया डायग्राम देखकर एक डीप न्यूरल नेटवर्क दिखाता है, जिसमें दो छिपी हुई लेयर होती हैं.

इनपुट लेयर वाला न्यूरल नेटवर्क, जिसमें दो छिपी हुई लेयर और
आउटपुट लेयर.

किसी न्यूरल नेटवर्क में मौजूद हर न्यूरॉन, अगली लेयर के सभी नोड से जुड़ा होता है. उदाहरण के लिए, पिछले डायग्राम में, ध्यान दें कि तीनों न्यूरॉन में से हर एक न्यूरॉन दोनों न्यूरॉन में, पहली छिपी हुई लेयर में दूसरी छिपी हुई लेयर.

कंप्यूटर पर लागू किए गए न्यूरल नेटवर्क को कभी-कभी आर्टिफ़िशियल न्यूरल नेटवर्क का इस्तेमाल कर सकते हैं, ताकि उन्हें दिमाग और अन्य नर्वस सिस्टम में पाए जाने वाले न्यूरल नेटवर्क.

कुछ न्यूरल नेटवर्क बेहद जटिल अरेखीय संबंधों की नकल कर सकते हैं सुविधाओं और लेबल के बीच स्विच कर सकता है.

कॉन्वोलूशनल न्यूरल नेटवर्क और बार-बार होने वाला न्यूरल नेटवर्क.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, छिपी हुई लेयर में एक अलग यूनिट एक न्यूरल नेटवर्क का हो सकता है. हर न्यूरॉन ये काम करता है दो चरणों में होने वाली कार्रवाई:

यह फ़ंक्शन, इनपुट वैल्यू के भारित योग को गुणा करने पर मिलने वाली वैल्यू का हिसाब लगाता है वज़न के आधार पर फ़िल्टर करें.
भारित योग को इनपुट के रूप में ऐक्टिवेशन फ़ंक्शन.

पहली छिपी हुई लेयर में मौजूद न्यूरॉन, सुविधा की वैल्यू से इनपुट स्वीकार करता है इनपुट लेयर में जाएं. इसके अलावा, किसी दूसरी छिपी हुई लेयर में न्यूरॉन पहला डेटा, पिछली छिपी हुई लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है. उदाहरण के लिए, दूसरी छिपी हुई लेयर में मौजूद न्यूरॉन, न्यूरॉन शामिल हैं.

इस इलस्ट्रेशन में दो न्यूरॉन और उनके इनपुट.

इनपुट लेयर वाला न्यूरल नेटवर्क, जिसमें दो छिपी हुई लेयर और
आउटपुट लेयर. दो न्यूरॉन हाइलाइट किए गए हैं: पहले में एक
और दूसरी छिपी हुई लेयर में. हाइलाइट की गई
पहली छिपी हुई लेयर में मौजूद न्यूरॉन को दोनों सुविधाओं से इनपुट मिलते हैं
इनपुट लेयर में. दूसरी छिपी हुई लेयर में हाइलाइट किया गया न्यूरॉन
पहले छिपाए गए तीन न्यूरॉन में से हर एक न्यूरॉन से इनपुट पाता है
लेयर.

तंत्रिका नेटवर्क में मौजूद एक न्यूरॉन, दिमाग के न्यूरॉन के व्यवहार की नकल करता है और तंत्रिका तंत्र के अन्य भागों में हो सकता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में एक न्यूरॉन.

nonlinear

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ दिखाया नहीं जा सकता जोड़ने और गुणा करने की सुविधा का इस्तेमाल करके. एक लीनियर संबंध इसे लाइन में दिखाया जा सकता है; एक nonlinear संबंध जिसे एक रेखा के रूप में दिखाया जाता है. उदाहरण के लिए, दो ऐसे मॉडल पर विचार करें जिनमें से हर एक संबंधित हो लेबल करने में मदद मिलती है. बाईं ओर मौजूद मॉडल, लीनियर है और दाईं ओर का मॉडल नॉनलीनियर है:

दो प्लॉट. एक प्लॉट एक लाइन है, इसलिए यह एक लीनियर रिलेशनशिप है.
दूसरा प्लॉट एक कर्व है, इसलिए यह एक अरेखीय संबंध है.

नॉनस्टेशनरिटी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में बदलती हैं. आम तौर पर, यह वैल्यू समय के हिसाब से बदल जाती है. उदाहरण के लिए, नॉनस्टेशनरिटी के इन उदाहरणों पर गौर करें:

किसी स्टोर में बेचे जाने वाले स्विमसूट की संख्या मौसम के हिसाब से अलग-अलग होती है.
किसी क्षेत्र में किसी खास फल की मात्रा साल के ज़्यादातर समय शून्य, लेकिन थोड़े समय के लिए बड़ी होती है.
जलवायु परिवर्तन की वजह से, सालाना औसत तापमान में बदलाव हो रहा है.

स्टेशनेरिटी के कंट्रास्ट से.

नॉर्मलाइज़ेशन

#fundamentals

मोटे तौर पर, किसी वैरिएबल की असल रेंज को बदलने की प्रोसेस में वैल्यू सेट करें, जैसे कि:

-1 से +1
0 से 1
सामान्य डिस्ट्रिब्यूशन

उदाहरण के लिए, मान लें कि किसी विशेषता के मानों की वास्तविक सीमा है 800 से 2,400 तक. फ़ीचर इंजीनियरिंग के हिस्से के तौर पर, तो आपके पास असली वैल्यू को स्टैंडर्ड रेंज तक नॉर्मलाइज़ कर सकते हैं, जैसे के रूप में -1 से +1 करने के लिए.

नॉर्मलाइज़ेशन यहां एक सामान्य काम है फ़ीचर इंजीनियरिंग. आम तौर पर, मॉडल ज़्यादा तेज़ी से ट्रेनिंग लेते हैं (और बेहतर अनुमान लगा सकते हैं) जब आप फ़ीचर वेक्टर की रेंज करीब-करीब बराबर है.

अंकों वाला डेटा

#fundamentals

सुविधाएं को पूर्णांक या असल वैल्यू वाली संख्याओं के तौर पर दिखाया जाता है. उदाहरण के लिए, हो सकता है कि घर का मूल्यांकन करने वाला मॉडल की वैल्यू दी जाएगी. प्रतिनिधित्व सुविधा के न्यूमेरिक डेटा से पता चलता है कि सुविधा की वैल्यू में लेबल के साथ गणितीय संबंध. इसका मतलब है कि एक घर में जितने वर्ग मीटर में काफ़ी जगह है घर की वैल्यू के साथ गणितीय संबंध.

सभी पूर्णांक डेटा को संख्या वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों के पिन कोड पूर्णांक होते हैं; हालांकि, पूर्णांक पोस्टल मॉडल में कोड को संख्या वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. ऐसा इसलिए, क्योंकि 20000 का पिन कोड 10,000 रुपये से ज़्यादा है. इसके अलावा, हालांकि अलग-अलग पिन कोड do रियल एस्टेट मूल्य, हम नहीं मान सकते कि डाक कोड पर अचल संपत्ति के मूल्य पिन कोड 10000 में 20,000 की वैल्यू, रीयल एस्टेट की वैल्यू के मुकाबले दोगुनी होती है. पिन कोड को कैटगरी के हिसाब से डेटा के तौर पर दिखाया जाना चाहिए आज़माएं.

संख्यात्मक सुविधाओं को कभी-कभी कहा जाता है लगातार सुविधाएं इस्तेमाल करने की सुविधा.

O

अॉफ़लाइन

#fundamentals

स्टैटिक के लिए समानार्थी.

ऑफ़लाइन अनुमान

#fundamentals

ऐसे मॉडल की प्रोसेस जो सुझावों का बैच जनरेट करती है और फिर उन अनुमानों को कैश मेमोरी (सेव करना) के लिए तैयार करना है. इसके बाद, ऐप्लिकेशन अनुमानित जानकारी को ऐक्सेस कर सकते हैं मॉडल को फिर से चलाने के बजाय कैश मेमोरी के अनुमान का इस्तेमाल करता है.

उदाहरण के लिए, स्थानीय मौसम के पूर्वानुमान जनरेट करने वाले मॉडल पर ध्यान देना (अनुमान) हर चार घंटे में एक बार. प्रत्येक मॉडल के चलने के बाद, सिस्टम सभी स्थानीय मौसम के पूर्वानुमान को कैश मेमोरी में सेव करता है. मौसम की जानकारी देने वाले ऐप्लिकेशन, पूर्वानुमान का डेटा उपलब्ध कराते हैं को कैश मेमोरी में सेव करता है.

ऑफ़लाइन अनुमान को स्टैटिक अनुमान भी कहा जाता है.

ऑनलाइन अनुमान से अंतर होना चाहिए.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरी वाले डेटा को वेक्टर के तौर पर दिखाना, जिसमें:

एक एलिमेंट 1 पर सेट है.
अन्य सभी एलिमेंट 0 पर सेट हैं.

वन-हॉट एन्कोडिंग का इस्तेमाल आम तौर पर उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जो संभावित वैल्यू का सीमित सेट होता है. उदाहरण के लिए, मान लें कि Scandinavia की पांच संभावित वैल्यू हो सकती हैं:

"डेनमार्क"
"स्वीडन"
"नॉर्वे"
"फ़िनलैंड"
"आइसलैंड"

वन-हॉट एन्कोडिंग में इन दोनों वैल्यू को इस तरह दिखाया जा सकता है:

country	वेक्टर
"डेनमार्क"	1	0	0	0	0
"स्वीडन"	0	1	0	0	0
"नॉर्वे"	0	0	1	0	0
"फ़िनलैंड"	0	0	0	1	0
"आइसलैंड"	0	0	0	0	1

वन-हॉट एन्कोडिंग की मदद से, मॉडल अलग-अलग कनेक्शन सीख सकता है हर पांच देश के हिसाब से तय किया गया है.

किसी सुविधा को संख्यात्मक डेटा के तौर पर दिखाना के बजाय वन-हॉट एन्कोडिंग का इस्तेमाल किया जाएगा. हमें खेद है कि वे अंकों के हिसाब से स्कैंडिनेवियन देशों का चुनाव नहीं होता. उदाहरण के लिए, नीचे दिए गए न्यूमेरिक निरूपण पर विचार करें:

"डेनमार्क" 0 है
"स्वीडन" 1 है
"नॉर्वे" 2 है
"फ़िनलैंड" 3 है
"आइसलैंड" 4 है

न्यूमेरिक एन्कोडिंग की मदद से, मॉडल रॉ संख्याओं को समझेगा गणित के सवाल हल करता है और उन संख्याओं के आधार पर ट्रेनिंग करने की कोशिश करता है. हालांकि, आइसलैंड वाकई में इसका दोगुना (या आधा) नहीं है यह मॉडल कुछ अजीब निष्कर्षों पर पहुंचा था.

एक-बनाम-सभी

#fundamentals

N क्लास के साथ वर्गीकरण से जुड़ी समस्या को देखते हुए, N अलग से बना विलयन बाइनरी क्लासिफ़ायर—यह एक बाइनरी क्लासिफ़ायर होता है हर संभावित नतीजे की जानकारी दी जा सकती है. उदाहरण के लिए, उदाहरणों को वर्गीकृत करने वाला मॉडल दिया गया जानवर, सब्ज़ी या खनिज के रूप में, एक-बनाम सभी समाधान उपलब्ध ये तीन अलग-अलग बाइनरी क्लासिफ़ायर होते हैं:

जानवर है बनाम जानवर नहीं
सब्ज़ी बनाम सब्ज़ी नहीं
मिनरल बनाम मिनरल नहीं

online

#fundamentals

डाइनैमिक का समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग पर अनुमान जनरेट करना. उदाहरण के लिए, मान लेते हैं कि कोई ऐप्लिकेशन किसी मॉडल को इनपुट देता है और सुझाव. ऑनलाइन अनुमान का इस्तेमाल करने वाला सिस्टम, अनुरोध का जवाब मॉडल (और ऐप्लिकेशन पर सुझाव लौटाना).

ऑफ़लाइन अनुमान से तुलना करें.

आउटपुट लेयर

#fundamentals

"फ़ाइनल" यह न्यूरल नेटवर्क की एक लेयर है. आउटपुट लेयर में अनुमान होता है.

नीचे दिए गए इलस्ट्रेशन में, इनपुट के साथ छोटा डीप न्यूरल नेटवर्क दिखाया गया है लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर:

ओवरफ़िटिंग

#fundamentals

कोई मॉडल बनाना, जो ट्रेनिंग डेटा को इतना बारीकी से इकट्ठा किया जाता है कि मॉडल नए डेटा पर सही अनुमान लगा सकता है.

रेगुलराइज़ेशन की मदद से, ज़रूरत से ज़्यादा फ़िट बैठना कम हो सकता है. बड़े और अलग-अलग तरह के ट्रेनिंग सेट पर ट्रेनिंग से भी ओवरफ़िटिंग को कम किया जा सकता है.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

ओवरफ़िटिंग का मतलब है, सख्ती से अपने पसंदीदा लोगों की सलाह का पालन करना शिक्षक. आप शायद उस शिक्षक की क्लास में सफल होंगे, लेकिन शायद "ज़्यादा फ़िट" हो हो सकता है कि शिक्षक आइडिया के बारे में न सोचे. क्लास. शिक्षकों की सलाह के हिसाब से, आपको ये काम करने में मदद मिलेगी नई स्थितियों के साथ बेहतर तरीके से कदम उठाता है.

P

पांडा

#fundamentals

numpy पर ऊपर बना कॉलम-ओरिएंटेड डेटा विश्लेषण एपीआई. कई मशीन लर्निंग फ़्रेमवर्क, इसमें TensorFlow भी शामिल है. यह इनपुट के तौर पर पांडा के डेटा स्ट्रक्चर का इस्तेमाल करता है. ज़्यादा जानकारी के लिए, पांडा के दस्तावेज़ देखें.

पैरामीटर

#fundamentals

ऐसे वज़न और बायस जिन्हें मॉडल, ट्रेनिंग. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल के पैरामीटर में, बायस (b) और सभी वेट (w₁, w₂, और इसी तरह से) के विकल्प नीचे दिए गए फ़ॉर्मैट में देखें:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

वहीं दूसरी ओर, हाइपर पैरामीटर वे वैल्यू होती हैं जिन्हें आप (या हाइपर पैरामीटर टर्निंग सर्विस) की सप्लाई मॉडल के लिए करें. उदाहरण के लिए, लर्निंग रेट हाइपर पैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

वह क्लास जिसकी जांच की जा रही है.

उदाहरण के लिए, कैंसर मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल की कैटगरी तय करने वाली सुविधा का पॉज़िटिव क्लास "स्पैम" हो सकता है.

नेगेटिव क्लास से उलट जानकारी दें.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

पॉज़िटिव क्लास शब्द भ्रम की स्थिति पैदा कर सकता है, क्योंकि "पॉज़िटिव" शब्द नतीजा कई टेस्ट में से कोई एक काम करना मुश्किल होता है. उदाहरण के लिए, कई मेडिकल टेस्ट कैंसर या बीमारियों से जुड़े होते हैं. आम तौर पर, आपको डॉक्टर आपसे कहें, "बधाई हो! आपकी जांच के नतीजे नेगेटिव थे." इसके बावजूद, पॉज़िटिव क्लास वह इवेंट होता है जिसे टेस्ट करने की कोशिश करता है.

माना जाता है कि पॉज़िटिव और नेगेटिव, दोनों तरह की वैल्यू को एक साथ टेस्ट किया जा रहा है क्लास.

पोस्ट-प्रोसेस

#fairness

#fundamentals

मॉडल चलने के बाद, मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए किया जा सकता है. मॉडल में बदलाव करती हैं.

उदाहरण के लिए, बाइनरी क्लासिफ़ायर पर पोस्ट-प्रोसेसिंग लागू की जा सकती है और तय की गई कैटगरी में रखने के लिए, अवसर की समानता बनी रहती है कुछ एट्रिब्यूट के लिए, सही पॉज़िटिव रेट की जांच करें इस एट्रिब्यूट की सभी वैल्यू एक जैसी होती हैं.

अनुमान

#fundamentals

किसी मॉडल का आउटपुट. उदाहरण के लिए:

बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान, या तो पॉज़िटिव होता है क्लास या नेगेटिव क्लास.
मल्टी-क्लास क्लासिफ़िकेशन मॉडल का अनुमान एक क्लास है.
लीनियर रिग्रेशन मॉडल का अनुमान एक संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

ऐसे लेबल का अनुमान लगाने के लिए इस्तेमाल किया जाने वाला डेटा जो डेटासेट में सीधे तौर पर उपलब्ध नहीं हैं.

उदाहरण के लिए, मान लें कि आपको एक मॉडल को कर्मचारी का अनुमान लगाने के लिए ट्रेनिंग देनी होगी तनाव का स्तर. आपके डेटासेट में अनुमान लगाने वाली कई सुविधाएं हैं, लेकिन उसमें तनाव का स्तर नाम का लेबल नहीं होता. चिंता न करें, आपने "दफ़्तर में होने वाली दुर्घटनाएं" चुनी हैं के लिए प्रॉक्सी लेबल के रूप में तनाव का स्तर. आख़िरकार, जो कर्मचारी बहुत ज़्यादा तनाव में होते हैं वे झटके लगने लगते हैं शांत कर्मचारियों की तुलना में दुर्घटनाएं. या वे ऐसा करते हैं? शायद ऑफ़िस में दुर्घटनाएं हुई हों बढ़ोतरी और गिरावट कई वजहों से हुई है.

दूसरे उदाहरण के तौर पर, मान लीजिए कि क्या बारिश हो रही है? को बूलियन लेबल बनाना है सकता है, लेकिन आपके डेटासेट में बारिश का डेटा नहीं है. अगर आपने तस्वीरें उपलब्ध हैं, तो आप लोगों की तस्वीरें लगा सकते हैं क्या बारिश हो रही है? के लिए प्रॉक्सी लेबल के रूप में छाते ले जाना क्या यह एक अच्छा प्रॉक्सी लेबल है? शायद, लेकिन कुछ संस्कृतियों में लोग बारिश के मुकाबले धूप से सुरक्षा के लिए छाते ले जाने की ज़्यादा संभावना होती है.

प्रॉक्सी लेबल अक्सर सटीक नहीं होते हैं. जब संभव हो, तब वास्तविक लेबल चुनें प्रॉक्सी लेबल. इसलिए, जब कोई असल लेबल मौजूद न हो, तो प्रॉक्सी चुनें लेबल बहुत सावधानी से लेबल किया होगा, सबसे कम भयानक प्रॉक्सी लेबल कैंडिडेट चुना जा सकता है.

R

RAG

#fundamentals

के लिए संक्षिप्त रूप वापस पाने की प्रोसेस में बढ़ोतरी.

रेटिंग देने वाला

#fundamentals

ऐसा व्यक्ति जो उदाहरणों के लिए लेबल देता है. "एनोटेटर" रेटिंग देने वाले का दूसरा नाम भी है.

रेक्टिफ़ाइड लीनियर यूनिट (ReLU)

#fundamentals

ये ऐक्टिवेशन फ़ंक्शन होते हैं:

अगर इनपुट नेगेटिव या शून्य है, तो आउटपुट शून्य होता है.
अगर इनपुट पॉज़िटिव है, तो आउटपुट, इनपुट के बराबर होता है.

उदाहरण के लिए:

अगर इनपुट -3 है, तो आउटपुट 0 होगा.
अगर इनपुट में +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का प्लॉट दिया गया है:

ReLU एक काफ़ी लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. अपने सरल व्यवहार के बावजूद, ReLU अब भी न्यूरल नेटवर्क को nonlinear सीखने में मदद करता है सुविधाओं और लेबल के बीच का संबंध.

रिग्रेशन मॉडल

#fundamentals

अनौपचारिक रूप से, यह एक मॉडल है जो संख्या के तौर पर अनुमान लगाता है. (इसके उलट, क्लासिफ़िकेशन मॉडल से क्लास जनरेट होती है prediction.) उदाहरण के लिए, नीचे दिए गए सभी रिग्रेशन मॉडल के उदाहरण हैं:

ऐसा मॉडल जो किसी खास घर की वैल्यू का अनुमान लगाता है, जैसे कि 4,23,000 यूरो.
ऐसा मॉडल जो किसी खास पेड़ के जीवन की अनुमानित अवधि का अनुमान लगाता है, जैसे कि 23.2 साल.
एक मॉडल, जो किसी शहर में होने वाली बारिश का अनुमान लगाता है तापमान बढ़ाया जा सकता है. जैसे, 0.18 इंच.

आम तौर पर, रिग्रेशन मॉडल दो तरह के होते हैं:

लीनियर रिग्रेशन: इसमें सबसे अच्छी लाइन का पता चलता है लेबल की वैल्यू को सुविधाओं के हिसाब से सेट करता है.
लॉजिस्टिक रिग्रेशन, जिससे 0.0 और 1.0 के बीच की संभावना, जिसे सिस्टम आम तौर पर किसी क्लास के लिए मैप करता है सुझाव.

अंकों वाला अनुमान दिखाने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, अंकों वाला अनुमान सिर्फ़ डेटा की कैटगरी तय करने का मॉडल होता है होता है, जिसमें संख्या वाले क्लास नाम होते हैं. उदाहरण के लिए, ऐसा मॉडल जो अनुमान लगाता है अंकों वाला पिन कोड, एक क्लासिफ़िकेशन मॉडल है, न कि रिग्रेशन मॉडल.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जो ओवरफ़िटिंग को कम करता हो. रेगुलराइज़ेशन के ये तरीके लोकप्रिय हैं:

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन
ड्रॉपआउट रेगुलराइज़ेशन
शुरुआती स्टॉप (यह औपचारिक नहीं है रेगुलराइज़ेशन का तरीका, लेकिन ओवरफ़िटिंग को असरदार तरीके से सीमित किया जा सकता है)

रेगुलराइज़ेशन को मॉडल की जटिलता की वजह से लगने वाला जुर्माना भी कहा जा सकता है.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन करना मुश्किल है. आम तौर पर, नियमित करने की अवधि बढ़ाना बढ़ोतरी ट्रेनिंग कम कर देती है, जिससे भ्रम की स्थिति पैदा होती है. हालांकि, यह ऐसी होती है का मकसद ट्रेनिंग में होने वाले नुकसान को कम से कम करना है?

नहीं. इसका मकसद ट्रेनिंग में होने वाले नुकसान को कम करना नहीं है. इसका मकसद है कि करने में मदद मिलती है. हालांकि, अहम बात यह है कि लगातार बढ़ने से ट्रेनिंग में कमी आती है. आम तौर पर, इससे मॉडल को और असल दुनिया के उदाहरणों पर बेहतर अनुमान लगा सकता है.

रेगुलराइज़ेशन रेट

#fundamentals

वह संख्या जो ट्रेनिंग के दौरान नियमित तौर पर नियमित करना. अपनी रेगुलराइज़ेशन रेट, ओवरफ़िटिंग को कम करता है. हालांकि, मॉडल की अनुमान लगाने वाली पावर को कम कर सकती है. इसके उलट, कम करना या मिटाना रेगुलराइज़ेशन रेट, ओवरफ़िटिंग से बढ़ जाता है.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन रेट को आम तौर पर ग्रीक लेटर लैम्डा के तौर पर दिखाया जाता है. नीचे दिए गए आसान लॉस समीकरण से पता चलता है कि लैम्डा का प्रभाव:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

जहां रेगुलराइज़ेशन, रेगुलराइज़ेशन करने का कोई तरीका है. इसमें ये शामिल हैं;

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन

ReLU

#fundamentals

रेक्टिफ़ाइड लीनियर यूनिट का छोटा नाम.

रिकवरी-एग्मेंटेड जनरेशन (आरएजी)

#fundamentals

इसकी गुणवत्ता में सुधार करने की तकनीक बड़े लैंग्वेज मॉडल (एलएलएम) आउटपुट मॉडल को ट्रेनिंग देने के बाद, इकट्ठा किए गए स्रोतों से मिली जानकारी को आधार बनाया. RAG एलएलएम के जवाबों को ज़्यादा सटीक बनाता है. इसके लिए, वह ट्रेन किए गए एलएलएम का इस्तेमाल करता है भरोसेमंद नॉलेज बेस या दस्तावेज़ों से मिली जानकारी का ऐक्सेस.

रिकवर करने में मदद करने वाली जनरेशन में आम तौर पर ये चीज़ें शामिल होती हैं:

किसी मॉडल के जनरेट किए गए जवाबों के तथ्यों को ज़्यादा सटीक बनाना.
मॉडल को उस जानकारी का ऐक्सेस देना जिसके लिए उसे ट्रेनिंग नहीं दी गई थी.
मॉडल में इस्तेमाल की जाने वाली जानकारी बदलना.
सोर्स को उद्धरण देने के लिए मॉडल को चालू करना.

उदाहरण के लिए, मान लीजिए कि कोई केमिस्ट्री ऐप्लिकेशन PaLM का इस्तेमाल करता है खास जानकारी जनरेट करने के लिए एपीआई उपयोगकर्ता क्वेरी से संबंधित होता है. ऐप्लिकेशन के बैकएंड से कोई क्वेरी मिलने पर, बैकएंड:

उपयोगकर्ता की क्वेरी के हिसाब से काम के डेटा को खोजता है ("वापस लाया जाता है").
उपयोगकर्ता की क्वेरी में काम के केमिकल के डेटा को जोड़ता है ("बढ़ाएं").
यह एलएलएम को, जोड़े गए डेटा के आधार पर जवाब बनाने का निर्देश देता है.

आरओसी (रिसीवर ऑपरेटिंग एट्रिब्यूट) कर्व

#fundamentals

ट्रू पॉज़िटिव रेट बनाम का ग्राफ़ अलग-अलग विज्ञापनों के लिए, फ़ॉल्स पॉज़िटिव रेट क्लासिफ़िकेशन थ्रेशोल्ड बाइनरी में वर्गीकरण.

आरओसी कर्व का आकार, बाइनरी क्लासिफ़िकेशन मॉडल की क्षमता का संकेत देता है पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने के लिए. उदाहरण के लिए, मान लीजिए कि कि एक बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव वैल्यू को पूरी तरह से अलग करता है सभी पॉज़िटिव क्लास से क्लास:

एक नंबर लाइन, जिसमें दाईं ओर 8 पॉज़िटिव उदाहरण दिए गए हैं और
बाईं ओर सात नेगेटिव उदाहरण.

पिछले मॉडल के लिए आरओसी कर्व इस तरह दिखता है:

आरओसी कर्व. x-ऐक्सिस, फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस होता है
सही पॉज़िटिव रेट होता है. इस कर्व का आकार उलटा है. द कर्व
(0.0,0.0) से शुरू होकर सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व
(0.0,1.0) से (1.0,1.0) तक जाता है.

इसके उलट, नीचे दिए गए इलस्ट्रेशन में रॉ लॉजिस्टिक रिग्रेशन को दिखाया गया है के लिए मान गलत हैं, जो नेगेटिव क्लास को पॉज़िटिव क्लास:

धनात्मक उदाहरणों और ऋणात्मक वर्गों वाली संख्या रेखा
पूरी तरह से आपस में जुड़े नहीं.

इस मॉडल के लिए आरओसी कर्व इस तरह दिखता है:

आरओसी कर्व, जो असल में (0.0,0.0) से एक सीधी लाइन है
से (1.0,1.0) तक.

असल दुनिया में, ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल अलग-अलग होते हैं कुछ हद तक पॉज़िटिव और नेगेटिव क्लास, लेकिन आम तौर पर बिलकुल पूरी तरह से नहीं. इसलिए, एक सामान्य ROC कर्व, इन दोनों चरम सीमाओं के बीच में होता है:

आरओसी कर्व. x-ऐक्सिस, फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस होता है
सही पॉज़िटिव रेट होता है. आरओसी कर्व किसी अस्थिर चाप का अनुमान लगाता है
पश्चिम से उत्तर की ओर कंपास पॉइंट पर दिशा में घूम रहा है.

(0.0,1.0) के निकटतम ROC वक्र पर मौजूद बिंदु सैद्धांतिक रूप से डेटा को कैटगरी में बांटने का सही थ्रेशोल्ड. हालांकि, असल दुनिया के कई अन्य मुद्दे सही कैटगरी तय करने के थ्रेशोल्ड को चुनने पर असर डालती हैं. उदाहरण के लिए, शायद फ़ॉल्स नेगेटिव की वजह से फ़ॉल्स पॉज़िटिव के मुकाबले कहीं ज़्यादा नुकसान पहुंचता है.

AUC नाम वाली मेट्रिक, ROC कर्व को का इस्तेमाल किया जा सकता है.

रूट मीन स्क्वेयर्ड एरर (RMSE)

#fundamentals

मीन स्क्वेयर्ड एरर का वर्गमूल.

S

सिगमॉइड फ़ंक्शन

#fundamentals

गणित का ऐसा फ़ंक्शन जो "स्क्विश" करता है किसी सीमित रेंज में इनपुट वैल्यू, आम तौर पर 0 से 1 या +1 के लिए -1 होता है. इसका मतलब है कि आप किसी भी संख्या (दो, दस लाख, नेगेटिव बिलियन, जो भी हो) को सिग्मॉइड में बदल देता है और आउटपुट अब भी सीमित रेंज. सिगमॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

सिगमॉइड फ़ंक्शन को मशीन लर्निंग में कई चीज़ों के लिए इस्तेमाल किया जाता है. इनमें ये शामिल हैं:

किसी लॉजिस्टिक रिग्रेशन या मल्टीनोमियल रिग्रेशन मॉडल को प्रॉबबिलिटी.
कुछ मामलों में, ऐक्टिवेशन फ़ंक्शन के तौर पर काम कर रहे हैं न्यूरल नेटवर्क होते हैं.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

इनपुट नंबर x पर सिग्मॉइड फ़ंक्शन का यह फ़ॉर्मूला होता है:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

मशीन लर्निंग में, आम तौर पर x वेटेड योग.

सॉफ़्टमैक्स

#fundamentals

यह फ़ंक्शन, किसी मल्टी-क्लास क्लासिफ़िकेशन मॉडल. संभावना का योग 1.0 तक. उदाहरण के लिए, नीचे दी गई टेबल से पता चलता है कि सॉफ़्टमैक्स कैसे डिस्ट्रिब्यूशन करता है विभिन्न संभाव्यताएं:

इमेज है...	प्रॉबेबिलिटी
कुत्ता	0.85
cat	0.13
घोड़ा	.02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवार के लिए सैंपलिंग से तुलना करें.

हिसाब देखने के लिए आइकॉन पर क्लिक करें.

सॉफ़्टमैक्स समीकरण इस प्रकार है:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

कहां:

$\sigma_i$, आउटपुट वेक्टर है. आउटपुट वेक्टर का हर एलिमेंट इस एलिमेंट की प्रॉबबिलिटी के बारे में बताता है. सभी तत्वों का योग आउटपुट वेक्टर में 1.0 है. आउटपुट वेक्टर में वही संख्या है तत्वों को इनपुट वेक्टर के रूप में शामिल करना चाहिए, $z$.
$z$ इनपुट वेक्टर है. इनपुट वेक्टर के हर एलिमेंट में शामिल है एक फ़्लोटिंग-पॉइंट वैल्यू.
$K$, इनपुट वेक्टर (और आउटपुट) में मौजूद एलिमेंट की संख्या होती है वेक्टर).

उदाहरण के लिए, मान लें कि इनपुट वेक्टर है:

[1.2, 2.5, 1.8]

इसलिए, सॉफ़्टमैक्स डिनॉमिनेटर की गणना इस तरह करता है:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

इसलिए, हर एलिमेंट की सॉफ़्टमैक्स संभावना यह है:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

इसलिए, आउटपुट वेक्टर इस तरह है:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ में तीन एलिमेंट का योग 1.0 है. वाह!

विरल सुविधा

#language

#fundamentals

ऐसी सुविधा जिसकी वैल्यू शून्य या खाली है. उदाहरण के लिए, अगर किसी सुविधा में एक वैल्यू और 0 मिलियन 0 वैल्यू हों कम इसके उलट, सघनता वाली सुविधा में ऐसे मान होते हैं जो मुख्य रूप से शून्य या खाली नहीं हैं.

मशीन लर्निंग में, बहुत सारी सुविधाएं कम काम की होती हैं. कैटगरी के हिसाब से मिलने वाली सुविधाएं, आम तौर पर कम जानकारी वाली होती हैं. उदाहरण के लिए, जंगल में मौजूद पेड़ों की 300 संभावित प्रजातियों में से, सिर्फ़ मैपल ट्री की पहचान कर सकती है. या लाखों में से वीडियो लाइब्रेरी में संभावित वीडियो की संख्या में से एक है. बस "कैसाब्लांका."

मॉडल में, आम तौर पर कम सुविधाएं वन-हॉट एन्कोडिंग का इस्तेमाल करें. अगर वन-हॉट एन्कोडिंग बड़ी है, आपके पास सबसे ऊपर एम्बेडिंग लेयर का इस्तेमाल करने का विकल्प होता है बेहतर परफ़ॉर्मेंस के लिए, वन-हॉट एन्कोडिंग.

स्पैर्स रिप्रज़ेंटेशन

#language

#fundamentals

स्पार्स सुविधा में, शून्य के अलावा अन्य एलिमेंट की सिर्फ़ पोज़िशन को स्टोर करना.

उदाहरण के लिए, मान लें कि species नाम की एक कैटगरी वाली सुविधा, Google Analytics 36 किसी जंगल में किस तरह के पेड़ हैं. इसके अलावा, मान लीजिए कि हर example सिर्फ़ एक प्रजाति की पहचान करता है.

हर उदाहरण में पेड़ की प्रजाति को दिखाने के लिए, वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. वन-हॉट वेक्टर में एक 1 होगा ( उस उदाहरण में पेड़ों की खास प्रजातियां) और 35 0 ( उस उदाहरण में पेड़ों की 35 प्रजातियां नहीं हैं). इसलिए, का maple कुछ ऐसा दिख सकता है:

ऐसा वेक्टर जिसमें 0 से 23 तक की पोज़िशन 0 होती है
24 में वैल्यू 1 होती है और 25 से 35 तक की वैल्यू 0 होती है.

इसके अलावा, विरल निरूपण से सिर्फ़ खास प्रजाति का इस्तेमाल किया जाता है. अगर maple, पोज़िशन 24 पर है, तो स्पैर्स रिप्रज़ेंटेशन का maple बस होगा:

ध्यान दें कि विरल निरूपण वन-हॉट की तुलना में अधिक संक्षिप्त है प्रतिनिधित्व.

थोड़ा और जटिल उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

मान लीजिए कि आपके मॉडल के प्रत्येक उदाहरण में शब्दों का प्रतिनिधित्व करना होगा—लेकिन उन शब्दों का क्रम—अंग्रेजी वाक्य में. अंग्रेज़ी में करीब 1,70,000 शब्द हैं. इसलिए, अंग्रेज़ी को एक खास कैटगरी है जिसमें करीब 1,70,000 एलिमेंट शामिल हैं. ज़्यादातर अंग्रेज़ी वाक्यों में इन 170,000 शब्दों का बहुत छोटा सा अंश है, इसलिए शब्दों का सेट में से एक उदाहरण काफ़ी हद तक कम जानकारी वाला डेटा होगा.

इस वाक्य पर गौर करें:

My dog is a great dog

इस वाक्य. इस वैरिएंट में, वेक्टर की एक से ज़्यादा सेल में ये शामिल हो सकते हैं शून्य के अलावा अन्य वैल्यू. इसके अलावा, इस वैरिएंट की सेल में एक पूर्णांक हो सकता है एक को छोड़कर. हालांकि, "मेरा", "है", "a", और "शानदार" शब्द इस्तेमाल किए गए हैं केवल दिखाई देते हैं एक वाक्य में "कुत्ता" शब्द दो बार दिखाई देता है. इसके इस वैरिएंट का इस्तेमाल करके इस वाक्य में शब्दों को दर्शाने के लिए वन-हॉट वेक्टर से ये नतीजे मिलते हैं 1,70,000 एलिमेंट वाला वेक्टर:

एक ही वाक्य को कम शब्दों में इस तरह पेश किया जाएगा:

यदि आप उलझन में हैं तो आइकन पर क्लिक करें.

"स्पार्स रिप्रज़ेंटेशन" शब्द कई लोगों को भ्रमित करता है, क्योंकि प्रतिनिधित्व अपने-आप कोई स्पैर्स वेक्टर नहीं है. इसके बजाय, विरल असल में, यह स्पैर्स वेक्टर का सघन निरूपण है. समानार्थी शब्द इंडेक्स निरूपण इससे ज़्यादा साफ़ होता है "बहुत कम लोगों को दिखाया गया."

स्पार्स वेक्टर

#fundamentals

ऐसा वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती है. स्पार्स भी देखें सुविधा और स्पैर्सिटी.

वर्ग लॉस

#fundamentals

L₂ नुकसान का पर्यायवाची.

स्टैटिक

#fundamentals

लगातार करने के बजाय एक बार किया गया. स्टैटिक और ऑफ़लाइन शब्दों के समानार्थी शब्द हैं. मशीन में स्टैटिक और ऑफ़लाइन इस्तेमाल के कुछ सामान्य तरीके नीचे दिए गए हैं सीखना:

स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) मॉडल को ट्रेनिंग देने के लिए, कुछ समय के लिए इस्तेमाल किया गया.
स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग) एक ऐसी ट्रेनिंग की प्रोसेस है जिसमें स्टैटिक मॉडल के रूप में किया जा सकता है.
स्टैटिक अनुमान (या ऑफ़लाइन अनुमान) प्रक्रिया है जिसमें मॉडल एक बार में अनुमानों का बैच जनरेट करता है.

डाइनैमिक से कंट्रास्ट करें.

स्टैटिक अनुमान

#fundamentals

ऑफ़लाइन अनुमान के लिए समानार्थी शब्द.

स्टेशनरिटी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में नहीं बदलती. ऐसा आम तौर पर, समय के साथ होता है. उदाहरण के लिए, कोई ऐसी सुविधा जिसकी वैल्यू 2021 में एक जैसी दिखती है और साल 2023 में स्टेशनरिटी का जलवा दिखाया गया है.

असल दुनिया में, बहुत कम सुविधाएं स्टेशनरिटी दिखाती हैं. समान सुविधाएं स्थायित्व (जैसे समुद्र का स्तर) में समय के साथ बदलाव होता है.

नॉनस्टेशनरिटी से कंट्रास्ट करें.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

एक ग्रेडिएंट डिसेंट एल्गोरिदम, जिसमें बैच साइज़ एक है. दूसरे शब्दों में, SGD ट्रेनिंग समान रूप से ट्रेनिंग सेट से मिली रैंडम वैल्यू.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

किसी मॉडल को सुविधाओं की मदद से ट्रेनिंग देना और उनके संबंधित लेबल. सुपरवाइज़्ड मशीन लर्निंग सवालों के सेट का अध्ययन करके किसी विषय को सीखना और उनके संबंधित उत्तर. सवालों और उनके बीच के अंतर को समझने के बाद, हैं, तो छात्र-छात्राएं नए सवालों के जवाब (पहले कभी नहीं देखे गए) दे सकते हैं एक ही विषय से जुड़े सवाल पूछे जा सकते हैं.

तुलना करें अनसुपरवाइज़्ड मशीन लर्निंग.

एआई की मदद से जनरेट की गई सुविधा

#fundamentals

ऐसी सुविधा जो इनपुट सुविधाओं में मौजूद नहीं है, लेकिन वे एक या एक से ज़्यादा एलिमेंट का इस्तेमाल करते हैं. एआई की मदद से जनरेट किए गए फ़ीचर बनाने के तरीके निम्नलिखित शामिल करें:

रेंज बिन में लगातार चलने वाली सुविधा बकेट करना.
सुविधा क्रॉस बनाना.
एक सुविधा की वैल्यू को अन्य सुविधा की वैल्यू से गुणा करना या भाग देना या अकेले न लड़ें. उदाहरण के लिए, अगर a और b इनपुट सुविधाएं हैं, तो एआई से जनरेट की गई सुविधाओं के उदाहरण यहां दिए गए हैं:
- ऐबी
- ए²
किसी सुविधा की वैल्यू में ट्रांसेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c कोई इनपुट सुविधा है, तो सिंथेटिक सुविधाओं के उदाहरण नीचे दिए गए हैं:
- साइन(सी)
- ln(c)

नॉर्मलाइज़ या स्केलिंग करके बनाई गई सुविधाएं सिर्फ़ एआई की मदद से काम करने वाले फ़ीचर नहीं माने जाते.

T

टेस्ट में नुकसान

#fundamentals

यह मेट्रिक है, जो किसी मॉडल की नुकसान के बारे में बताती है टेस्ट का सेट. कोई मॉडल बनाते समय, आपको आम तौर पर, टेस्ट में होने वाले नुकसान को कम करने की कोशिश करें. इसकी वजह यह है कि टेस्ट में होने वाली कमी ट्रेनिंग में कमी होने की तुलना में, बेहतर क्वालिटी वाला सिग्नल या पुष्टि न हो पाने की समस्या कम है.

टेस्ट या ट्रेनिंग खोने के बीच ज़्यादा अंतर या कभी-कभी पुष्टि न होना का सुझाव देती है कि आपको रेगुलराइज़ेशन रेट.

ट्रेनिंग

#fundamentals

सबसे सही पैरामीटर तय करने की प्रोसेस (वेट और पक्षपात) से बनाया गया है, जिसमें एक मॉडल शामिल है. ट्रेनिंग के दौरान, सिस्टम उदाहरण देखें और पैरामीटर को धीरे-धीरे अडजस्ट करें. ट्रेनिंग में हर एक का इस्तेमाल होता है उदाहरण के लिए, कुछ समय से लेकर करोड़ों बार.

ट्रेनिंग नहीं मिली

#fundamentals

एक मेट्रिक जो मॉडल के लॉस को दिखाती हुई खास तरह की ट्रेनिंग के लिए डिज़ाइन किया गया है. उदाहरण के लिए, मान लें कि हानि फलन मीन स्क्वेयर्ड एरर होता है. शायद ट्रेनिंग में कमी (मीन 10वीं इटरेशन के लिए स्क्वेयर्ड एरर) 2.2 है और 100वां दोहराव 1.9 है.

लॉस कर्व में ट्रेनिंग में हुए नुकसान की तुलना, बार-बार किया जा सकता है. लॉस कर्व से ट्रेनिंग के बारे में ये संकेत मिलते हैं:

नीचे की ओर वाले स्लोप का मतलब है कि मॉडल में सुधार हो रहा है.
ऊपर की ओर वाले स्लोप का मतलब है कि मॉडल बदतर हो रहा है.
सपाट ढलान का मतलब है कि मॉडल, कन्वर्जेंस.

उदाहरण के लिए, नीचे दी गई टेबल में लॉस कर्व की परफ़ॉर्मेंस का अनुमान लगाया गया है. दिखाता है:

शुरुआती दौर में इसका काफ़ी नीचे की ओर वाला ढलान, मॉडल में तेज़ी से सुधार हुआ.
ढलान का एक धीरे-धीरे फ़्लैट (लेकिन नीचे की ओर) होता होना, जब तक कि वह अंत के करीब न आ जाए है, जिसमें कुछ हद तक मॉडल में सुधार होता रहता है. यह शुरुआती दोहराव के दौरान धीमी रफ़्तार पर काम करता है.
ट्रेनिंग के खत्म होने की तरफ़ का सपाट ढलान, जिससे दर्शकों को एक ही जगह के खिलाड़ी में शामिल होने का सुझाव मिलता है.

ट्रेनिंग में नुकसान बनाम उसे बार-बार करने का प्लॉट. इस लॉस कर्व से शुरू होता है
ज़्यादा ढलान वाला है. ढलान धीरे-धीरे तब तक फ़्लैट होती जाती है, जब तक
स्लोप शून्य हो जाता है.

वैसे तो ट्रेनिंग छोड़ना ज़रूरी है, लेकिन यह भी देखें सामान्य जानकारी.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

के दौरान किसी मॉडल के प्रदर्शन में अंतर ट्रेनिंग और उसी मॉडल की परफ़ॉर्मेंस सर्विंग.

ट्रेनिंग सेट

#fundamentals

किसी मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किए गए डेटासेट का सबसेट.

आम तौर पर, डेटासेट में दिए गए उदाहरणों को इन तीन हिस्सों में बांटा गया है अलग-अलग सबसेट:

ट्रेनिंग सेट
पुष्टि करने का सेट
टेस्ट सेट

आम तौर पर, डेटासेट में दिया गया हर उदाहरण, आगे के सबसेट. उदाहरण के लिए, कोई एक उदाहरण दोनों ट्रेनिंग सेट और पुष्टि करने वाले सेट, दोनों का इस्तेमाल किया जा सकता है.

वास्तविक नकारात्मक (TN)

#fundamentals

एक उदाहरण जिसमें मॉडल सही तरीके से अनुमान लगाता है नेगेटिव क्लास. उदाहरण के लिए, मॉडल से यह पता चलता है कि कोई ईमेल स्पैम नहीं है और वह ईमेल मैसेज वाकई स्पैम नहीं है.

ट्रू पॉज़िटिव (टीपी)

#fundamentals

एक उदाहरण जिसमें मॉडल सही तरीके से अनुमान लगाता है पॉज़िटिव क्लास. उदाहरण के लिए, मॉडल से यह पता चलता है कि कोई विशेष ईमेल संदेश स्पैम होता है और वह ईमेल संदेश वाकई स्पैम होता है.

ट्रू पॉज़िटिव रेट (टीपीआर)

#fundamentals

recall का समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

ट्रू पॉज़िटिव रेट, आरओसी कर्व में y-ऐक्सिस होता है.

U

अंडरफ़िटिंग

#fundamentals

ऐसा मॉडल बनाना जिसमें अनुमान लगाने की क्षमता कमज़ोर हो, क्योंकि ने ट्रेनिंग के डेटा की जटिलता को पूरी तरह से कैप्चर नहीं किया है. कई समस्याएं अंडरफ़िटिंग की वजह से, इनमें से एक समस्या हो सकती है:

गलत सुविधाओं के सेट के लिए ट्रेनिंग देना.
बहुत कम या बहुत कम epoch के लिए ट्रेनिंग लर्निंग रेट.
बहुत ज़्यादा रेगुलराइज़ेशन रेट वाला ट्रेनिंग.
ब्राउज़र में बहुत कम छिपी हुई लेयर उपलब्ध कराना डीप न्यूरल नेटवर्क है.

बिना लेबल वाले मैसेज का उदाहरण

#fundamentals

उदाहरण के लिए, जिसमें सुविधाएं हों, लेकिन लेबल न हो. उदाहरण के लिए, नीचे दी गई टेबल में किसी घर के बिना लेबल वाले तीन उदाहरण दिखाए गए हैं मूल्यांकन मॉडल, हर एक में तीन सुविधाएं हैं, लेकिन कोई हाउस वैल्यू नहीं है:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र
3	2	15
2	1	72
4	2	34

सेमी की निगरानी में और बिना निगरानी वाली लर्निंग, बिना लेबल वाले उदाहरणों का इस्तेमाल ट्रेनिंग के दौरान किया जाता है.

बिना लेबल वाले उदाहरण को लेबल किए गए उदाहरण से अलग करें.

अनसुपरवाइज़्ड मशीन लर्निंग

#clustering

#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेनिंग देना. आम तौर पर, लेबल नहीं किया गया डेटासेट.

बिना निगरानी वाली मशीन लर्निंग का सबसे आम इस्तेमाल यह है कि क्लस्टर डेटा एक जैसे उदाहरणों वाले ग्रुप में. उदाहरण के लिए, बिना निगरानी वाली मशीन सीखने वाला एल्गोरिदम अलग-अलग प्रॉपर्टी के हिसाब से गानों का ग्रुप बना सकता है सबसे अच्छा है. नतीजे पाने वाले क्लस्टर किसी दूसरी मशीन का इनपुट बन सकते हैं सीखने के एल्गोरिदम (उदाहरण के लिए, संगीत का सुझाव देने वाली सेवा). उपयोगी लेबल कम या मौजूद न होने पर, क्लस्टरिंग से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी जैसे मामलों में क्लस्टर की मदद से, इसकी मदद से लोग डेटा को बेहतर ढंग से समझ पाते हैं.

निगरानी वाली मशीन लर्निंग से अलग हैं.

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

बिना निगरानी वाली मशीन लर्निंग का एक और उदाहरण है प्रिंसिपल कॉम्पोनेंट ऐनलिसिस (पीसीए). उदाहरण के लिए, पीसीए लागू करने के बाद डेटासेट में लाखों शॉपिंग कार्ट की सामग्री शामिल है, इसलिए यह कि नींबू वाले शॉपिंग कार्ट में भी एंटासिड होता है.

V

पुष्टि करना

#fundamentals

किसी मॉडल की क्वालिटी का शुरुआती आकलन. सत्यापन पुष्टि करने का तरीका सेट किया गया है.

पुष्टि करने वाला सेट, ट्रेनिंग सेट से अलग होता है, इसलिए पुष्टि करने की सुविधा से, ओवरफ़िटिंग (ओवरफ़िटिंग) से बचने में मदद मिलती है.

पुष्टि करने के लिए, इस मॉडल का इस्तेमाल इस तरह से किया जा सकता है: टेस्ट और मॉडल के आधार पर, टेस्ट सेट को टेस्टिंग के दूसरे राउंड के तौर पर सेट किया गया है.

पुष्टि नहीं हो पाने की समस्या

#fundamentals

इस पर मॉडल के लॉस को दिखाने वाली मेट्रिक पुष्टि करने के लिए सेट ट्रेनिंग को दोहराने.

सामान्य तरीके से बताने वाला कर्व भी देखें.

पुष्टि करने का सेट

#fundamentals

शुरुआती परफ़ॉर्मेंस देने वाले डेटासेट का सबसेट एक प्रशिक्षित मॉडल के आधार पर मूल्यांकन. आम तौर पर, पुष्टि करने के सेट के मुताबिक, ट्रेन किया गया मॉडल टेस्ट सेट के हिसाब से मॉडल का आकलन करने से पहले.

पारंपरिक तौर पर, डेटासेट में उदाहरणों को इन तीन कैटगरी में बांटा जाता है अलग-अलग सबसेट:

ट्रेनिंग सेट
पुष्टि करने का सेट
टेस्ट सेट

W

वज़न का डेटा

#fundamentals

वह वैल्यू जिसे मॉडल, किसी दूसरी वैल्यू से गुणा करता है. ट्रेनिंग, किसी मॉडल का सही वज़न तय करने की प्रोसेस है; अनुमान वह प्रक्रिया है जिसमें सीखे गए वज़न का इस्तेमाल करके, लगाने में मदद करता है.

लीनियर मॉडल में वज़न का उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

एक ऐसा लीनियर मॉडल मान लें जिसमें दो सुविधाएं हों. मान लें कि ट्रेनिंग, नीचे दिए गए वज़न तय करती है (और पक्षपात):

बायस (बायस) b की वैल्यू 2.2 है
एक सुविधा के साथ जुड़ा ₁ वज़न, 1.5 है.
अन्य फ़ीचर का वज़न ₂ है, जो कि 0.4 है.

अब नीचे दी गई सुविधा वाले एक उदाहरण की कल्पना करें मान:

एक सुविधा x₁ की वैल्यू 6 है.
अन्य सुविधा, x₂ की वैल्यू 10 है.

यह लीनियर मॉडल, अनुमान जनरेट करने के लिए नीचे दिए गए फ़ॉर्मूला का इस्तेमाल करता है, y':

$$y' = b + w_1x_1 + w_2x_2$$

इसलिए, अनुमान है:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

अगर कोई वज़न 0 है, तो इससे जुड़ी सुविधा मॉडल. उदाहरण के लिए, अगर w₁ 0 है, तो x₁ की वैल्यू का काम का नहीं है.

भारित योग

#fundamentals

सभी ज़रूरी इनपुट वैल्यू का योग, उनसे जुड़ी वैल्यू से गुणा किया जाता है वज़न. उदाहरण के लिए, मान लें कि काम के इनपुट में ये शामिल हैं:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, भारित योग यह होता है:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

भारित योग, किसी ऐक्टिवेशन फ़ंक्शन.

Z

ज़ेड-स्कोर नॉर्मलाइज़ेशन

#fundamentals

स्केलिंग तकनीक, जो रॉ कॉन्टेंट की जगह ले लेती है feature की वैल्यू, जो फ़्लोटिंग-पॉइंट वैल्यू दिखाती है मीन से मानक विचलन की संख्या. उदाहरण के लिए, ऐसी विशेषता पर विचार करें जिसका माध्य 800 है और जिसका मानक विचलन 100 है. इस टेबल में बताया गया है कि Z-स्कोर नॉर्मलाइज़ेशन कैसे तय किया जाता है रॉ वैल्यू को इसके Z-स्कोर पर मैप करेगा:

असल वैल्यू	ज़ेड-स्कोर
800	0
950	1.5 से ज़्यादा
575	से 2.25

इसके बाद, मशीन लर्निंग मॉडल Z-स्कोर के आधार पर ट्रेनिंग देता है के बजाय रॉ वैल्यू का इस्तेमाल करना चाहिए.

मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

A

सटीक

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

ऐक्टिवेशन फ़ंक्शन

उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

आर्टिफ़िशियल इंटेलिजेंस

AUC (आरओसी कर्व के नीचे का क्षेत्र)

AUC और ROC कर्व के बीच संबंध के बारे में जानने के लिए आइकॉन पर क्लिक करें.

AUC की ज़्यादा औपचारिक परिभाषा के लिए आइकॉन पर क्लिक करें.

B

बैकप्रोपगेशन

बैच

बैच का आकार

पक्षपात (नैतिक/निष्पक्षता)

बायस (गणित) या बायस टर्म

बाइनरी क्लासिफ़िकेशन

बकेटिंग

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

C

कैटगरी से जुड़ा डेटा

क्लास

क्लासिफ़िकेशन मॉडल

श्रेणी में बाँटने की सीमा

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

वर्ग-असंतुलित डेटासेट

क्लिपिंग

भ्रम की स्थिति का मैट्रिक्स

लगातार चलने वाली सुविधा

कन्वर्जेंस

D

DataFrame

डेटा सेट या डेटासेट

डीप मॉडल

सघनता

गहराई

डिस्क्रीट सुविधा

डाइनैमिक

डाइनैमिक मॉडल

E

तय समय से पहले रुकना

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

एम्बेडिंग लेयर

epoch

उदाहरण

F

फ़ॉल्स नेगेटिव (एफ़एन)

फ़ॉल्स पॉज़िटिव (एफ़पी)

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

सुविधा

फ़ीचर क्रॉस

फ़ीचर इंजीनियरिंग

TensorFlow के बारे में ज़्यादा नोट देखने के लिए इस आइकॉन पर क्लिक करें.

सुविधाओं का सेट

फ़ीचर वेक्टर

फ़ीडबैक लूप

G

सामान्यीकरण

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

सामान्यीकरण कर्व

ग्रेडिएंट डिसेंट

ज़मीनी हकीकत

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

H

छिपी हुई लेयर

हाइपर पैरामीटर

I

अलग-अलग और एक समान रूप से डिस्ट्रिब्यूट किए गए (i.i.d)

अनुमान

इनपुट लेयर

इंटरप्रेटेडेबिलिटी

फिर से करें

L

L0 रेगुलराइज़ेशन

अतिरिक्त नोट के लिए आइकॉन पर क्लिक करें.

L1 की कमी

औपचारिक गणित देखने के लिए आइकन पर क्लिक करें.

L1 रेगुलराइज़ेशन

L2 की कमी

औपचारिक गणित देखने के लिए आइकन पर क्लिक करें.

L₀ रेगुलराइज़ेशन

L₁ की कमी

L₁ रेगुलराइज़ेशन

L₂ की कमी

L₂ रेगुलराइज़ेशन