इस पेज पर डिसिज़न फ़ॉरेस्ट शब्दावली शब्द हैं. शब्दावली शब्दों के लिए, यहां क्लिक करें.
A
एट्रिब्यूट सैंपलिंग
फ़ैसले लेने के लिए उपलब्ध जंगल को ट्रेनिंग देने की रणनीति, जिसमें हर डिसिज़न ट्री में, संभावित नतीजों के सिर्फ़ एक सबसेट का इस्तेमाल किया जाता है स्थिति देखते समय, सुविधाएं का इस्तेमाल करें. आम तौर पर, हर एक सुविधा के लिए अलग-अलग सुविधाओं के सबसेट का सैंपल लिया जाता है नोड. इसके उलट, डिसिज़न ट्री को ट्रेनिंग देते समय एट्रिब्यूट सैंपलिंग के बिना, हर नोड के लिए सभी संभावित सुविधाओं पर विचार किया जाता है.
ऐक्सिस से अलाइन की गई स्थिति
डिसिज़न ट्री में, एक स्थिति जिसमें सिर्फ़ एक सुविधा शामिल हो. उदाहरण के लिए, अगर क्षेत्रफल एक सुविधा है, तो नीचे दी गई शर्त ऐक्सिस से अलाइन की गई होगी:
area > 200
तिरछी स्थिति से कंट्रास्ट करें.
B
बैगिंग
किसी असेंबली को ट्रेन करने का तरीका, जहां हर मॉडल की मदद से ट्रेनिंग के किसी रैंडम सबसेट को ट्रेनिंग दी जाती है उदाहरण रीप्लेसमेंट की मदद से सैंपल किए गए. उदाहरण के लिए, रैंडम फ़ॉरेस्ट डिसिज़न ट्री को बैग बनाने की ट्रेनिंग दी गई.
बैगिंग शब्द बूटस्ट्रैप aggregateing के लिए छोटा है.
बाइनरी कंडीशन
डिसिज़न ट्री में, एक स्थिति इसके दो संभावित नतीजे होंगे, आम तौर पर हां या नहीं. उदाहरण के लिए, नीचे दी गई बाइनरी शर्त है:
temperature >= 100
नॉन-बाइनरी कंडिशन से कंट्रास्ट करें.
C
स्थिति
डिसिज़न ट्री में, ऐसा कोई भी नोड जो किसी एक्सप्रेशन का आकलन करता है. उदाहरण के लिए, डिसिज़न ट्री में दो शर्तें होती हैं:
स्थिति को स्प्लिट या टेस्ट भी कहा जाता है.
पत्ती के साथ कंट्रास्ट की स्थिति.
यह भी देखें:
D
डिसिज़न फ़ॉरेस्ट
कई डिसिज़न ट्री से बनाया गया मॉडल. डिसिज़न फ़ॉरेस्ट एक अनुमान लगाता है, जो डिसिज़न ट्री. डिसिज़न फ़ॉरेस्ट में ये लोकप्रिय चीज़ें शामिल हैं रैंडम फ़ॉरेस्ट और ग्रेडिएंट बूस्ट किए गए पेड़.
डिसिज़न ट्री
निगरानी में रखा गया लर्निंग मॉडल, जिसमें स्थिति और ली जाने की जानकारी हैरारकी के हिसाब से व्यवस्थित की जाती है. उदाहरण के लिए, यह डिसिज़न ट्री है:
E
एन्ट्रॉपी
तय सीमा में इन्फ़ॉर्मेशन थ्योरी के तहत, संभाव्यता का अनुमान लगाना डिस्ट्रिब्यूशन है. इसके अलावा, एंट्रॉपी से यह भी पता चलता है कि हर उदाहरण में मौजूद जानकारी. डिस्ट्रिब्यूशन में ये शामिल हैं उच्चतम संभावित एंट्रॉपी जब किसी यादृच्छिक चर के सभी मान होते हैं समान रूप से संभावना होती है.
दो संभावित वैल्यू "0" वाले किसी सेट की एन्ट्रॉपी और "1" (उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन से जुड़े लेबल में) इसका फ़ॉर्मूला यह है:
H = -p लॉग p - q लॉग q = -p लॉग p - (1-p) * लॉग (1-p)
कहां:
- H एंट्रॉपी है.
- p, "1" का अंश है उदाहरण.
- q, "0" का अंश है उदाहरण. ध्यान दें कि q = (1 - p)
- आम तौर पर, log फ़ंक्शन लॉग2 होता है. इस मामले में, एंट्रॉपी यूनिट थोड़ी-बहुत है.
उदाहरण के लिए, मान लें कि:
- 100 उदाहरणों में "1" वैल्यू शामिल है
- 300 उदाहरणों में "0" वैल्यू है
इसलिए, एंट्रॉपी की वैल्यू यह है:
- p = 0.25
- q = 0.75
- H = (-0.25)लॉग2(0.25) - (0.75)लॉग2(0.75) = हर उदाहरण के लिए 0.81 बिट
ऐसा सेट जो पूरी तरह से संतुलित हो (उदाहरण के लिए, 200 "0" और 200 "1"s) हर उदाहरण के लिए 1.0 बिट की एंट्रॉपी होगी. जैसे-जैसे सेट ज़्यादा होता है असंतुलित, इसकी एंट्रॉपी 0.0 की ओर बढ़ जाती है.
डिसिज़न ट्री में, एंट्रॉपी फ़ॉर्मूला बनाने में मदद करता है जानकारी हासिल करने के लिए स्प्लिटर शर्तें चुनें डिसिज़न ट्री की बढ़ोतरी के चरण में.
एंट्रॉपी की तुलना इनसे करें:
- गिनी इंपरिटी
- क्रॉस-एंट्रॉपी लॉस फ़ंक्शन
एंट्रॉपी को अक्सर शैनन की एंट्रॉपी कहा जाता है.
F
किसी सुविधा की अहमियत
वैरिएबल की अहमियत के लिए समानार्थी शब्द.
G
जिनी इंप्यूरिटी
एंट्रॉपी से मिलती-जुलती मेट्रिक. स्प्लिटर लिखने के लिए जिनी इंप्युरिटी या एन्ट्रॉपी से मिले मान का इस्तेमाल करना कैटगरी तय करने के लिए शर्तें डिसिज़न ट्री. जानकारी पाने का तरीका एंट्रॉपी से लिया जाता है. हासिल की गई मेट्रिक के लिए ऐसा कोई शब्द नहीं है जिसे सभी जगह स्वीकार किया जाता हो जीनी इंपरिटी से; हालांकि, यह बिना नाम वाली मेट्रिक उतनी ही अहम है जितनी ज़रूरी है फ़ायदा मिलता है.
जिनी इंपरिटी को गिनी इंडेक्स या साधारण भाषा में गिनी भी कहा जाता है.
ग्रेडिएंट बूस्टेड (डिसिज़न) ट्री (GBT)
एक तरह का फ़ैसले फ़ॉरेस्ट, जिसमें:
- ट्रेनिंग, सिर्फ़ इन चीज़ों पर निर्भर करती है ग्रेडिएंट बूस्टिंग.
- कमज़ोर मॉडल, डिसिज़न ट्री है.
ग्रेडिएंट बूस्टिंग
ट्रेनिंग का एक एल्गोरिदम, जिसमें कमज़ोर मॉडल को बार-बार ट्रेनिंग दी जाती है बेहतर मॉडल की क्वालिटी को बेहतर बनाया जा सकता है (नुकसान को कम किया जा सकता है). उदाहरण के लिए, कमज़ोर मॉडल, लीनियर या छोटा डिसीज़न ट्री मॉडल हो सकता है. मज़बूत मॉडल, पहले ट्रेन किए गए सभी कमज़ोर मॉडल का योग बन जाता है.
ग्रेडिएंट बूस्टिंग के सबसे आसान रूप में, हर बार इटरेशन के दौरान एक कमज़ोर मॉडल को मज़बूत मॉडल के लॉस ग्रेडिएंट का अनुमान लगाने के लिए ट्रेनिंग दी गई है. इसके बाद, मज़बूत मॉडल का आउटपुट, अनुमानित ग्रेडिएंट को घटाकर अपडेट किया जाता है. ग्रेडिएंट डिसेंट जैसा ही होता है.
कहां:
- $F_{0}$ शुरुआती मज़बूत मॉडल है.
- $F_{i+1}$ दूसरा मज़बूत मॉडल है.
- $F_{i}$ फ़िलहाल एक मज़बूत मॉडल है.
- $\xi$ 0.0 और 1.0 के बीच की कोई वैल्यू होती है, जिसे shrinkage कहा जाता है, जो लर्निंग रेट में ग्रेडिएंट ढलान.
- $f_{i}$ एक कमज़ोर मॉडल है, जिसे इसके लॉस ग्रेडिएंट का अनुमान लगाने के लिए ट्रेन किया गया है $F_{i}$.
ग्रेडिएंट बूस्टिंग के नए वैरिएशन में सेकंड डेरिवेटिव भी शामिल है (हेसियन).
डिसिज़न ट्री का इस्तेमाल आम तौर पर, कमजोर मॉडल के तौर पर किया जाता है ग्रेडिएंट बूस्टिंग. यहां जाएं: ग्रेडिएंट बूस्टेड (डिसिज़न) ट्री.
I
अनुमान का पाथ
डिसिज़न ट्री में, अनुमान के दौरान, विशेष उदाहरण द्वारा लिया गया रास्ता अन्य शर्तों को रूट से खत्म करें एक लीफ़. उदाहरण के लिए, नीचे दिए डिसिज़न ट्री में, मोटे ऐरो अनुमान का पाथ दिखाते हैं. उदाहरण के लिए, यहां देखें सुविधा के मान:
- x = 7
- y = 12
- z = -3
नीचे दिए गए उदाहरण में अनुमान का पाथ तीन से होकर गुज़रता है
लीफ़ (Zeta
) तक पहुंचने से पहले की शर्तें.
तीन मोटे ऐरो अनुमान का पाथ दिखाते हैं.
Google News Initiative
फ़ैसले फ़ॉरेस्ट में, नोड की एंट्रॉपी और वेटेड (उदाहरणों की संख्या के हिसाब से) इसके चाइल्ड नोड की एंट्रॉपी का योग. नोड की एन्ट्रॉपी, एन्ट्रॉपी होती है शामिल नहीं होंगी.
उदाहरण के लिए, इन एंट्रॉपी वैल्यू पर विचार करें:
- पैरंट नोड की एन्ट्रॉपी = 0.6
- 16 काम के उदाहरणों वाले एक चाइल्ड नोड की एन्ट्रॉपी = 0.2
- 24 काम के उदाहरणों = 0.1 वाले किसी अन्य चाइल्ड नोड की एंट्रॉपी
इसलिए, 40% उदाहरण एक चाइल्ड नोड में और 60% अन्य चाइल्ड नोड पर लागू होते हैं. इसलिए:
- चाइल्ड नोड का वेटेड एंट्रॉपी योग = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
इस तरह, मुझे यह जानकारी मिलती है:
- जानकारी गेन = पैरंट नोड की एंट्रॉपी - चाइल्ड नोड के वेटेड एंट्रॉपी का योग
- हासिल की गई जानकारी = 0.6 - 0.14 = 0.46
ज़्यादातर स्प्लिटर शर्तें बनाना चाहते हैं ज़्यादा से ज़्यादा फ़ायदा मिल सके.
इन-सेट स्थिति
डिसिज़न ट्री में, एक स्थिति जो आइटम के सेट में एक आइटम की मौजूदगी की जांच करता है. उदाहरण के लिए, यहां दी गई शर्त इन-सेट में है:
house-style in [tudor, colonial, cape]
अनुमान के दौरान, अगर घर के स्टाइल वाली सुविधा की वैल्यू
tudor
या colonial
या cape
है, तो इस शर्त की वैल्यू 'हां' होगी. अगर आपने
हाउस-स्टाइल सुविधा की वैल्यू कुछ और है (उदाहरण के लिए, ranch
),
तो इस शर्त की वैल्यू 'नहीं' होती है.
इन-सेट स्थितियों की वजह से, आम तौर पर फ़ैसले ट्री की तुलना में ज़्यादा बेहतर डिसिज़न ट्री मिलता है इन स्थितियों में, वन-हॉट कोड में बदली गई सुविधाओं की जांच की जाती है.
L
पत्ती
डिसिज़न ट्री में मौजूद कोई भी एंडपॉइंट. इसे नापसंद करें स्थिति, यानी कि लीफ़ टेस्ट नहीं करती. इसके बजाय, लीफ़ देने का अनुमान लगाया जा सकता है. पत्ती भी टर्मिनल होती है अनुमान पाथ का नोड.
उदाहरण के लिए, नीचे दिए गए डिसिज़न ट्री में तीन पत्तियां हैं:
नहीं
नोड (डिसिज़न ट्री)
डिसिज़न ट्री में, कोई भी स्थिति या लीफ़.
नॉन-बाइनरी शर्त
एक ऐसी स्थिति जिसमें दो से ज़्यादा संभावित नतीजे हो सकते हैं. उदाहरण के लिए, नीचे दी गई नॉन-बाइनरी शर्त में, तीन संभावितों नतीजे:
O
तिरछी स्थिति
डिसिज़न ट्री में, ऐसी स्थिति जिसमें एक से ज़्यादा चीज़ें शामिल हों सुविधा का इस्तेमाल करें. उदाहरण के लिए, अगर ऊंचाई और चौड़ाई दोनों सुविधाएं हैं, तो नीचे दी गई स्थिति तिरछी है:
height > width
ऐक्सिस की अलाइन स्थिति के बीच कंट्रास्ट.
आउट-ऑफ़-बैग इवैलुएशन (ओओबी इवैलुएशन)
ऐसे टूल की क्वालिटी का आकलन करने का तरीका फ़ैसले लेने के लिए उपलब्ध फ़ॉरेस्ट डिसिज़न ट्री का इस्तेमाल उदाहरण नहीं का उपयोग ट्रेनिंग. उदाहरण के लिए, नीचे दिए गए डायग्राम में, ध्यान दें कि सिस्टम हर डिसिज़न ट्री को ट्रेनिंग देता है करीब दो-तिहाई उदाहरणों पर आधारित होता है. इसके बाद, बाकी बचे एक-तिहाई उदाहरण.
आउट-ऑफ़-बैग इवैलुएशन, कंप्यूटेशनल तौर पर कुशल और कंज़र्वेटिव है क्रॉस-वैलिडेशन के तरीके का अनुमान. क्रॉस-वैलिडेशन के दौरान, क्रॉस-वैलिडेशन वाले हर राउंड के लिए एक मॉडल को ट्रेनिंग दी जाती है (उदाहरण के लिए, 10 मॉडल को 10-फ़ोल्ड क्रॉस-वैलिडेशन की ट्रेनिंग दी गई है). OOB के आकलन से एक मॉडल को ट्रेन किया जाता है. क्योंकि बैगिंग ट्रेनिंग के दौरान हर ट्री के कुछ डेटा को रोकता है, तो OOB इवैलुएशन का इस्तेमाल क्रॉस-वैलिडेशन के लिए उस डेटा का इस्तेमाल करें.
P
परम्यूटेशन वैरिएबल का महत्व
एक टाइप वैरिएबल की अहमियत, जो आकलन करता है को अनुमति देने के बाद, मॉडल की अनुमान गड़बड़ी में बढ़ोतरी सुविधा के मान. क्रमचय वैरिएबल का महत्व, मॉडल-इंडिपेंडेंट है मेट्रिक के हिसाब से फ़िल्टर करें.
R
रैंडम फ़ॉरेस्ट
इसमें डिसिज़न ट्री का कलेक्शन हर डिसिज़न ट्री को किसी खास शोर के साथ ट्रेनिंग दी जाती है. जैसे कि बैगिंग.
रैंडम फ़ॉरेस्ट एक तरह के फ़ैसले फ़ॉरेस्ट हैं.
रूट
शुरुआती नोड (पहला शर्त) के लिए एक डिसिज़न ट्री का इस्तेमाल करना चाहिए. तरीके के हिसाब से, डायग्राम रूट को डिसिज़न ट्री के सबसे ऊपर दिखाता है. उदाहरण के लिए:
S
रिप्लेसमेंट की मदद से सैंपलिंग
उम्मीदवार के आइटम के सेट में से आइटम चुनने का तरीका आइटम को एक से ज़्यादा बार चुना जा सकता है. वाक्यांश "बदलाव के साथ" इसका मतलब है हर विकल्प को चुनने के बाद, चुने गए आइटम को पूल में लौटा दिया जाता है विकल्प मौजूद है. इन्वर्स तरीका, बिना बदले सैंपल करना, इसका मतलब है कि किसी उम्मीदवार के आइटम को सिर्फ़ एक बार चुना जा सकता है.
उदाहरण के लिए, फलों के इस सेट पर विचार करें:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
मान लें कि सिस्टम किसी भी क्रम में, fig
को पहले आइटम के तौर पर चुनता है.
अगर रिप्लेसमेंट के साथ सैंपलिंग का इस्तेमाल किया जा रहा है, तो सिस्टम
निम्न सेट में से दूसरा आइटम:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
हां, यह पहले की तरह ही सेट है. इसलिए, हो सकता है कि सिस्टम
fig
को फिर से चुनें.
अगर किसी सैंपल को चुने बिना सैंपल का इस्तेमाल किया जा रहा है, तो उसे चुनने के बाद, उस सैंपल का इस्तेमाल नहीं किया जा सकता
फिर से चुना जाएगा. उदाहरण के लिए, अगर सिस्टम किसी भी क्रम में fig
को
पहला सैंपल मिलेगा. इसके बाद, fig
को फिर से नहीं चुना जा सकता. इसलिए, सिस्टम
नीचे दिए गए (कम किए गए) सेट में से दूसरा सैंपल चुनता है:
fruit = {kiwi, apple, pear, cherry, lime, mango}
सिकुड़ना
इसमें हाइपर पैरामीटर होता है ग्रेडिएंट बूस्टिंग, जो कंट्रोल करती है ओवरफ़िटिंग (ओवरफ़िटिंग). ग्रेडिएंट बूस्टिंग में छोटा करें लर्निंग रेट के बराबर है ग्रेडिएंट डिसेंट. श्रिंकेज एक दशमलव है की वैल्यू 0.0 और 1.0 के बीच होनी चाहिए. कम संकुचन मान से ओवरफ़िटिंग कम हो जाती है मान कम हो जाता है.
बांटें
डिसिज़न ट्री में, स्थिति.
स्प्लिटर
डिसिज़न ट्री की ट्रेनिंग के दौरान, (और एल्गोरिदम) की तुलना में, हर नोड पर स्थिति.
T
टेस्ट
डिसिज़न ट्री में, स्थिति.
थ्रेशोल्ड (डिसिज़न ट्री के लिए)
ऐक्सिस की अलाइन स्थिति में, वह वैल्यू सुविधा की तुलना की जा रही है. उदाहरण के लिए, 75 थ्रेशोल्ड की वैल्यू नीचे दी गई है:
grade >= 75
V
वैरिएबल की अहमियत
स्कोर का एक सेट, जो हर स्कोर की अहमियत दिखाता है सुविधा को मॉडल में जोड़ा जा सकता है.
उदाहरण के लिए, किसी डिसिज़न ट्री पर विचार करें, घर की कीमतों का अनुमान लगाता है. मान लें कि यह डिसिज़न ट्री तीन तरीकों से सुविधाएं: साइज़, उम्र, और स्टाइल. अगर वैरिएबल के महत्व का कोई सेट तीन सुविधाओं का आकलन करते समय {size=5.8, उम्र=2.5, style=4.7} है, तो साइज़ उम्र या स्टाइल के मुकाबले डिसीज़न ट्री.
वैरिएबल के महत्व वाली अलग-अलग मेट्रिक मौजूद हैं. मॉडल के अलग-अलग पहलुओं के बारे में जानकारी देने वाले एमएल एक्सपर्ट.
W
लोगों की सूझ-बूझ
एक ऐसा आइडिया जिसमें किसी बड़े ग्रुप की राय या अनुमानों का औसत निकाला जाता है लोगों ("भीड़") से अक्सर बहुत ही अच्छे नतीजे मिलते हैं. उदाहरण के लिए, एक ऐसे गेम पर विचार करें जिसमें लोग एक बड़े जार में पैक जेली बीन. हालांकि, ज़्यादातर लोगों के लिए सभी अनुमानों का औसत सटीक होता है. अनुभव के आधार पर यह दिखाया गया कि जार में जेली बीन.
Ensembles, लोगों की सूझ-बूझ का सॉफ़्टवेयर होता है. भले ही, अलग-अलग मॉडल बहुत ही गलत अनुमान लगा दें, कई मॉडल के अनुमानों का औसत निकाल कर, अक्सर अनुमान लगाने पर अच्छे अनुमान. उदाहरण के लिए, भले ही कोई व्यक्ति डिसिज़न ट्री का इस्तेमाल करने से अनुमान गलत हो सकता है. फ़ैसले फ़ॉरेस्ट के इस्तेमाल से अक्सर बहुत अच्छे अनुमान मिलते हैं.