इस पेज पर, डिसीज़न फ़ॉरेस्ट की ग्लॉसरी में शामिल शब्द दिए गए हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.
A
एट्रिब्यूट सैंपलिंग
डिसिज़न फ़ॉरेस्ट को ट्रेनिंग देने का एक तरीका. इसमें हर डिसिज़न ट्री, शर्त को सीखते समय, संभावित सुविधाओं के सिर्फ़ एक रैंडम सबसेट को ध्यान में रखता है. आम तौर पर, हर नोड के लिए, सुविधाओं के अलग-अलग सबसेट का सैंपल लिया जाता है. इसके उलट, एट्रिब्यूट सैंपलिंग के बिना किसी डिसीज़न ट्री को ट्रेनिंग देते समय, हर नोड के लिए सभी संभावित सुविधाओं को ध्यान में रखा जाता है.
ऐक्सिस के साथ अलाइन की गई शर्त
फ़ैसला लेने वाले ट्री में, ऐसी शर्त जिसमें सिर्फ़ एक फ़ीचर शामिल हो. उदाहरण के लिए, अगर area
कोई सुविधा है, तो अक्ष के साथ अलाइन की गई शर्त यह है:
area > 200
तिरछी स्थिति के साथ कंट्रास्ट करें.
B
बैगिंग
एंसेंबल को ट्रेन करने का एक तरीका, जिसमें हर कॉम्पोनेंट मॉडल, ट्रेनिंग के उदाहरणों के किसी रैंडम सबसेट पर ट्रेन करता है. यह सबसेट, रिप्लेसमेंट की मदद से सैंपल किया जाता है. उदाहरण के लिए, रैंडम फ़ॉरेस्ट, बैगिंग की मदद से ट्रेन किए गए डिसिज़न ट्री का कलेक्शन होता है.
bagging शब्द, bootstrap aggregating का छोटा रूप है.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में रैंडम फ़ॉरेस्ट देखें.
बाइनरी शर्त
फ़ैसला लेने वाले ट्री में, ऐसी शर्त जो सिर्फ़ दो संभावित नतीजे देती है. आम तौर पर, ये नतीजे हां या नहीं होते हैं. उदाहरण के लिए, नीचे दी गई शर्त बाइनरी है:
temperature >= 100
नॉन-बाइनरी स्थिति के साथ तुलना करें.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में शर्तों के टाइप देखें.
C
शर्त
फ़ैसला लेने वाले ट्री में, ऐसा कोई भी नोड जो किसी एक्सप्रेशन का आकलन करता है. उदाहरण के लिए, नीचे दिए गए फ़ैसले के पेड़ के हिस्से में दो शर्तें हैं:
कंडीशन को स्प्लिट या टेस्ट भी कहा जाता है.
पत्ते के साथ कंट्रास्ट की स्थिति.
यह भी देखें:
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में शर्तों के टाइप देखें.
D
डिसीज़न फ़ॉरेस्ट
एक से ज़्यादा फ़ैसला लेने वाले ट्री से बनाया गया मॉडल. डिसीज़न फ़ॉरेस्ट, अपने डिसीज़न ट्री के अनुमान को इकट्ठा करके अनुमान लगाता है. डिसीज़न फ़ॉरेस्ट के लोकप्रिय टाइप में, रैंडम फ़ॉरेस्ट और ग्रेडिएंट बूस्ड ट्री शामिल हैं.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में डिसीज़न फ़ॉरेस्ट सेक्शन देखें.
डिसीज़न ट्री
सुपरवाइज़्ड लर्निंग मॉडल, शर्तों और लीफ के सेट से बना होता है. ये शर्तें और लीफ, हैरारकी के हिसाब से व्यवस्थित होते हैं. उदाहरण के लिए, यहां एक फ़ैसला ट्री दिया गया है:
E
एन्ट्रॉपी
जानकारी के सिद्धांत में, एन्ट्रॉपी का मतलब है कि किसी संभावना के बंटवारे का अनुमान लगाना कितना मुश्किल है. इसके अलावा, एन्ट्रॉपी को इस तरह भी परिभाषित किया जा सकता है कि हर उदाहरण में कितनी जानकारी है. जब किसी रैंडम वैरिएबल की सभी वैल्यू एक जैसी होती हैं, तो डिस्ट्रिब्यूशन में सबसे ज़्यादा एन्ट्रापी होती है.
"0" और "1" जैसी दो संभावित वैल्यू वाले सेट का एन्ट्रापी (उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन समस्या में लेबल) का यह फ़ॉर्मूला है:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
कहां:
- H एन्ट्रॉपी है.
- p, "1" उदाहरणों का अंश है.
- q, "0" उदाहरणों का फ़्रैक्शन है. ध्यान दें कि q = (1 - p)
- आम तौर पर, लॉग को लॉग2 कहा जाता है. इस मामले में, एन्ट्रापी की इकाई बिट होती है.
उदाहरण के लिए, मान लें कि:
- 100 उदाहरणों में वैल्यू "1" है
- 300 उदाहरणों में वैल्यू "0" है
इसलिए, एंट्रॉपी की वैल्यू यह है:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 बिट प्रति उदाहरण
पूरी तरह से बैलेंस किए गए सेट (उदाहरण के लिए, 200 "0" और 200 "1") के लिए, हर उदाहरण में 1.0 बिट का एन्ट्रापी होगा. किसी सेट के असंतुलित होने पर, उसका एन्ट्रापी 0.0 की ओर बढ़ता है.
फ़ैसला लेने वाले ट्री में, एन्ट्रापी से जानकारी हासिल करने में मदद मिलती है. इससे स्प्लिटर को, क्लासिफ़िकेशन के फ़ैसला लेने वाले ट्री के बढ़ने के दौरान शर्तें चुनने में मदद मिलती है.
एन्ट्रॉपी की तुलना इनसे करें:
- गिनाई इंप्यूरिटी
- क्रॉस-एंट्रॉपी लॉस फ़ंक्शन
एन्ट्रोपी को अक्सर शैनन का एन्ट्रोपी कहा जाता है.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में संख्यात्मक सुविधाओं के साथ बाइनरी क्लासिफ़िकेशन के लिए एग्ज़ैक्ट स्प्लिटर देखें.
F
सुविधाओं की अहमियत
वैरिएबल की अहमियत का दूसरा नाम.
G
gini impurity
एन्ट्रापी जैसी मेट्रिक. स्प्लिटर, गिनी इंप्यूरिटी या एन्ट्रापी से मिली वैल्यू का इस्तेमाल करते हैं. इससे, फ़ैसला लेने वाले पेड़ों के लिए, अलग-अलग कैटगरी बनाने की शर्तें तय की जाती हैं. जानकारी हासिल करना, एन्ट्रापी से मिलता है. गिनिन इंप्यूरिटी से मिली मेट्रिक के लिए, दुनिया भर में स्वीकार किया गया कोई समान शब्द नहीं है. हालांकि, नाम न होने के बावजूद यह मेट्रिक, जानकारी हासिल करने के लिए उतनी ही ज़रूरी है.
Gini impurity को gini index या सिर्फ़ gini भी कहा जाता है.
ग्रेडिएंट बूस्ट किए गए (डिसीज़न) ट्री (जीबीटी)
डिसीज़न फ़ॉरेस्ट का एक टाइप, जिसमें:
- ट्रेनिंग, ग्रेडिएंट बूस्टिंग पर निर्भर करती है.
- खराब मॉडल, फ़ैसला लेने वाला ट्री होता है.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में ग्रेडिएंट बूस्टेड डिसीज़न ट्री देखें.
ग्रेडिएंट बूस्टिंग
एक ट्रेनिंग एल्गोरिदम, जिसमें खराब मॉडल को बार-बार बेहतर बनाने (लोस को कम करने) के लिए, बेहतर मॉडल को ट्रेन किया जाता है. उदाहरण के लिए, कमज़ोर मॉडल, लीनियर या छोटा डिसीज़न ट्री मॉडल हो सकता है. बेहतर मॉडल, पहले से ट्रेन किए गए सभी कमज़ोर मॉडल का योग होता है.
ग्रेडिएंट बूस्टिंग के सबसे आसान तरीके में, हर बार दोहराए जाने वाले एलिमेंट के लिए, कमज़ोर मॉडल को ट्रेन किया जाता है, ताकि बेहतर मॉडल के लॉस ग्रेडिएंट का अनुमान लगाया जा सके. इसके बाद, ग्रेडिएंट डिसेंट की तरह ही, अनुमानित ग्रेडिएंट को घटाकर, बेहतर मॉडल का आउटपुट अपडेट किया जाता है.
कहां:
- $F_{0}$, शुरुआती बेहतर मॉडल है.
- $F_{i+1}$ अगला बेहतर मॉडल है.
- $F_{i}$, मौजूदा बेहतर मॉडल है.
- $\xi$, 0.0 से 1.0 के बीच की एक वैल्यू होती है, जिसे छोटा करना कहा जाता है. यह वैल्यू, ग्रेडिएंट डिसेंट में लर्निंग रेट के बराबर होती है.
- $f_{i}$ एक ऐसा कमज़ोर मॉडल है जिसे $F_{i}$ के लॉस ग्रेडिएंट का अनुमान लगाने के लिए ट्रेन किया गया है.
ग्रेडिएंट बूसटिंग के आधुनिक वैरिएशन में, गणना के दौरान लॉस का दूसरा डेरिवेटिव (हेसियन) भी शामिल होता है.
आम तौर पर, फ़ैसला लेने वाले ट्री का इस्तेमाल, ग्रेडिएंट बूसटिंग में कमज़ोर मॉडल के तौर पर किया जाता है. ग्रेडिएंट बूस्टर (फ़ैसला) ट्री देखें.
I
अनुमान लगाने का पाथ
फ़ैसला लेने वाले ट्री में, अनुमान के दौरान, किसी खास उदाहरण के लिए, रूट से लेकर दूसरी शर्तों तक का रास्ता तय किया जाता है. यह रास्ता लीफ़ पर खत्म होता है. उदाहरण के लिए, नीचे दिए गए डिसीज़न ट्री में, ज़्यादा मोटे ऐरो, किसी उदाहरण के लिए इन फ़ीचर वैल्यू के साथ, अनुमान लगाने का पाथ दिखाते हैं:
- x = 7
- y = 12
- z = -3
नीचे दिए गए इलस्ट्रेशन में, लीफ़ (Zeta
) तक पहुंचने से पहले, अनुमान लगाने का पाथ तीन स्थितियों से गुज़रता है.
तीन मोटे ऐरो, अनुमान लगाने का पाथ दिखाते हैं.
ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में डिसीज़न ट्री देखें.
जानकारी हासिल करना
फ़ैसला फ़ॉरेस्ट में, किसी नोड के एन्ट्रापी और उसके चाइल्ड नोड के एन्ट्रापी के वज़ीदार (उदाहरणों की संख्या के हिसाब से) योग के बीच का अंतर. किसी नोड का एन्ट्रापी, उस नोड में मौजूद उदाहरणों का एन्ट्रापी होता है.
उदाहरण के लिए, इन एन्ट्रापी वैल्यू पर विचार करें:
- पैरंट नोड की एन्ट्रॉपी = 0.6
- काम के 16 उदाहरणों वाले एक चाइल्ड नोड का एन्ट्रापी = 0.2
- काम के 24 उदाहरणों वाले किसी दूसरे चाइल्ड नोड का एन्ट्रापी = 0.1
इसलिए, 40% उदाहरण एक चाइल्ड नोड में और 60% उदाहरण दूसरे चाइल्ड नोड में हैं. इसलिए:
- चाइल्ड नोड की वेटेड एन्ट्रॉपी का कुल योग = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
इसलिए, आपको यह जानकारी मिलेगी:
- जानकारी का फ़ायदा = पैरंट नोड की एन्ट्रॉपी - चाइल्ड नोड की वेटेड एन्ट्रॉपी का योग
- जानकारी का फ़ायदा = 0.6 - 0.14 = 0.46
ज़्यादातर स्प्लिटर, ऐसी शर्तें तय करते हैं जिनसे ज़्यादा से ज़्यादा जानकारी हासिल की जा सके.
इन-सेट स्थिति
फ़ैसला लेने वाले ट्री में, आइटम के सेट में किसी एक आइटम की मौजूदगी की जांच करने वाली शर्त. उदाहरण के लिए, इन-सेट शर्त यह है:
house-style in [tudor, colonial, cape]
अनुमान लगाने के दौरान, अगर घर की स्टाइल सुविधा की वैल्यू tudor
या colonial
या cape
है, तो इस शर्त का आकलन 'हां' के तौर पर किया जाता है. अगर घर के स्टाइल की सुविधा की वैल्यू कुछ और है (उदाहरण के लिए, ranch
), तो इस शर्त का आकलन 'नहीं' के तौर पर किया जाता है.
आम तौर पर, इन-सेट शर्तों से ज़्यादा बेहतर फ़ैसला लेने वाले ट्री बनते हैं. ये शर्तें, वन-हॉट कोड वाली सुविधाओं की जांच करने वाली शर्तों से बेहतर होती हैं.
L
पत्ती
डिसीज़न ट्री में मौजूद कोई भी एंडपॉइंट. शर्त के उलट, लीफ कोई जांच नहीं करता. इसके बजाय, पत्ती एक संभावित अनुमान है. लीफ़, अनुमान के पाथ का टर्मिनल नोड भी होता है.
उदाहरण के लिए, नीचे दिए गए फ़ैसला ट्री में तीन लीफ़ हैं:
नहीं
नोड (डिसीज़न ट्री)
फ़ैसला लेने के लिए बने ट्री में, कोई भी शर्त या लीफ़.
अन्य स्थिति
ऐसी शर्त जिसमें दो से ज़्यादा संभावित नतीजे हों. उदाहरण के लिए, नॉन-बाइनरी शर्त में तीन संभावित नतीजे हो सकते हैं:
O
ऑब्लिक कंडीशन
फ़ैसला लेने वाले ट्री में, एक ऐसी शर्त जिसमें एक से ज़्यादा सुविधाएं शामिल हों. उदाहरण के लिए, अगर ऊंचाई और चौड़ाई, दोनों एट्रिब्यूट हैं, तो यहां दी गई शर्त अस्पष्ट है:
height > width
ऐक्सिस के साथ अलाइन की गई शर्त के साथ तुलना करें.
आउट-ऑफ़-बैग इवैल्यूएशन (ओओबी इवैल्यूएशन)
डिसीज़न फ़ॉरेस्ट की क्वालिटी का आकलन करने का तरीका. इसमें हर डिसीज़न ट्री की जांच, उन उदाहरणों के आधार पर की जाती है जिनका इस्तेमाल, उस डिसीज़न ट्री के ट्रेनिंग के दौरान नहीं किया गया था. उदाहरण के लिए, यहां दिए गए डायग्राम में देखें कि सिस्टम, हर डिसीज़न ट्री को करीब दो-तिहाई उदाहरणों पर ट्रेन करता है. इसके बाद, बाकी एक-तिहाई उदाहरणों के आधार पर उसका आकलन करता है.
आउट-ऑफ़-बैग आकलन, क्रॉस-पुष्टि के तरीके का एक बेहतर और कम अनुमानित तरीका है. क्रॉस-वैलिडेशन में, हर क्रॉस-वैलिडेशन राउंड के लिए एक मॉडल को ट्रेन किया जाता है (उदाहरण के लिए, 10-फ़ोल्ड क्रॉस-वैलिडेशन में 10 मॉडल को ट्रेन किया जाता है). ओओबी (ऑउट ऑफ़ बैंड) आकलन की मदद से, एक मॉडल को ट्रेन किया जाता है. बैगिंग, ट्रेनिंग के दौरान हर ट्री से कुछ डेटा को अलग रखती है. इसलिए, ओयूबी (ऑउट ऑफ़ बैंड) आकलन, क्रॉस-वैलिडेशन का अनुमान लगाने के लिए उस डेटा का इस्तेमाल कर सकती है.
P
पर्म्यूटेशन वैरिएबल की अहमियत
वैरिएबल की अहमियत का एक टाइप, जो फ़ीचर की वैल्यू को बदलने के बाद, मॉडल के अनुमान में हुई गड़बड़ी का आकलन करता है. वैरिएशन के क्रम में बदलाव करने की अहमियत, मॉडल पर निर्भर नहीं करती.
R
रैंडम फ़ॉरेस्ट
डिसिज़न ट्री का ग्रुप, जिसमें हर डिसिज़न ट्री को किसी खास तरह के रैंडम नॉइज़ के साथ ट्रेन किया जाता है. जैसे, बैगिंग.
रैंडम फ़ॉरेस्ट, फ़ैसला लेने वाले फ़ॉरेस्ट का एक टाइप है.
रूट
डिसिज़न ट्री में, शुरुआती नोड (पहली शर्त). आम तौर पर, डायग्राम में रूट को डिसीज़न ट्री में सबसे ऊपर रखा जाता है. उदाहरण के लिए:
S
रिप्लेसमेंट की मदद से सैंपलिंग
संभावित आइटम के सेट से आइटम चुनने का एक तरीका, जिसमें एक ही आइटम को कई बार चुना जा सकता है. "बदले में" वाक्यांश का मतलब है कि हर चुने गए आइटम के बाद, चुना गया आइटम, संभावित आइटम के पूल में वापस आ जाता है. इसके उलट, रिप्लेसमेंट के बिना सैंपलिंग का मतलब है कि किसी आइटम को सिर्फ़ एक बार चुना जा सकता है.
उदाहरण के लिए, फलों के इस सेट पर ध्यान दें:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
मान लें कि सिस्टम, पहले आइटम के तौर पर fig
को रैंडम तौर पर चुनता है.
अगर सैंपलिंग के साथ बदलाव का इस्तेमाल किया जा रहा है, तो सिस्टम इस सेट से दूसरा आइटम चुनता है:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
हां, यह वही सेट है जो पहले था. इसलिए, सिस्टम fig
को फिर से चुन सकता है.
अगर सैंपलिंग के लिए, रिप्लेसमेंट का इस्तेमाल नहीं किया जा रहा है, तो सैंपल चुनने के बाद, उसे फिर से नहीं चुना जा सकता. उदाहरण के लिए, अगर सिस्टम पहले सैंपल के तौर पर fig
को रैंडम तौर पर चुनता है, तो fig
को फिर से नहीं चुना जा सकता. इसलिए, सिस्टम यहां दिए गए (कम किए गए) सेट से दूसरा सैंपल चुनता है:
fruit = {kiwi, apple, pear, cherry, lime, mango}
शंकी
ग्रेडिएंट बूसटिंग में ऐसा हाइपर पैरामीटर जो ओवरफ़िटिंग को कंट्रोल करता है. ग्रेडिएंट बूसटिंग में घटाव, ग्रेडिएंट डिसेंट में लर्निंग रेट जैसा ही है. सिकुड़ने की दर, दशमलव वाली वैल्यू होती है. यह 0.0 से 1.0 के बीच होती है. छोटी शंकुरण वैल्यू, बड़ी शंकुरण वैल्यू की तुलना में, ज़्यादा ओवरफ़िटिंग को कम करती है.
बांटें
फ़ैसला लेने के लिए ट्री में, शर्त का दूसरा नाम.
स्प्लिटर
फ़ैसला लेने वाले ट्री को ट्रेनिंग देते समय, हर नोड में सबसे अच्छी स्थिति ढूंढने के लिए, रूटीन (और एल्गोरिदम) ज़िम्मेदार होता है.
T
टेस्ट
फ़ैसला लेने के लिए ट्री में, शर्त का दूसरा नाम.
थ्रेशोल्ड (डिसीज़न ट्री के लिए)
ऐक्सिस के साथ अलाइन की गई शर्त में, वह वैल्यू जिसकी तुलना सुविधा से की जा रही है. उदाहरण के लिए, नीचे दी गई शर्त में 75 थ्रेशोल्ड वैल्यू है:
grade >= 75
V
वैरिएबल की अहमियत
स्कोर का एक सेट, जो मॉडल के लिए हर फ़ीचर की अहमियत दिखाता है.
उदाहरण के लिए, एक फ़ैसला लेने वाले ट्री का इस्तेमाल करके, घर की कीमत का अनुमान लगाया जा सकता है. मान लें कि यह डिसीज़न ट्री, साइज़, उम्र, और स्टाइल जैसी तीन सुविधाओं का इस्तेमाल करता है. अगर तीन सुविधाओं के लिए वैरिएबल की अहमियत का सेट {size=5.8, age=2.5, style=4.7} के तौर पर कैलकुलेट किया जाता है, तो डिसीज़न ट्री के लिए साइज़, उम्र या स्टाइल से ज़्यादा अहम है.
वैरिएबल की अहमियत बताने वाली अलग-अलग मेट्रिक मौजूद हैं. इनसे एआई विशेषज्ञों को मॉडल के अलग-अलग पहलुओं के बारे में जानकारी मिल सकती है.
W
ज़्यादा लोगों की राय
इस सिद्धांत के मुताबिक, लोगों के बड़े ग्रुप ("क्राउड") की राय या अनुमानों का औसत निकालने से, अक्सर बेहतर नतीजे मिलते हैं. उदाहरण के लिए, एक गेम में लोग यह अनुमान लगाते हैं कि एक बड़े जार में कितनी जेली बीन्स पैक की गई हैं. हालांकि, ज़्यादातर लोगों के अनुमान गलत होंगे, लेकिन सभी अनुमान का औसत, जार में मौजूद जेली बीन की असल संख्या के काफ़ी करीब होता है.
एनसेंबल, भीड़ की बुद्धि का सॉफ़्टवेयर ऐनलॉग है. भले ही, अलग-अलग मॉडल काफ़ी गलत अनुमान लगाते हों, लेकिन कई मॉडल के अनुमान का औसत निकालने से, अक्सर काफ़ी अच्छे अनुमान मिलते हैं. उदाहरण के लिए, हो सकता है कि कोई एक फ़ैसला लेने वाला ट्री खराब अनुमान लगाए, लेकिन फ़ैसला लेने वाला फ़ॉरेस्ट अक्सर बहुत अच्छे अनुमान लगाता है.