अलग-अलग चीज़ों का आकलन
रैंडम फ़ॉरेस्ट (रैंडम फ़ॉरेस्ट) के लिए पुष्टि करने वाले डेटासेट की ज़रूरत नहीं होती. ज़्यादातर रैंडम फ़ॉरेस्ट, मॉडल की क्वालिटी का आकलन करने के लिए out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) नाम की तकनीक का इस्तेमाल करते हैं. ओओबी आकलन, ट्रेनिंग सेट को ऐसे व्यवहार करता है जैसे वह क्रॉस-वैलिडेशन के टेस्ट सेट पर हो.
जैसा कि पहले बताया गया है, किसी भी जंगल में मौजूद डिसिज़न ट्री को आम तौर पर करीब 67% ट्रेनिंग उदाहरणों में ट्रेनिंग दी जाती है. इसलिए, हर डिसिज़न ट्री को ट्रेनिंग के ~33% उदाहरण नहीं दिखते. ओओबी के आकलन का मुख्य मकसद यह है:
- ट्रेनिंग सेट पर रैंडम फ़ॉरेस्ट का आकलन करने के लिए.
- हर उदाहरण के लिए, सिर्फ़ उन डिसिज़न ट्री का इस्तेमाल करें जिनके लिए ट्रेनिंग के दौरान उदाहरण नहीं देखा गया था.
नीचे दी गई टेबल में, रैंडम जंगल के ओओबी आकलन को दिखाया गया है. इसमें 6 उदाहरणों के आधार पर, तीन डिसिज़न ट्री वाले जंगल भी शामिल हैं. (हां, यह वही टेबल है जो बैगिंग सेक्शन में दी गई है). इस टेबल में दिखाया जाता है कि किस डिसिज़न ट्री का इस्तेमाल किया गया है, किसके साथ OOB इवैलुएशन के दौरान इस्तेमाल किया जाता है.
टेबल 7. ओओबी का आकलन करना - इससे यह पता चलता है कि दिए गए उदाहरण की ट्रेनिंग के दौरान, किसी ट्रेनिंग के उदाहरण का कितनी बार इस्तेमाल किया गया है
ट्रेनिंग के उदाहरण | ओओबी के आकलन के उदाहरण | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
ओरिजनल डेटासेट | 1 | 1 | 1 | 1 | 1 | 1 | |
डिसिज़न ट्री 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
डिसिज़न ट्री 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4, और #6 |
डिसिज़न ट्री 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 और #5 |
टेबल 7 में दिखाए गए उदाहरण में, ट्रेनिंग के पहले उदाहरण के लिए ओओबी के अनुमानों की गिनती डिसिज़न ट्री #3 की मदद से की जाएगी. इसकी वजह यह है कि डिसिज़न ट्री #1 और #2 का इस्तेमाल ट्रेनिंग के लिए किया जाता है. व्यावहारिक तौर पर, उचित साइज़ के डेटासेट पर और कुछ डिसिज़न ट्री के साथ, सभी उदाहरणों में ओओबी अनुमान होता है.
compute_oob_performances=True
से ट्रेनिंग दी गई हो.
OOB इवैलुएशन से रैंडम फ़ॉरेस्ट मॉडल के लिए, क्रमचय के वैरिएबल की अहमियत का पता लगाना भी असरदार होता है. वैरिएबल इंपोर्ट से याद रखें कि जब यह वैरिएबल शफ़ल किया जाता है, तब मॉडल की क्वालिटी में गिरावट को मेज़र करके, वैरिएबल की अहमियत किसी वैरिएबल की अहमियत को मापती है. रैंडम फ़ॉरेस्ट "OOB क्रमचय वैरिएबल का महत्व" एक क्रमचय वैरिएबल है. इसे ओओबी आकलन का इस्तेमाल करके कैलकुलेट किया जाता है.
compute_oob_variable_importances=True
के साथ ट्रेनिंग दी गई हो.