आउट-ऑफ़-बैग आकलन
रैंडम फ़ॉरेस्ट के लिए, पुष्टि करने वाले डेटासेट की ज़रूरत नहीं होती. ज़्यादातर रैंडम फ़ॉरेस्ट, मॉडल की क्वालिटी का आकलन करने के लिए, आउट-ऑफ़-बैग-इवैलुएशन (ओओबी इवैलुएशन) नाम की एक तकनीक का इस्तेमाल करते हैं. ओओबी (ऑउट ऑफ बॉक्स) इवैल्यूएशन, ट्रेनिंग सेट को क्रॉस-वैलिडेशन के टेस्ट सेट के तौर पर इस्तेमाल करता है.
जैसा कि पहले बताया गया है, रैंडम फ़ॉरेस्ट में मौजूद हर डिसीज़न ट्री को आम तौर पर, ट्रेनिंग के लिए दिए गए ~67% उदाहरणों पर ट्रेन किया जाता है. इसलिए, हर डिसीज़न ट्री को ट्रेनिंग के लिए दिए गए उदाहरणों में से ~33% उदाहरण नहीं दिखते. ओयूबी-इवैल्यूएशन का मुख्य आइडिया यह है:
- ट्रेनिंग सेट पर रैंडम फ़ॉरेस्ट का आकलन करने के लिए.
- हर उदाहरण के लिए, सिर्फ़ उन फ़ैसले के पेड़ों का इस्तेमाल करें जिन्हें ट्रेनिंग के दौरान उदाहरण नहीं दिखाया गया था.
नीचे दी गई टेबल में, रैंडम फ़ॉरेस्ट के ओओबी (ऑउट ऑफ़ बैंड) आकलन को दिखाया गया है. इसमें छह उदाहरणों पर ट्रेन किए गए तीन डिसिज़न ट्री शामिल हैं. (हां, यह वही टेबल है जो bagging सेक्शन में है). टेबल से पता चलता है कि बाहरी डेटा का आकलन करते समय, किस उदाहरण के साथ किस डिसीज़न ट्री का इस्तेमाल किया जाता है.
टेबल 7. बाहरी डेटा का आकलन - इन नंबर से पता चलता है कि किसी दिए गए उदाहरण को ट्रेनिंग के दौरान कितनी बार इस्तेमाल किया गया है
ट्रेनिंग के उदाहरण | ओओबी (ऑनलाइन प्लैटफ़ॉर्म के बाहर) आकलन के उदाहरण | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
ओरिजनल डेटासेट | 1 | 1 | 1 | 1 | 1 | 1 | |
डिसीज़न ट्री 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
डिसीज़न ट्री 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4, और #6 |
डिसीज़न ट्री 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 और #5 |
टेबल 7 में दिए गए उदाहरण में, ट्रेनिंग के लिए दिए गए उदाहरण 1 के लिए, ओओबी अनुमानों का हिसाब फ़ैसला ट्री #3 से लगाया जाएगा. ऐसा इसलिए, क्योंकि फ़ैसला ट्री #1 और #2 ने ट्रेनिंग के लिए इस उदाहरण का इस्तेमाल किया था. आम तौर पर, सही साइज़ के डेटासेट और कुछ डिसिज़न ट्री के साथ, सभी उदाहरणों में ओओबी अनुमान होता है.
compute_oob_performances=True
के साथ ट्रेन किया गया हो.
रैंडम फ़ॉरेस्ट मॉडल के लिए, क्रम बदलने वाले वैरिएबल की अहमियत का हिसाब लगाने में भी, बाहरी डेटा का आकलन करना असरदार होता है. वैरिएबल की अहमियत से याद रखें कि वैरिएबल के क्रम में बदलाव करने से, मॉडल की क्वालिटी में गिरावट आती है. इस गिरावट को मेज़र करके, वैरिएबल की अहमियत का पता लगाया जाता है. रैंडम फ़ॉरेस्ट "ओओबी (ऑउट ऑफ़ बैंड) वैरिएशन के हिसाब से वैरिएबल की अहमियत", वैरिएशन के हिसाब से वैरिएबल की अहमियत होती है. इसे ओओबी (ऑउट ऑफ़ बैंड) आकलन का इस्तेमाल करके कैलकुलेट किया जाता है.
compute_oob_variable_importances=True
के साथ ट्रेन किया गया है, तो ट्रेनिंग लॉग में, बाहरी वैरिएबल के क्रम में बदलाव करने की अहमियत की जानकारी उपलब्ध होती है.