यह यूनिट इन विषयों की जांच करती है:
- किसी भी क्रम में लगे जंगलों को समझना
- किसी भी जंगलों को ट्रेनिंग देना
- किसी भी जंगल के फ़ायदे और नुकसान
किसी भी क्रम में लगाए गए जंगलों के बारे में बताना
डिसिज़न ट्री की तुलना में रैंडम फ़ॉरेस्ट को समझना ज़्यादा मुश्किल होता है. रैंडम फ़ॉरेस्ट इसमें बेतरतीब शोर के साथ ट्रेन किए गए डिसिज़न ट्री शामिल होते हैं. इसलिए, यह करना मुश्किल है डिसिज़न ट्री की संरचना पर फ़ैसला लेना. हालांकि, हम यह समझ सकते हैं कि जंगल मॉडल को दिखाया है.
किसी भी जंगल को बनाने का एक तरीका यह है कि डिसिज़न ट्री का इस्तेमाल करता है. क्योंकि रैंडम फ़ॉरेस्ट और CART दोनों हैं की ट्रेनिंग लेने के लिए, एक ही मुख्य एल्गोरिदम का इस्तेमाल किया जाता है, तो वे "एक जैसा ग्लोबल व्यू" शेयर करते हैं का तरीका डेटासेट. यह विकल्प सरल डेटासेट में अच्छी तरह से काम करता है. अब और बेहतर तरीके से समझा जा सकता है.
अलग-अलग अहमियत देना, एक और अच्छा मतलब है अप्रोच का इस्तेमाल करें. उदाहरण के लिए, नीचे दी गई टेबल में इवेंट के वैरिएबल की अहमियत को किसी रैंडम फ़ॉरेस्ट मॉडल के लिए अलग-अलग सुविधाएँ दी गई हैं. सेंसस डेटासेट (साथ ही जिसे वयस्क के नाम से जाना जाता है).
टेबल 8. 14 अलग-अलग सुविधाओं की अहमियत.
सुविधा | कुल स्कोर | सटीक होने में औसत कमी | AUC में औसत कमी | औसत कम से कम गहराई | नोड की संख्या | PR-AUC में औसत कमी | रूट के तौर पर नंबर |
---|---|---|---|---|---|---|---|
संबंध | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
capital_gain | 3363045.1 |
0.0199 |
0.0194 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
उम्र | 2520658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
education | 2015905.4 |
0.0018 |
-0.0080 तक |
5.266 |
115751 |
0.0129 |
205 |
पेशा | 1939409.3 |
0.0063 |
0.0040 से |
5.017 |
221935 |
0.0060 |
62 |
education_num | 1673648.4 |
0.0023 |
0.0066 |
6.009 |
58303 |
-0.0080 तक |
197 |
fnlwgt | 1564189.0 |
-0.0002 |
0.0038 |
9.969 |
431987 |
0.0049 से |
0 |
hours_per_week | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
-0.0031 तक |
20 |
capital_loss | 866863.8 |
0.0060 के बराबर |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
वर्क क्लास | 644208.4 |
0.0025 |
0.0019 |
9.898 |
132196 |
0.0023 |
0 |
native_country | 538841.2 |
0.0001 |
0.0016 |
9.434 |
67211 |
0.0058 तक |
0 |
लिंग | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
-0.0011 तक |
13 |
नस्ल | 16,8180.9 |
-0.0006 |
-0.0004 |
11.571 |
42262 |
-0.0031 तक |
0 |
जैसा कि आपने देखा, वैरिएबल के महत्व की अलग-अलग परिभाषाओं के पैमाने अलग-अलग होते हैं साथ ही, इससे सुविधाओं की रैंकिंग में अंतर आ सकता है.
मॉडल संरचना से मिलने वाली वैरिएबल वैल्यू. उदाहरण के लिए, योग स्कोर, कम से कम गहराई का माध्य, ऊपर दी गई टेबल में मौजूद रूट की संख्या, और संख्या डिसिज़न ट्री के लिए इसी तरह कंप्यूट किया गया ("कार्ट | वैरिएबल की अहमियत" सेक्शन देखें) और जंगलों को समझकर
पर्म्यूटेशन वैरिएबल का महत्व (उदाहरण के लिए, {accucy, auc, ऊपर दी गई टेबल में pr-auc} तक के लिए) पुष्टि करने वाले डेटासेट के साथ कोई भी मशीन लर्निंग मॉडल होता है. रैंडम फ़ॉरेस्ट के साथ, हालांकि, पुष्टि करने वाले डेटासेट का इस्तेमाल करने के बजाय, क्रम में बदलाव करने की वैल्यू का पता लगाया जा सकता है की अहमियत को बताता है.
SHAP (SHapley Additive exPlanations) एक मॉडल ऐग्नोस्टिक तरीका है, जिससे अलग-अलग अनुमानों या मॉडल के हिसाब से व्याख्या करने में मदद कर सकता है. (देखें मशीन लर्निंग की मदद से समझना मॉडल अग्नोस्टिक की व्याख्या करने के बारे में बताती हैं.) SHAP है आम तौर पर तुलना करना महंगा होता है, लेकिन काफ़ी तेज़ी से आगे बढ़ते हैं इसलिए, डिसिज़न फॉरेस्ट को समझने का यह अच्छा तरीका है.
इस्तेमाल का उदाहरण
पिछले लेसन में, हमने एक छोटे डेटासेट पर CART डिसीज़न ट्री को ट्रेनिंग दी
tfdf.keras.CartModel
पर कॉल करके. किसी रैंडम फ़ॉरेस्ट मॉडल को ट्रेनिंग देने के लिए,
बस tfdf.keras.CartModel
को tfdf.keras.RandomForestModel
से बदल दें:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
फ़ायदे और नुकसान
इस सेक्शन में बिना किसी क्रम के जंगलों के फ़ायदे और नुकसान के बारे में खास जानकारी दी गई है.
फ़ायदे:
- डिसिज़न ट्री की तरह, रैंडम फ़ॉरेस्ट, नेटिव तौर पर अंकों वाली संख्या और कैटगरी से जुड़ी सुविधाओं का इस्तेमाल करती हैं और अक्सर इन सुविधाओं को प्री-प्रोसेस करने की ज़रूरत नहीं होती.
- डिसिज़न ट्री स्वतंत्र होते हैं, इसलिए रैंडम फ़ॉरेस्ट को साथ-साथ. इस तरह, किसी भी क्रम में लगे जंगल को तुरंत ट्रेनिंग दी जा सकती है.
- रैंडम फ़ॉरेस्ट में डिफ़ॉल्ट पैरामीटर होते हैं जो अक्सर सबसे अच्छे नतीजे देते हैं. ट्यूनिंग इन पैरामीटर का मॉडल पर अक्सर ज़्यादा असर नहीं पड़ता है.
नुकसान:
- डिसिज़न ट्री की काट-छांट नहीं की जाती, इसलिए वे बड़े हो सकते हैं. ज़्यादा के साथ मॉडल आम तौर पर, 10 लाख से ज़्यादा नोड होते हैं. इसका साइज़ (इसलिए, अनुमान की स्पीड) कभी-कभी जंगल में होने की वजह से भी समस्या हो सकती है.
- रैंडम फ़ॉरेस्ट, अंदरूनी प्रज़ेंटेशन को नहीं सीख सकते और न ही उनका फिर से इस्तेमाल कर सकते हैं. हर डिसिज़न ट्री (और हर डिसिज़न ट्री की हर ब्रांच) को डेटासेट पैटर्न. कुछ डेटासेट में, खास तौर पर बिना टेबल वाले डेटासेट (जैसे कि इमेज, टेक्स्ट) से कम नतीजे मिलते हैं, तो इससे किसी भी फ़ॉर्मैट में जंगलों को खराब नतीजे मिलते हैं.