इस पेज का अनुवाद Cloud Translation API से किया गया है.

अन्य विषय

यह यूनिट इन विषयों की जांच करती है:

किसी भी क्रम में लगे जंगलों को समझना
किसी भी जंगलों को ट्रेनिंग देना
किसी भी जंगल के फ़ायदे और नुकसान

किसी भी क्रम में लगाए गए जंगलों के बारे में बताना

डिसिज़न ट्री की तुलना में रैंडम फ़ॉरेस्ट को समझना ज़्यादा मुश्किल होता है. रैंडम फ़ॉरेस्ट इसमें बेतरतीब शोर के साथ ट्रेन किए गए डिसिज़न ट्री शामिल होते हैं. इसलिए, यह करना मुश्किल है डिसिज़न ट्री की संरचना पर फ़ैसला लेना. हालांकि, हम यह समझ सकते हैं कि जंगल मॉडल को दिखाया है.

किसी भी जंगल को बनाने का एक तरीका यह है कि डिसिज़न ट्री का इस्तेमाल करता है. क्योंकि रैंडम फ़ॉरेस्ट और CART दोनों हैं की ट्रेनिंग लेने के लिए, एक ही मुख्य एल्गोरिदम का इस्तेमाल किया जाता है, तो वे "एक जैसा ग्लोबल व्यू" शेयर करते हैं का तरीका डेटासेट. यह विकल्प सरल डेटासेट में अच्छी तरह से काम करता है. अब और बेहतर तरीके से समझा जा सकता है.

अलग-अलग अहमियत देना, एक और अच्छा मतलब है अप्रोच का इस्तेमाल करें. उदाहरण के लिए, नीचे दी गई टेबल में इवेंट के वैरिएबल की अहमियत को किसी रैंडम फ़ॉरेस्ट मॉडल के लिए अलग-अलग सुविधाएँ दी गई हैं. सेंसस डेटासेट (साथ ही जिसे वयस्क के नाम से जाना जाता है).

टेबल 8. 14 अलग-अलग सुविधाओं की अहमियत.

सुविधा	कुल स्कोर	सटीक होने में औसत कमी	AUC में औसत कमी	औसत कम से कम गहराई	नोड की संख्या	PR-AUC में औसत कमी	रूट के तौर पर नंबर
संबंध	4203592.6	0.0045	0.0172	4.970	57040	0.0093	1095
capital_gain	3363045.1	0.0199	0.0194	2.852	56468	0.0655	457
marital_status	3128996.3	0.0018	0.0230	6.633	52391	0.0107	750
उम्र	2520658.8	0.0065	0.0074	4.969	356784	0.0033	200
education	2015905.4	0.0018	-0.0080 तक	5.266	115751	0.0129	205
पेशा	1939409.3	0.0063	0.0040 से	5.017	221935	0.0060	62
education_num	1673648.4	0.0023	0.0066	6.009	58303	-0.0080 तक	197
fnlwgt	1564189.0	-0.0002	0.0038	9.969	431987	0.0049 से	0
hours_per_week	1333976.3	0.0030	0.0007	6.393	206526	-0.0031 तक	20
capital_loss	866863.8	0.0060 के बराबर	0.0020	8.076	58531	0.0118	1
वर्क क्लास	644208.4	0.0025	0.0019	9.898	132196	0.0023	0
native_country	538841.2	0.0001	0.0016	9.434	67211	0.0058 तक	0
लिंग	226049.3	0.0002	0.0002	10.911	37754	-0.0011 तक	13
नस्ल	16,8180.9	-0.0006	-0.0004	11.571	42262	-0.0031 तक	0

जैसा कि आपने देखा, वैरिएबल के महत्व की अलग-अलग परिभाषाओं के पैमाने अलग-अलग होते हैं साथ ही, इससे सुविधाओं की रैंकिंग में अंतर आ सकता है.

मॉडल संरचना से मिलने वाली वैरिएबल वैल्यू. उदाहरण के लिए, योग स्कोर, कम से कम गहराई का माध्य, ऊपर दी गई टेबल में मौजूद रूट की संख्या, और संख्या डिसिज़न ट्री के लिए इसी तरह कंप्यूट किया गया ("कार्ट | वैरिएबल की अहमियत" सेक्शन देखें) और जंगलों को समझकर

पर्म्यूटेशन वैरिएबल का महत्व (उदाहरण के लिए, {accucy, auc, ऊपर दी गई टेबल में pr-auc} तक के लिए) पुष्टि करने वाले डेटासेट के साथ कोई भी मशीन लर्निंग मॉडल होता है. रैंडम फ़ॉरेस्ट के साथ, हालांकि, पुष्टि करने वाले डेटासेट का इस्तेमाल करने के बजाय, क्रम में बदलाव करने की वैल्यू का पता लगाया जा सकता है की अहमियत को बताता है.

SHAP (SHapley Additive exPlanations) एक मॉडल ऐग्नोस्टिक तरीका है, जिससे अलग-अलग अनुमानों या मॉडल के हिसाब से व्याख्या करने में मदद कर सकता है. (देखें मशीन लर्निंग की मदद से समझना मॉडल अग्नोस्टिक की व्याख्या करने के बारे में बताती हैं.) SHAP है आम तौर पर तुलना करना महंगा होता है, लेकिन काफ़ी तेज़ी से आगे बढ़ते हैं इसलिए, डिसिज़न फॉरेस्ट को समझने का यह अच्छा तरीका है.

इस्तेमाल का उदाहरण

पिछले लेसन में, हमने एक छोटे डेटासेट पर CART डिसीज़न ट्री को ट्रेनिंग दी tfdf.keras.CartModel पर कॉल करके. किसी रैंडम फ़ॉरेस्ट मॉडल को ट्रेनिंग देने के लिए, बस tfdf.keras.CartModel को tfdf.keras.RandomForestModel से बदल दें:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

फ़ायदे और नुकसान

इस सेक्शन में बिना किसी क्रम के जंगलों के फ़ायदे और नुकसान के बारे में खास जानकारी दी गई है.

फ़ायदे:

डिसिज़न ट्री की तरह, रैंडम फ़ॉरेस्ट, नेटिव तौर पर अंकों वाली संख्या और कैटगरी से जुड़ी सुविधाओं का इस्तेमाल करती हैं और अक्सर इन सुविधाओं को प्री-प्रोसेस करने की ज़रूरत नहीं होती.
डिसिज़न ट्री स्वतंत्र होते हैं, इसलिए रैंडम फ़ॉरेस्ट को साथ-साथ. इस तरह, किसी भी क्रम में लगे जंगल को तुरंत ट्रेनिंग दी जा सकती है.
रैंडम फ़ॉरेस्ट में डिफ़ॉल्ट पैरामीटर होते हैं जो अक्सर सबसे अच्छे नतीजे देते हैं. ट्यूनिंग इन पैरामीटर का मॉडल पर अक्सर ज़्यादा असर नहीं पड़ता है.

नुकसान:

डिसिज़न ट्री की काट-छांट नहीं की जाती, इसलिए वे बड़े हो सकते हैं. ज़्यादा के साथ मॉडल आम तौर पर, 10 लाख से ज़्यादा नोड होते हैं. इसका साइज़ (इसलिए, अनुमान की स्पीड) कभी-कभी जंगल में होने की वजह से भी समस्या हो सकती है.
रैंडम फ़ॉरेस्ट, अंदरूनी प्रज़ेंटेशन को नहीं सीख सकते और न ही उनका फिर से इस्तेमाल कर सकते हैं. हर डिसिज़न ट्री (और हर डिसिज़न ट्री की हर ब्रांच) को डेटासेट पैटर्न. कुछ डेटासेट में, खास तौर पर बिना टेबल वाले डेटासेट (जैसे कि इमेज, टेक्स्ट) से कम नतीजे मिलते हैं, तो इससे किसी भी फ़ॉर्मैट में जंगलों को खराब नतीजे मिलते हैं.