अन्य विषय

यह यूनिट इन विषयों की जांच करती है:

  • किसी भी क्रम में लगे जंगलों को समझना
  • किसी भी जंगलों को ट्रेनिंग देना
  • किसी भी जंगल के फ़ायदे और नुकसान

किसी भी क्रम में लगाए गए जंगलों के बारे में बताना

डिसिज़न ट्री की तुलना में रैंडम फ़ॉरेस्ट को समझना ज़्यादा मुश्किल होता है. रैंडम फ़ॉरेस्ट इसमें बेतरतीब शोर के साथ ट्रेन किए गए डिसिज़न ट्री शामिल होते हैं. इसलिए, यह करना मुश्किल है डिसिज़न ट्री की संरचना पर फ़ैसला लेना. हालांकि, हम यह समझ सकते हैं कि जंगल मॉडल को दिखाया है.

किसी भी जंगल को बनाने का एक तरीका यह है कि डिसिज़न ट्री का इस्तेमाल करता है. क्योंकि रैंडम फ़ॉरेस्ट और CART दोनों हैं की ट्रेनिंग लेने के लिए, एक ही मुख्य एल्गोरिदम का इस्तेमाल किया जाता है, तो वे "एक जैसा ग्लोबल व्यू" शेयर करते हैं का तरीका डेटासेट. यह विकल्प सरल डेटासेट में अच्छी तरह से काम करता है. अब और बेहतर तरीके से समझा जा सकता है.

अलग-अलग अहमियत देना, एक और अच्छा मतलब है अप्रोच का इस्तेमाल करें. उदाहरण के लिए, नीचे दी गई टेबल में इवेंट के वैरिएबल की अहमियत को किसी रैंडम फ़ॉरेस्ट मॉडल के लिए अलग-अलग सुविधाएँ दी गई हैं. सेंसस डेटासेट (साथ ही जिसे वयस्क के नाम से जाना जाता है).

टेबल 8. 14 अलग-अलग सुविधाओं की अहमियत.

सुविधा कुल स्कोर सटीक होने में औसत कमी AUC में औसत कमी औसत कम से कम गहराई नोड की संख्या PR-AUC में औसत कमी रूट के तौर पर नंबर
संबंध

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

capital_gain

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

उम्र

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

education

2015905.4

0.0018

-0.0080 तक

5.266

115751

0.0129

205

पेशा

1939409.3

0.0063

0.0040 से

5.017

221935

0.0060

62

education_num

1673648.4

0.0023

0.0066

6.009

58303

-0.0080 तक

197

fnlwgt

1564189.0

-0.0002

0.0038

9.969

431987

0.0049 से

0

hours_per_week

1333976.3

0.0030

0.0007

6.393

206526

-0.0031 तक

20

capital_loss

866863.8

0.0060 के बराबर

0.0020

8.076

58531

0.0118

1

वर्क क्लास

644208.4

0.0025

0.0019

9.898

132196

0.0023

0

native_country

538841.2

0.0001

0.0016

9.434

67211

0.0058 तक

0

लिंग

226049.3

0.0002

0.0002

10.911

37754

-0.0011 तक

13

नस्ल

16,8180.9

-0.0006

-0.0004

11.571

42262

-0.0031 तक

0

जैसा कि आपने देखा, वैरिएबल के महत्व की अलग-अलग परिभाषाओं के पैमाने अलग-अलग होते हैं साथ ही, इससे सुविधाओं की रैंकिंग में अंतर आ सकता है.

मॉडल संरचना से मिलने वाली वैरिएबल वैल्यू. उदाहरण के लिए, योग स्कोर, कम से कम गहराई का माध्य, ऊपर दी गई टेबल में मौजूद रूट की संख्या, और संख्या डिसिज़न ट्री के लिए इसी तरह कंप्यूट किया गया ("कार्ट | वैरिएबल की अहमियत" सेक्शन देखें) और जंगलों को समझकर

पर्म्यूटेशन वैरिएबल का महत्व (उदाहरण के लिए, {accucy, auc, ऊपर दी गई टेबल में pr-auc} तक के लिए) पुष्टि करने वाले डेटासेट के साथ कोई भी मशीन लर्निंग मॉडल होता है. रैंडम फ़ॉरेस्ट के साथ, हालांकि, पुष्टि करने वाले डेटासेट का इस्तेमाल करने के बजाय, क्रम में बदलाव करने की वैल्यू का पता लगाया जा सकता है की अहमियत को बताता है.

SHAP (SHapley Additive exPlanations) एक मॉडल ऐग्नोस्टिक तरीका है, जिससे अलग-अलग अनुमानों या मॉडल के हिसाब से व्याख्या करने में मदद कर सकता है. (देखें मशीन लर्निंग की मदद से समझना मॉडल अग्नोस्टिक की व्याख्या करने के बारे में बताती हैं.) SHAP है आम तौर पर तुलना करना महंगा होता है, लेकिन काफ़ी तेज़ी से आगे बढ़ते हैं इसलिए, डिसिज़न फॉरेस्ट को समझने का यह अच्छा तरीका है.

इस्तेमाल का उदाहरण

पिछले लेसन में, हमने एक छोटे डेटासेट पर CART डिसीज़न ट्री को ट्रेनिंग दी tfdf.keras.CartModel पर कॉल करके. किसी रैंडम फ़ॉरेस्ट मॉडल को ट्रेनिंग देने के लिए, बस tfdf.keras.CartModel को tfdf.keras.RandomForestModel से बदल दें:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

फ़ायदे और नुकसान

इस सेक्शन में बिना किसी क्रम के जंगलों के फ़ायदे और नुकसान के बारे में खास जानकारी दी गई है.

फ़ायदे:

  • डिसिज़न ट्री की तरह, रैंडम फ़ॉरेस्ट, नेटिव तौर पर अंकों वाली संख्या और कैटगरी से जुड़ी सुविधाओं का इस्तेमाल करती हैं और अक्सर इन सुविधाओं को प्री-प्रोसेस करने की ज़रूरत नहीं होती.
  • डिसिज़न ट्री स्वतंत्र होते हैं, इसलिए रैंडम फ़ॉरेस्ट को साथ-साथ. इस तरह, किसी भी क्रम में लगे जंगल को तुरंत ट्रेनिंग दी जा सकती है.
  • रैंडम फ़ॉरेस्ट में डिफ़ॉल्ट पैरामीटर होते हैं जो अक्सर सबसे अच्छे नतीजे देते हैं. ट्यूनिंग इन पैरामीटर का मॉडल पर अक्सर ज़्यादा असर नहीं पड़ता है.

नुकसान:

  • डिसिज़न ट्री की काट-छांट नहीं की जाती, इसलिए वे बड़े हो सकते हैं. ज़्यादा के साथ मॉडल आम तौर पर, 10 लाख से ज़्यादा नोड होते हैं. इसका साइज़ (इसलिए, अनुमान की स्पीड) कभी-कभी जंगल में होने की वजह से भी समस्या हो सकती है.
  • रैंडम फ़ॉरेस्ट, अंदरूनी प्रज़ेंटेशन को नहीं सीख सकते और न ही उनका फिर से इस्तेमाल कर सकते हैं. हर डिसिज़न ट्री (और हर डिसिज़न ट्री की हर ब्रांच) को डेटासेट पैटर्न. कुछ डेटासेट में, खास तौर पर बिना टेबल वाले डेटासेट (जैसे कि इमेज, टेक्स्ट) से कम नतीजे मिलते हैं, तो इससे किसी भी फ़ॉर्मैट में जंगलों को खराब नतीजे मिलते हैं.