這個單元將探討下列主題:
- 解讀隨機樹系
- 訓練隨機樹系
- 隨機森林的優缺點
解讀隨機樹系
隨機樹係比決策樹更複雜。隨機森林 含有隨機雜訊訓練的決策樹因此更難 在決策樹結構上做出決定。不過,我們可以 將近 5.0 億個資料集
解讀隨機樹系的方法之一就是 決策樹狀圖。因為隨機樹系和 CART 使用相同的核心演算法訓練而成,因此可以「共用相同的全域視圖」的 這個選項適用於簡單的資料集,並瞭解 模型的整體解釋
變數重要性是另一個良好的可解釋性 。舉例來說,下表針對 隨機的樹系模型 人口普查資料集 (以及 也就是成人)。
表 8.14 種不同特徵的變數重要性。 ,瞭解如何調查及移除這項存取權。
功能 | 總分 | 準確度平均降低 | AUC 的平均降低 | 平均深度下限 | 節點數 | PR-AUC 平均降低 | 數字做為根 |
---|---|---|---|---|---|---|---|
關係 | 4203592.6 |
$0.0045 美元 |
0.0172 版 |
4.970 美元 |
57040 |
$0.0093 美元 |
1095 |
capital_gain | 3363045.1 |
$0.0199 美元 |
0.0194 年 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 美元 |
0.0230 年 |
6.633 |
52391 |
0.0107 年 |
750 |
年齡 | 2520658.8 |
$0.0065 美元 |
0.0074 美元 |
4.969 美元 |
356784 |
0.0033 美元 |
200 |
教育 | 2015905.4 |
0.0018 美元 |
-0.0080 |
5 月 266 日 |
115751 |
10 月 129 日 |
205 |
職業 | 1939409.3 |
0.0063 版 |
-0.0040 |
5 月 17 日 |
221935 |
-0.0060 |
62 |
education_num | 1673648.4 |
0.0023 年 |
-0.0066 |
6.009 美元 |
58303 |
-0.0080 |
197 |
fnlwgt | 1564189.0 |
0.0002 年 |
0.0038 年 |
9.969 人 |
431987 |
-0.0049 |
0 |
hours_per_week | 1333976.3 |
$0.0030 美元 |
0.0007 美元 |
6.393 |
206526 |
0.0031 年 |
20 |
capital_loss | 866863.8 |
$0.0060 美元 |
2020 年 1 月 |
8.076 |
58531 |
0.0118 美元 |
1 |
Workclass | 644208.4 |
0.0025 |
0.0019 年 |
9.898 人 |
132196 |
2023 年 0 月 |
0 |
native_country | 538841.2 |
0.0001 美元 |
0.0016 年 |
9.434 |
67211 |
-0.0058 |
0 |
性別 | 226049.3 |
0.0002 美元 |
0.0002 美元 |
10.911 美元 |
37754 |
0.0011 年 |
13 |
種族 | 168180.9 美元 |
-0.0006 |
-0.0004 人 |
11:571 |
42262 |
0.0031 年 |
0 |
如您所見,不同的變數重要性定義有不同的量表 進而導致特徵排名出現差異
來自模型結構的變數重要性 (例如 分數、平均深度、節點數,以及上表中的根數) 為 以類似方式計算決策樹 (請參閱「購物車 | 變數重要性」一節) 和隨機樹系
組合變數重要性 (例如,{accuracy、auc、 pr-auc} (上表) 是各模型通用的測量措施 找出所有包含驗證資料集的機器學習模型隨著隨機森林 然而,如果不使用驗證資料集,您可以計算排列 並透過非包容評估功能評估變數重要性
SHAP (SHapley 添加型 exPlanations) 是一種跨模型方法,適用於 解釋個別預測結果或模型結構解釋(詳情請參閱 可解釋的機器學習 。SHAP 為 一般的運算成本高昂 大幅加快 所以這是解讀 決策樹的好方法
使用範例
在上一堂課中,我們使用一個小型資料集訓練了 CART 決策樹狀圖
呼叫 tfdf.keras.CartModel
。如要訓練隨機森林模型
只要將 tfdf.keras.CartModel
替換為 tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
優缺點
本節提供隨機樹系的優缺點。
優點:
- 就像決策樹一樣,隨機森林支援原生數值, 而且通常不需要預先處理特徵。
- 由於決策樹是獨立的,因此可以用 平行。因此,您可以快速訓練隨機森林。
- 隨機樹系擁有預設參數通常可提供絕佳結果。調整 這些參數對模型的影響通常很小
缺點:
- 決策樹並未修剪,因此可以很大。包含更多模型的模型 通常超過 100 萬個節點容器的大小 (以及推論速度) 有時也會造成問題
- 隨機樹系無法學習並重複使用內部表示法。每項 決策樹狀圖 (以及每個決策樹狀圖的各個分支版本) 必須重新學習 資料集模式在部分資料集中,特別是非表格式資料集 (例如圖像、 這會導致隨機樹系產生比其他方法更糟的結果。