其他主題

這個單元將探討下列主題:

  • 解讀隨機樹系
  • 訓練隨機樹系
  • 隨機森林的優缺點

解讀隨機樹系

隨機樹係比決策樹更複雜。隨機森林 含有隨機雜訊訓練的決策樹因此更難 在決策樹結構上做出決定。不過,我們可以 將近 5.0 億個資料集

解讀隨機樹系的方法之一就是 決策樹狀圖。因為隨機樹系和 CART 使用相同的核心演算法訓練而成,因此可以「共用相同的全域視圖」的 這個選項適用於簡單的資料集,並瞭解 模型的整體解釋

變數重要性是另一個良好的可解釋性 。舉例來說,下表針對 隨機的樹系模型 人口普查資料集 (以及 也就是成人)。

表 8.14 種不同特徵的變數重要性。 ,瞭解如何調查及移除這項存取權。

功能 總分 準確度平均降低 AUC 的平均降低 平均深度下限 節點數 PR-AUC 平均降低 數字做為根
關係

4203592.6

$0.0045 美元

0.0172 版

4.970 美元

57040

$0.0093 美元

1095

capital_gain

3363045.1

$0.0199 美元

0.0194 年

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018 美元

0.0230 年

6.633

52391

0.0107 年

750

年齡

2520658.8

$0.0065 美元

0.0074 美元

4.969 美元

356784

0.0033 美元

200

教育

2015905.4

0.0018 美元

-0.0080

5 月 266 日

115751

10 月 129 日

205

職業

1939409.3

0.0063 版

-0.0040

5 月 17 日

221935

-0.0060

62

education_num

1673648.4

0.0023 年

-0.0066

6.009 美元

58303

-0.0080

197

fnlwgt

1564189.0

0.0002 年

0.0038 年

9.969 人

431987

-0.0049

0

hours_per_week

1333976.3

$0.0030 美元

0.0007 美元

6.393

206526

0.0031 年

20

capital_loss

866863.8

$0.0060 美元

2020 年 1 月

8.076

58531

0.0118 美元

1

Workclass

644208.4

0.0025

0.0019 年

9.898 人

132196

2023 年 0 月

0

native_country

538841.2

0.0001 美元

0.0016 年

9.434

67211

-0.0058

0

性別

226049.3

0.0002 美元

0.0002 美元

10.911 美元

37754

0.0011 年

13

種族

168180.9 美元

-0.0006

-0.0004 人

11:571

42262

0.0031 年

0

如您所見,不同的變數重要性定義有不同的量表 進而導致特徵排名出現差異

來自模型結構的變數重要性 (例如 分數、平均深度、節點數,以及上表中的根數) 為 以類似方式計算決策樹 (請參閱「購物車 | 變數重要性」一節) 和隨機樹系

組合變數重要性 (例如,{accuracy、auc、 pr-auc} (上表) 是各模型通用的測量措施 找出所有包含驗證資料集的機器學習模型隨著隨機森林 然而,如果不使用驗證資料集,您可以計算排列 並透過非包容評估功能評估變數重要性

SHAP (SHapley 添加型 exPlanations) 是一種跨模型方法,適用於 解釋個別預測結果或模型結構解釋(詳情請參閱 可解釋的機器學習 。SHAP 為 一般的運算成本高昂 大幅加快 所以這是解讀 決策樹的好方法

使用範例

在上一堂課中,我們使用一個小型資料集訓練了 CART 決策樹狀圖 呼叫 tfdf.keras.CartModel。如要訓練隨機森林模型 只要將 tfdf.keras.CartModel 替換為 tfdf.keras.RandomForestModel

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

優缺點

本節提供隨機樹系的優缺點。

優點:

  • 就像決策樹一樣,隨機森林支援原生數值, 而且通常不需要預先處理特徵。
  • 由於決策樹是獨立的,因此可以用 平行。因此,您可以快速訓練隨機森林。
  • 隨機樹系擁有預設參數通常可提供絕佳結果。調整 這些參數對模型的影響通常很小

缺點:

  • 決策樹並未修剪,因此可以很大。包含更多模型的模型 通常超過 100 萬個節點容器的大小 (以及推論速度) 有時也會造成問題
  • 隨機樹系無法學習並重複使用內部表示法。每項 決策樹狀圖 (以及每個決策樹狀圖的各個分支版本) 必須重新學習 資料集模式在部分資料集中,特別是非表格式資料集 (例如圖像、 這會導致隨機樹系產生比其他方法更糟的結果。