本頁面由 Cloud Translation API 翻譯而成。

其他主題

這個單元將探討下列主題：

解讀隨機樹系

隨機樹係比決策樹更複雜。隨機森林含有隨機雜訊訓練的決策樹因此更難在決策樹結構上做出決定。不過，我們可以將近 5.0 億個資料集

解讀隨機樹系的方法之一就是決策樹狀圖。因為隨機樹系和 CART 使用相同的核心演算法訓練而成，因此可以「共用相同的全域視圖」的這個選項適用於簡單的資料集，並瞭解模型的整體解釋

變數重要性是另一個良好的可解釋性。舉例來說，下表針對隨機的樹系模型人口普查資料集 (以及也就是成人)。

表 8.14 種不同特徵的變數重要性。 ，瞭解如何調查及移除這項存取權。

功能	總分	準確度平均降低	AUC 的平均降低	平均深度下限	節點數	PR-AUC 平均降低	數字做為根
關係	4203592.6	$0.0045 美元	0.0172 版	4.970 美元	57040	$0.0093 美元	1095
capital_gain	3363045.1	$0.0199 美元	0.0194 年	2.852	56468	0.0655	457
marital_status	3128996.3	0.0018 美元	0.0230 年	6.633	52391	0.0107 年	750
年齡	2520658.8	$0.0065 美元	0.0074 美元	4.969 美元	356784	0.0033 美元	200
教育	2015905.4	0.0018 美元	-0.0080	5 月 266 日	115751	10 月 129 日	205
職業	1939409.3	0.0063 版	-0.0040	5 月 17 日	221935	-0.0060	62
education_num	1673648.4	0.0023 年	-0.0066	6.009 美元	58303	-0.0080	197
fnlwgt	1564189.0	0.0002 年	0.0038 年	9.969 人	431987	-0.0049	0
hours_per_week	1333976.3	$0.0030 美元	0.0007 美元	6.393	206526	0.0031 年	20
capital_loss	866863.8	$0.0060 美元	2020 年 1 月	8.076	58531	0.0118 美元	1
Workclass	644208.4	0.0025	0.0019 年	9.898 人	132196	2023 年 0 月	0
native_country	538841.2	0.0001 美元	0.0016 年	9.434	67211	-0.0058	0
性別	226049.3	0.0002 美元	0.0002 美元	10.911 美元	37754	0.0011 年	13
種族	168180.9 美元	-0.0006	-0.0004 人	11:571	42262	0.0031 年	0

如您所見，不同的變數重要性定義有不同的量表進而導致特徵排名出現差異

來自模型結構的變數重要性 (例如分數、平均深度、節點數，以及上表中的根數) 為以類似方式計算決策樹 (請參閱「購物車 | 變數重要性」一節) 和隨機樹系

組合變數重要性 (例如，{accuracy、auc、 pr-auc} (上表) 是各模型通用的測量措施找出所有包含驗證資料集的機器學習模型隨著隨機森林然而，如果不使用驗證資料集，您可以計算排列並透過非包容評估功能評估變數重要性

SHAP (SHapley 添加型 exPlanations) 是一種跨模型方法，適用於解釋個別預測結果或模型結構解釋(詳情請參閱可解釋的機器學習。SHAP 為一般的運算成本高昂大幅加快所以這是解讀決策樹的好方法

在上一堂課中，我們使用一個小型資料集訓練了 CART 決策樹狀圖呼叫 tfdf.keras.CartModel。如要訓練隨機森林模型只要將 tfdf.keras.CartModel 替換為 tfdf.keras.RandomForestModel：

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

本節提供隨機樹系的優缺點。

優點：

缺點：

決策樹並未修剪，因此可以很大。包含更多模型的模型通常超過 100 萬個節點容器的大小 (以及推論速度) 有時也會造成問題
隨機樹系無法學習並重複使用內部表示法。每項決策樹狀圖 (以及每個決策樹狀圖的各個分支版本) 必須重新學習資料集模式在部分資料集中，特別是非表格式資料集 (例如圖像、這會導致隨機樹系產生比其他方法更糟的結果。