本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙解釋：Decision Forest

本頁包含 Decision Forest 詞彙詞彙。如需所有詞彙表字詞，請按這裡。

A

屬性取樣

#df

訓練決策樹的策略。在學習條件時，每個決策樹只會隨機考量一組可能的特徵。一般來說，系統會針對每個節點取樣不同的特徵子集。相對地，若在沒有屬性取樣的情況下訓練決策樹，每個節點都會考慮所有可能的特徵。

軸對齊條件

#df

在決策樹狀圖中，這是僅包含單一功能的條件。舉例來說，如果區域是地圖項目，則以下為軸對齊的條件：

area > 200

與義務條件對比。

B

行李

#df

訓練模型的方法，讓每個組成元素的模型隨機子集訓練範例使用替換項目取樣。舉例來說，「隨機樹系」是一組經過包裝訓練的決策樹。

「baging」一詞是「bootstrap agg」的英文縮寫。

二進位條件

#df

在決策樹狀圖中，這個條件只有兩個可能的結果，通常為「yes」或「no」。例如，以下是二元條件：

temperature >= 100

與非二元條件之間的對比。

C

狀況

#df

在決策樹狀圖中，評估運算式的任何節點。例如，以下決策樹狀圖的以下部分包含兩個條件：

條件也稱為分割或測試。

使用樹葉的對比條件。

另請參閱：

二元條件

非二元條件。

軸對齊條件

Oblique-condition

D

決策森林

#df

依據多個決策樹狀圖建立的模型。決策樹會匯總決策樹的預測結果來進行預測。常見的決策樹類型包括隨機森林和梯度強化樹。

決策樹狀圖

#df

監督式學習模型是由一組按階層分類的conditions和conditions組成。舉例來說，以下是決策樹狀圖：

E

熵

#df

在資訊理論中，說明無法預測的機率分佈情形。此外，熵的定義是每個 example 中包含的資訊量。當隨機變數的所有值都相等時，分佈具有最高的熵。

組合具有兩個可能值「0」和「1」(例如二進位分類問題中的標籤) 的熵含有以下公式：

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中：

H 是熵。

p 是「1」範例的分數。

q 是「0」範例的分數。請注意，q = (1 - p)

log 通常是記錄₂。在這個例子中，熵單位有點

舉例來說，假設：

100 份範例含有值「1」

共有 300 個範例包含值「0」

因此，熵值如下：

p = 0.25

q = 0.75

H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 每例 0.81 位元

如果是完美平衡的集合 (例如 200 "0" 和 200 "1"s)，則每個範例的熵為 1.0 位元。隨著集合變得更加不平衡，熵就會朝 0.0 移動。

在決策樹狀圖中，熵有助於構思資訊獲得，協助分割在分類決策樹成長期間選取條件。

比較熵與

不透明

交叉熵損失函式

熵通常稱為香農的熵。

F

特徵重要性

#df

變數重要性的同義詞。

G

Gini 心靈純粹

#df

與熵類似的指標。分割器會使用衍生自 Gini 虛設或熵的值，組合用於分類決策樹狀圖的條件。「資訊利益」衍生自熵。針對由 gini 錯誤衍生的指標，並沒有普遍接受的對等字詞；然而，這個未命名的指標就和資訊增益一樣重要。

吉尼定向也稱為「gini 索引」或直接稱為 gini。

如要查看吉尼不純度的數學詳細資料，請按一下這個圖示。

不理想的情況是將相同分佈資料中的新資料分類錯誤分類的機率。具有兩個可能值「0」和「1」 (例如「二進位分類」問題中的標籤) 的 Gini 錯誤值是根據下列公式計算而得：

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

其中：

I 是尖銳之分。

p 是「1」範例的分數。

q 是「0」範例的分數。請注意，q = 1-p

例如，請思考下列資料集：

100 個標籤 (資料集的 0.25) 含有值「1」

300 個標籤 (資料集為 0.75) 包含值「0」

因此，吉尼的重點如下：

p = 0.25

q = 0.75

I = 1 - (0.25² + 0.75²) = 0.375

因此，來自相同資料集的隨機標籤會有 37.5% 的機率被分類錯誤，而正確分類的機率為 62.5%。

完美平衡的標籤 (例如 200 "0" 和 200 "1s) 的吉尼度為 0.5。高度不平衡的標籤，其細微程度會趨近 0.0。

增強 (決策) 樹 (GBT)

#df

一種決策樹，其中：

「訓練」需要仰賴梯度提升。

弱模型就是決策樹狀圖。

梯度強化

#df

訓練演算法時，系統會將低強度模型經過訓練，以反覆的方式改善高強度模型的品質 (減少損失)。舉例來說，弱模型可以是線性或小型決策樹模型。成效良好的模型會成為先前訓練過的所有弱模型總和。

在最簡單的梯度增強形式中，每次疊代時，系統都會訓練低強度模型來預測強大模型的損失梯度。接著，透過減去預測的梯度 (類似梯度下降法)，更新高強度模型的輸出內容。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中：

$F_{0}$ 是啟動的強效模式。

$F_{i+1}$ 是下一個強大的模型。

$F_{i}$ 是目前運作強的模型。

$\xi$ 是介於 0.0 和 1.0 之間的值，稱為「shrinkage」，與梯度下降法中的學習率相似。

$f_{i}$ 是經過訓練且預測 $F_{i}$ 損失梯度的弱模型。

現代的梯度增強變化也包括運算損失的第二個衍生詞 (黑森語)。

決策樹狀圖 在梯度提升中最常用來當做弱勢模型。請參閱梯度強化 (決策) 樹狀結構。

I

推論路徑

#df

在決策樹狀圖中，在推論期間，特定範例從根通往其他條件，就會終止分葉。舉例來說，在下列決策樹狀圖中，較深的箭頭顯示具有以下特徵值的範例的推論路徑：

x = 7

y = 12

z = -3

下圖中的推論路徑會經過三個條件，然後到達樹葉 (Zeta)。

三個粗箭頭代表推論路徑。

資訊增加

#df

在「決策樹」中，節點的熵與其子項節點的熵總和之間的差距。節點的熵是該節點範例的熵

舉例來說，請考慮使用以下熵值：

父項節點的熵 = 0.6

16 個相關範例 = 1 個子項節點的熵 = 0.2

另一個子項節點的熵含有 24 個相關範例 = 0.1

因此 40% 的範例位於一個子節點，60% 則位於另一個子節點。因此：

子項節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此，這些資訊可提升：

資訊增益 = 父項節點的熵 - 子項節點的加權熵總和

資訊增益 = 0.6 - 0.14 = 0.46

大多數「分割器」都會尋求建立能最大化資訊增益的條件。

設定條件

#df

在決策樹狀圖中，此條件會測試一組項目是否包含某個項目。舉例來說，以下是內插條件：

house-style in [tudor, colonial, cape]

在推論期間，如果房屋樣式 feature 的值為 tudor、colonial 或 cape，則此條件評估為是。如果房屋樣式地圖項目的值是其他值 (例如 ranch)，則這項條件評估結果為「否」。

與測試 one-hot 編碼功能的條件相比，配置條件通常會帶來更有效率的決策樹狀圖。

L

葉子

#df

決策樹狀結構中的任何端點。與條件不同，分葉不會執行測試。樹葉是可能的預測結果。葉子也是推論路徑的終端機節點。

舉例來說，以下決策樹狀圖含有三個葉子：

N

節點 (決策樹狀圖)

#df

在「決策樹狀圖」中，任何條件或分葉。

非二元條件

#df

包含超過兩個可能結果的條件。例如，以下非二元條件包含三個可能的結果：

O

斜率條件

#df

在決策樹狀圖中，這個條件包含多項「功能」。舉例來說，如果高度和寬度是兩個地圖項目，則以下為斜率條件：

height > width

該對比與軸對齊的條件。

包包外評估 (OOB 評估)

#df

評估決策樹品質的機制，方法是測試每個決策樹與決策樹狀結構訓練期間使用的範例。例如，在下圖中，請注意，系統會用大約三分之二的範例來訓練每個決策樹，然後依據其餘範例的三分之一進行評估。

包量評估是一種運算效率且保守的交叉驗證機制的運算效率。在交叉驗證中，系統會針對每個交叉驗證回合訓練一個模型 (例如，10 個模型是以 10 個折疊的交叉驗證方式進行訓練)。完成 OOB 評估後，系統會訓練單一模型。由於封裝會在訓練期間保留每個樹狀結構的部分資料，因此 OOB 評估功能可以使用該資料來估算交叉驗證。

P

排列變數重要性

#df

一種變數重要性，用於評估在排列地圖項目值「之後」，模型預測錯誤增加的情況。排列變數重要性是與模型無關的指標。

R

隨機森林

#df

由決策樹組成的聚合樹，每個決策樹都會以特定隨機雜訊訓練，例如「包裝」。

隨機森林是一種決策樹。

根號

#df

起始節點 (第一個條件) (位於決策樹狀結構中)。按照慣例，圖表會將根層級置於決策樹的頂端。例如：

六

取樣和替代品

#df

從一組候選項目中挑選項目的方法，可以多次選取相同的項目。「需替換」詞組代表每次選取後，系統都會將所選項目傳回候選項目集區。反之，取樣且不含替換項目，表示每個候選項目只能挑選一次。

以下列水果組為例：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統隨機選擇 fig 做為第一個項目。如果使用取樣和取代功能，系統會從以下組合中選取第二個項目：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是，這與之前相同，因此系統可能會再次選擇 fig。

如果使用取樣時未替換，則選取後就無法再次選擇樣本。舉例來說，如果系統隨機選擇 fig 做為第一個樣本，則無法再次選擇 fig。因此，系統會從下列 (經過簡化) 組合中選取第二個樣本：

fruit = {kiwi, apple, pear, cherry, lime, mango}

按一下圖示即可查看更多附註。

取樣與替換字詞中的「替換」一詞會讓許多人混淆。英文的「replacement」指「substitution」。不過，對替換程式碼進行取樣實際上會使用法文定義來「取代」，也就是「傳回項目」。

英文字詞 replacement 會翻譯為法文字詞 remplacement。

收縮

#df

控制過度配適的梯度強化中的超參數。梯度提升中的縮小與梯度下降法中的學習率相似。縮小是介於 0.0 和 1.0 之間的小數值。縮減值會降低過度配適程度，過度縮減大小。

分割

#df

在「決策樹狀圖」中，另一個條件的名稱。

分割器

#df

訓練決策樹狀圖時，負責在每個節點中找出最佳條件的常規 (和演算法)。

T

test

#df

在「決策樹狀圖」中，另一個條件的名稱。

門檻 (適用於決策樹狀圖)

#df

在軸對齊條件中，用來比較特徵的值。舉例來說，75 是下列條件中的門檻值：

grade >= 75

這種形式的門檻與分類門檻不同。

V

變數重要性

#df

一組分數，指出每個功能與模型的相對重要性。

舉例來說，假設使用決策樹狀圖來估算房屋價格。假設這個決策樹狀圖使用三種特徵：尺寸、年齡和樣式。如果將三個地圖項目的變數重要性組合計算為 {size=5.8, age=2.5, style=4.7}，那麼大小在決策樹狀圖中的重要性就不是年齡或樣式。

存在不同的變數重要性指標，可讓機器學習專家瞭解模型的不同層面。

三

群眾的智慧

#df

將一大群人 (即「人群」) 的意見或預估值平均產生出令人意想不到的結果。舉例來說，假設遊戲玩家猜測出裝入大型罐子中的果凍豆數量。雖然大多數人的猜測都不正確，但所有猜測的平均值都明顯地接近罐子裡的實際含糖豆數量，出奇地想不到。

Ensembles 是群眾智慧的軟體類比，即使個別模型的預測可能不準確，但將許多模型的預測結果平均會產生意料之外的預測結果。舉例來說，雖然個別決策樹狀圖的預測品質不佳，但決策樹通常都能做出非常良好的預測。