機器學習詞彙解釋:Decision Forest

本頁包含 Decision Forest 詞彙詞彙。如需所有詞彙表字詞,請按這裡

A

屬性取樣

#df

訓練決策樹的策略。在學習條件時,每個決策樹只會隨機考量一組可能的特徵一般來說,系統會針對每個節點取樣不同的特徵子集。相對地,若在沒有屬性取樣的情況下訓練決策樹,每個節點都會考慮所有可能的特徵。

軸對齊條件

#df

決策樹狀圖中,這是僅包含單一功能條件。舉例來說,如果區域是地圖項目,則以下為軸對齊的條件:

area > 200

義務條件對比。

B

行李

#df

訓練 模型的方法,讓每個組成元素的模型隨機子集訓練範例使用替換項目取樣。舉例來說,「隨機樹系」是一組經過包裝訓練的決策樹

「baging」一詞是「bootstrap agg」的英文縮寫。

二進位條件

#df

決策樹狀圖中,這個條件只有兩個可能的結果,通常為「yes」或「no」。例如,以下是二元條件:

temperature >= 100

非二元條件之間的對比。

C

狀況

#df

決策樹狀圖中,評估運算式的任何節點。例如,以下決策樹狀圖的以下部分包含兩個條件:

包含兩個條件的決策樹狀圖:(x > 0) 和 (y > 0)。

條件也稱為分割或測試。

使用樹葉的對比條件。

另請參閱:

D

決策森林

#df

依據多個決策樹狀圖建立的模型。 決策樹會匯總決策樹的預測結果來進行預測。常見的決策樹類型包括隨機森林梯度強化樹

決策樹狀圖

#df

監督式學習模型是由一組按階層分類的conditionsconditions組成。舉例來說,以下是決策樹狀圖:

由四個條件式排列的決策樹狀圖,可分成五葉。

E

#df

資訊理論中,說明無法預測的機率分佈情形。此外,熵的定義是每個 example 中包含的資訊量。當隨機變數的所有值都相等時,分佈具有最高的熵。

組合具有兩個可能值「0」和「1」(例如二進位分類問題中的標籤) 的熵含有以下公式:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」範例的分數。
  • q 是「0」範例的分數。請注意,q = (1 - p)
  • log 通常是記錄2。在這個例子中,熵單位有點

舉例來說,假設:

  • 100 份範例含有值「1」
  • 共有 300 個範例包含值「0」

因此,熵值如下:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每例 0.81 位元

如果是完美平衡的集合 (例如 200 "0" 和 200 "1"s),則每個範例的熵為 1.0 位元。隨著集合變得更加不平衡,熵就會朝 0.0 移動。

決策樹狀圖中,熵有助於構思資訊獲得,協助分割在分類決策樹成長期間選取條件

比較熵與

熵通常稱為香農的熵。

F

特徵重要性

#df

變數重要性的同義詞。

G

Gini 心靈純粹

#df

類似的指標。分割器會使用衍生自 Gini 虛設或熵的值,組合用於分類決策樹狀圖條件。「資訊利益衍生自熵。 針對由 gini 錯誤衍生的指標,並沒有普遍接受的對等字詞;然而,這個未命名的指標就和資訊增益一樣重要。

吉尼定向也稱為「gini 索引」或直接稱為 gini

增強 (決策) 樹 (GBT)

#df

一種決策樹,其中:

梯度強化

#df

訓練演算法時,系統會將低強度模型經過訓練,以反覆的方式改善高強度模型的品質 (減少損失)。舉例來說,弱模型可以是線性或小型決策樹模型。成效良好的模型會成為先前訓練過的所有弱模型總和。

在最簡單的梯度增強形式中,每次疊代時,系統都會訓練低強度模型來預測強大模型的損失梯度。接著,透過減去預測的梯度 (類似梯度下降法),更新高強度模型的輸出內容。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是啟動的強效模式。
  • $F_{i+1}$ 是下一個強大的模型。
  • $F_{i}$ 是目前運作強的模型。
  • $\xi$ 是介於 0.0 和 1.0 之間的值,稱為「shrinkage,與梯度下降法中的學習率相似。
  • $f_{i}$ 是經過訓練且預測 $F_{i}$ 損失梯度的弱模型。

現代的梯度增強變化也包括運算損失的第二個衍生詞 (黑森語)。

決策樹狀圖 在梯度提升中最常用來當做弱勢模型。請參閱梯度強化 (決策) 樹狀結構

I

推論路徑

#df

決策樹狀圖中,在推論期間,特定範例通往其他條件,就會終止分葉舉例來說,在下列決策樹狀圖中,較深的箭頭顯示具有以下特徵值的範例的推論路徑:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑會經過三個條件,然後到達樹葉 (Zeta)。

包含四個條件和五個葉子的決策樹狀圖。根條件為 (x > 0)。由於答案是「是」,推論路徑會從根目錄到下一個條件 (y > 0)。由於答案是「是」,推論路徑接下來會進入下一個條件 (z > 0)。由於答案是否,推論路徑會前往其端子節點,也就是葉子 (Zeta)。

三個粗箭頭代表推論路徑。

資訊增加

#df

「決策樹」中,節點的與其子項節點的熵總和之間的差距。節點的熵是該節點範例的熵

舉例來說,請考慮使用以下熵值:

  • 父項節點的熵 = 0.6
  • 16 個相關範例 = 1 個子項節點的熵 = 0.2
  • 另一個子項節點的熵含有 24 個相關範例 = 0.1

因此 40% 的範例位於一個子節點,60% 則位於另一個子節點。因此:

  • 子項節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,這些資訊可提升:

  • 資訊增益 = 父項節點的熵 - 子項節點的加權熵總和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大多數「分割器」都會尋求建立能最大化資訊增益的條件

設定條件

#df

決策樹狀圖中,此條件會測試一組項目是否包含某個項目。舉例來說,以下是內插條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式 feature 的值為 tudorcolonialcape,則此條件評估為是。如果房屋樣式地圖項目的值是其他值 (例如 ranch),則這項條件評估結果為「否」。

與測試 one-hot 編碼功能的條件相比,配置條件通常會帶來更有效率的決策樹狀圖。

L

葉子

#df

決策樹狀結構中的任何端點。與條件不同,分葉不會執行測試。樹葉是可能的預測結果。葉子也是推論路徑的終端機節點

舉例來說,以下決策樹狀圖含有三個葉子:

包含兩個條件導致三個葉子的決策樹。

N

節點 (決策樹狀圖)

#df

「決策樹狀圖」中,任何條件分葉

包含兩個條件和三個葉子的決策樹。

非二元條件

#df

包含超過兩個可能結果的 條件。例如,以下非二元條件包含三個可能的結果:

觸發三種可能結果的條件 (number_of_legs = ?)。一個結果 (number_of_legs = 8) 會導向名為「蜘蛛」的分葉。第二個結果 (number_of_legs = 4) 會導向名為狗的葉子。第三個結果 (number_of_legs = 2) 會導向名為企鵝的葉子。

O

斜率條件

#df

決策樹狀圖中,這個條件包含多項「功能」舉例來說,如果高度和寬度是兩個地圖項目,則以下為斜率條件:

  height > width

該對比與軸對齊的條件

包包外評估 (OOB 評估)

#df

評估決策樹品質的機制,方法是測試每個決策樹與決策樹狀結構訓練期間使用的範例例如,在下圖中,請注意,系統會用大約三分之二的範例來訓練每個決策樹,然後依據其餘範例的三分之一進行評估。

由三棵決策樹組成的決策樹。其中一個決策樹會根據其中三分之二的樣本進行訓練,接著使用另外三分之一進行 OOB 評估。第二種決策樹狀圖使用前三分之二的樣本來訓練,再用三分之一的 OOB 評估與先前的決策樹狀圖。

包量評估是一種運算效率且保守的交叉驗證機制的運算效率。在交叉驗證中,系統會針對每個交叉驗證回合訓練一個模型 (例如,10 個模型是以 10 個折疊的交叉驗證方式進行訓練)。完成 OOB 評估後,系統會訓練單一模型。由於封裝會在訓練期間保留每個樹狀結構的部分資料,因此 OOB 評估功能可以使用該資料來估算交叉驗證。

P

排列變數重要性

#df

一種變數重要性,用於評估在排列地圖項目值「之後」,模型預測錯誤增加的情況。排列變數重要性是與模型無關的指標。

R

隨機森林

#df

決策樹組成的聚合樹,每個決策樹都會以特定隨機雜訊訓練,例如「包裝」

隨機森林是一種決策樹

根號

#df

起始節點 (第一個條件) (位於決策樹狀結構中)。按照慣例,圖表會將根層級置於決策樹的頂端。例如:

包含兩個條件和三個葉子的決策樹。起始條件 (x > 2) 為根層級。

取樣和替代品

#df

從一組候選項目中挑選項目的方法,可以多次選取相同的項目。「需替換」詞組代表每次選取後,系統都會將所選項目傳回候選項目集區。反之,取樣且不含替換項目,表示每個候選項目只能挑選一次。

以下列水果組為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統隨機選擇 fig 做為第一個項目。如果使用取樣和取代功能,系統會從以下組合中選取第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是,這與之前相同,因此系統可能會再次選擇 fig

如果使用取樣時未替換,則選取後就無法再次選擇樣本。舉例來說,如果系統隨機選擇 fig 做為第一個樣本,則無法再次選擇 fig。因此,系統會從下列 (經過簡化) 組合中選取第二個樣本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收縮

#df

控制過度配適梯度強化中的超參數。梯度提升中的縮小與梯度下降法中的學習率相似。縮小是介於 0.0 和 1.0 之間的小數值。縮減值會降低過度配適程度,過度縮減大小。

分割

#df

「決策樹狀圖」中,另一個條件的名稱。

分割器

#df

訓練決策樹狀圖時,負責在每個節點中找出最佳條件的常規 (和演算法)。

T

test

#df

「決策樹狀圖」中,另一個條件的名稱。

門檻 (適用於決策樹狀圖)

#df

軸對齊條件中,用來比較特徵的值。舉例來說,75 是下列條件中的門檻值:

grade >= 75

V

變數重要性

#df

一組分數,指出每個功能與模型的相對重要性。

舉例來說,假設使用決策樹狀圖來估算房屋價格。假設這個決策樹狀圖使用三種特徵:尺寸、年齡和樣式。如果將三個地圖項目的變數重要性組合計算為 {size=5.8, age=2.5, style=4.7},那麼大小在決策樹狀圖中的重要性就不是年齡或樣式。

存在不同的變數重要性指標,可讓機器學習專家瞭解模型的不同層面。

群眾的智慧

#df

將一大群人 (即「人群」) 的意見或預估值平均產生出令人意想不到的結果。舉例來說,假設遊戲玩家猜測出裝入大型罐子中的果凍豆數量。雖然大多數人的猜測都不正確,但所有猜測的平均值都明顯地接近罐子裡的實際含糖豆數量,出奇地想不到。

Ensembles 是群眾智慧的軟體類比,即使個別模型的預測可能不準確,但將許多模型的預測結果平均會產生意料之外的預測結果。舉例來說,雖然個別決策樹狀圖的預測品質不佳,但決策樹通常都能做出非常良好的預測。