機器學習詞彙解釋:Decision Forest

本頁包含 Decision Forests 詞彙解釋。如要查看所有詞彙解釋,請按這裡

A

屬性取樣

#df

訓練決策樹的策略;每個決策樹在學習條件時,只會考量隨機部分可能的特徵子集。一般來說,系統會針對每個「節點」取樣不同部分的功能。相對地,在不進行屬性取樣的情況下訓練決策樹狀圖時,系統會針對每個節點考慮所有可能的特徵。

以軸對齊的條件

#df

「決策樹狀圖」中,這個條件只包含單一功能,例如,如果區域是地圖項目,則以下是軸對齊的條件:

area > 200

不透明條件的衝突。

B

行李

#df

一種訓練組合的方法,每個連續模型都會以隨機的訓練範例取樣 (採替代形式進行取樣) 訓練。舉例來說,「隨機森林」是一組使用行李訓練的決策樹

「包包」一詞的用意是「超人氣」

二元條件

#df

「決策樹狀圖」中,這個條件只包含兩個可能的結果,通常為 yesno。舉例來說,以下是二元條件:

temperature >= 100

非二元條件相反。

C

狀況

#df

「決策樹狀圖」中,任何評估運算式的「節點」。例如,決策樹狀圖的以下部分包含兩個條件:

包含兩個條件的決策樹狀圖:(x > 0) 和 (y > 0)。

條件也稱為分割或測試。

使用 leaf 屬性的對比條件。

另請參閱:

D

Decis Forest

#df

透過多個決策樹狀圖建立的模型。 決策樹系會匯總其決策樹的預測結果來做出預測。常見的決策樹林類型包括隨機森林梯度提升樹木

決策樹狀圖

#df

由一組按照階層結構排列的conditionsconditions的監督式學習模型。例如,以下是決策樹:

由四個階層組成的決策樹,形成五個葉子。

E

#df

資訊理論中,有難以預測的機率分佈情況的說明。此外,熵也定義為每個 example 包含的資訊量。當隨機變數的所有值都相同時,分佈位置可能會有最高的熵。

如果一組含有兩個可能的值為「0」和「1」(例如二元分類問題中的標籤),其熵內容如下:

  H = -p 記錄 p - q 記錄 q = -p 記錄 p - (1-p) * 記錄 (1 至 p)

其中:

  • H 是熵。
  • p 是「1」範例的分數。
  • q 是「0」樣本的比例。請注意,q = (1 - p)
  • log 一般為 log2。在本例中,熵單位為一點

例如,假設:

  • 100 個範例包含「1」值
  • 有 300 個範例包含「0」值

因此,熵值如下:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每個樣本 0.81 位元

在完美平衡的組合 (例如 200「0」與 200「1」) 中,每個樣本的熵上限均為 1.0 位元。一組內容的「不平衡」變為 0.0。

「決策樹」中,熵會協助制定資訊增益,協助拆分工具在拓展分類決策樹狀圖期間選取條件

比較熵與:

熵通常稱為 Shannon 的熵。

F

特徵重要性

#df

變動重要性的同義詞。

G

吉尼無力

#df

類似的指標。分裂器使用從 gini 無害或熵衍生的值,來撰寫用於分類決策樹條件資訊增益取自資訊熵。至於從 Gini 為何衍生的指標,並沒有普遍接受的同等術語;但是,這個未命名指標就和資訊增長一樣重要。

Gini 不適當的也叫做 gini 索引,或稱為 gini

梯度提升 (決策) 樹狀結構 (GBT)

#df

決策樹的類型,其中:

漸層增強

#df

訓練演算法,弱勢模型經過訓練,可反覆訓練,藉此改善強式模型的品質 (減少損失)。例如,低強度模型可以是線性或小型決策樹狀模型。高強度模型會成為先前訓練過的弱式模型總和。

在最簡單的梯度提升形式中,系統會在每次疊代時訓練模型,以預測強式模型的損失漸層。接著,系統會減去預測的漸層,以更新強式模型的輸出內容,與梯度下降法類似。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是最初的強大模式。
  • $F_{i+1}$ 是下一個強大的模型。
  • $F_{i}$ 是目前功能強大的模型。
  • $\xi$ 是介於 0.0 和 1.0 之間的值,稱為「縮小」,類似於梯度下降法中的「學習率」
  • $f_{i}$ 是經過訓練的模型,可以預測 $F_{i}$ 的損失漸層。

梯度提升的現代變化版本也包含計算過程中損失的第二個導數 (Hessian)。

「決策樹」通常做為梯度提升作業中的低強度模型使用。請參閱「梯度提升 (決策) 樹狀結構」。

I

推論路徑

#df

「決策樹狀圖」中,在推論期間,特定範例的路徑會從到其他條件,終止一個葉子。舉例來說,在下列決策樹狀圖中,較粗的箭頭顯示具有下列特徵值的示例的推論路徑:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑會先通過三個條件,然後再到達葉子 (Zeta)。

包含四個條件和五個葉子的決策樹。根條件為 (x > 0)。由於答案為「是」,因此推論路徑會從根路徑移動到下一個條件 (y > 0)。由於答案為「是」,因此推論路徑會前往下一個條件 (z > 0)。由於答案為「否」,因此推論路徑會前往其終端機節點,也就是分葉 (Zeta)。

三個粗箭頭則代表推論路徑。

資訊增加

#df

「決策樹系」中,節點的與子項節點熵的總和 (按照樣本數) 之間的差異。節點的熵是該節點範例中的範例熵。

以下列熵值為例:

  • 父項節點的熵 = 0.6
  • 一個子節點的熵,當中包含 16 個相關範例 = 0.2
  • 另一個子節點的熵 = 0.1

因此,有 40% 的範例位於一個子節點,而 60% 則位於另一個子節點。因此:

  • 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,資訊增加如下:

  • 資訊增益 = 父項節點的加權熵總和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大部分分拆器會試圖建立狀況 能夠大幅增加資訊的量

插入內條件

#df

「決策樹狀圖」中,測試一組項目是否存在一個項目的條件。舉例來說,以下是 in-set 條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式地圖項目的值為 tudorcolonialcape,則這項條件的評估結果為「是」。如果房屋樣式地圖項目的值包含其他值 (例如 ranch),則此條件的評估結果為「否」。

與測試 one-hot 編碼功能的條件相比,內建條件通常會產生更有效率的決策樹狀圖。

L

葉子

#df

決策樹中的任何端點。與 condition 不同,分葉無法執行測試。樹葉為可能的預測結果,分葉也是推論路徑的終端節點

舉例來說,以下決策樹含有三個葉子:

決策樹,有兩個條件導向三個葉子。

N

節點 (決策樹狀圖)

#df

「決策樹狀圖」中,選擇任何條件分葉

含有兩個條件和三個葉子的決策樹。

非二元條件

#df

條件包含超過兩個可能的結果。 例如,下列非二元條件包含三個可能的結果:

條件 (number_of_legs = ?) 可產生三個可能的結果。一個結果 (number_of_legs = 8) 會導向名為「蜘蛛」的葉子。第二個結果 (number_of_legs = 4) 會導向名為「dog」的葉子。第三個結果 (number_of_legs = 2) 會導向名為企鵝的葉子。

O

不規則條件

#df

「決策樹狀圖」中,包含多個「特徵」「條件」。例如,如果高度和寬度都是地圖項目,則以下為不透明條件:

  height > width

軸對齊條件對比。

行李外評估 (OOB 評估)

#df

一種用於評估決策樹品質的機制,會根據在訓練期間使用的範例測試每個決策樹舉例來說,在下圖中,您會發現系統約有三分之二對每個決策樹進行訓練,然後針對樣本中其餘三分之一的情況進行評估。

決策樹含有三個決策樹。其中一面的決策樹狀圖會針對樣本中的三分之二進行訓練,並將其餘的三分之一用於 OOB 評估。第二種決策樹狀圖使用與先前決策樹狀圖不同的三分之二進行訓練,然後使用與先前決策樹不同的三分之一進行 OOB 評估。

非袋子評估是對交叉驗證機制的計算效率和保守,在交叉驗證中,系統會針對每個交叉驗證迴圈訓練一個模型,例如,以 10 個折疊的交叉驗證方式訓練 10 個模型。透過 OOB 評估,系統會訓練單一模型。由於 packging 會在訓練期間保留每個樹狀結構的部分資料,因此 OOB 評估功能可以使用該資料來進行近似交叉驗證。

P

排列變數重要性

#df

可變動重要性的類型,會在排列特徵值「之後」,評估模型預測錯誤的數量增幅。排列變數重要性是跨模型通用的指標。

R

隨機森林

#df

決策樹組成的集體決策,每個決策樹都會以特定的隨機雜訊 (例如) 進行訓練。

隨機樹係是一種決策樹

根號

#df

決策樹狀圖中的起始節點 (第一個條件)。 按照慣例,圖表會將根層級置於決策樹狀結構的頂端。例如:

含有兩個條件和三個葉子的決策樹。起始條件 (x > 2) 是根條件。

取樣 (正在替換)

#df

一種從一組候選項目中挑選項目的方法,這些候選項目可以多次選取相同的項目。「須取代」這個詞組表示每次選擇後,所選項目就會傳回候選項目集區。以反向方法「不替換」進行取樣,代表候選項目只能選取一次。

以下列水果組合為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統會隨機選擇 fig 做為第一個項目。如果採用替換的取樣功能,系統會從下列組合中挑選第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是,這與之前相同,因此系統可能會再次選擇 fig

如果使用取樣而不替換,一旦選定後就無法再次選擇樣本。舉例來說,如果系統隨機挑選 fig 做為第一個樣本,使用者就無法再次選擇 fig。因此,系統會從下列 (縮減) 組合中挑選第二個樣本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收縮

#df

可控制過度配適梯度提升中的超參數梯度提升的縮小與梯度下降法中的「學習率」類似。縮減是介於 0.0 至 1.0 之間的十進位值。縮減值較低,避免過度配適,大於較大的縮減值。

拆分

#df

「決策樹狀圖」中,條件的另一個名稱。

分叉式

#df

訓練「決策樹狀圖」時,負責在每個節點中找出最佳條件的例行 (和演算法)。

T

test

#df

「決策樹狀圖」中,條件的另一個名稱。

門檻 (適用於決策樹狀圖)

#df

在「軸對齊條件」中,用於與特徵進行比較的值。例如,75 是符合下列條件的門檻值:

grade >= 75

V

變數重要性

#df

一組分數,用來表示各項「特徵」與模型的相對重要性。

舉例來說,假設有用來估算房屋價格的決策樹狀圖。假設這個決策樹使用三種特徵:大小、年齡和樣式。如果三個特徵的變數重要性設為 {size=5.8, age=2.5, style=4.7},則相較於年齡或樣式,大小對決策樹狀圖來說比較重要。

存在不同的變數重要性指標,可向機器學習專家提供模型的不同面向。

群眾的智慧

#df

對多數人 (即「群眾」) 的意見或估計值的觀點,通常會產生出乎意料的結果。舉例來說,假設在某個遊戲中,玩家猜測出大罐子裡裝的果豆數量。雖然大部分的個人猜測結果都不正確,但所有猜測的平均值卻顯示出來,意外達到了罐子裡果醬實際數量。

Ensembles 是眾人智慧的軟體類比。 即使個別模型做出的預測非常不準確,只要對許多模型的預測值平均,通常就會產生出令人意想不到的預測結果。舉例來說,雖然個別決策樹可能會導致預測結果不佳,但決策樹通常能做出非常合適的預測。