機器學習詞彙解釋:Decision Forest

本頁包含 Decision Forest 詞彙。如要查看所有詞彙字詞 請按這裡

A

屬性取樣

#df

訓練決策樹系的策略 決策樹只會考量隨機子集 瞭解狀況特色特色。 一般來說,對每個特徵的 節點。相較之下,訓練決策樹 如未進行屬性取樣,每個節點會將所有可能採用的功能列入考量。

軸對齊條件

#df

決策樹中,狀況 只包含單一功能。舉例來說 是特徵,那麼下列是根據軸對齊的條件:

area > 200

斜體條件的對比。

B

行李

#df

一種訓練的方法, 組成模型以隨機子集進行訓練 範例請見替換品。 舉例來說,隨機森林是一組 以袋子訓練的決策樹

「行李」這個詞是「無」的簡稱。

二進位條件

#df

決策樹中,狀況 只有兩個可能的結果,通常是。 例如,以下是二進位條件:

temperature >= 100

非二元條件對比。

C

狀況

#df

「決策樹」中,任何「節點」 會評估運算式例如 決策樹狀圖包含兩個條件:

由兩個條件組成的決策樹:(x > 0) 和
          (y > 0)。

條件也稱為分割或測試。

使用葉子的對比度。

另請參閱:

D

Declaration Forest

#df

以多個決策樹建立的模型。 決策樹系將預測結果 決策樹決策樹相當熱門的類型包括 隨機樹系梯度增強樹木

決策樹狀圖

#df

監督式學習模型,由多個 以階層方式整理條件離開。 例如,以下為決策樹:

由四個條件排列的決策樹
          階層結構,最後到達 5 葉

E

#df

資訊理論 說明無法預測的可能性 那就是:另一方面,熵的定義也是指 (每個範例所含的資訊)。發布版本具有 當隨機變數的所有值都達到 則可能性居高不下

集合包含兩個可能值「0」的集合和「1」(例如 二進位分類問題中的標籤) 公式如下:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」的分數範例。
  • q 是「0」內的分數範例。請注意,q = (1 - p)
  • log 通常是記錄2。在這個例子中,熵 有點複雜

舉例來說,假設:

  • 100 個範例包含值「1」
  • 300 例包含「0」這個值

因此,熵值為:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每個範例 0.81 位元

非常平衡的組合 (例如,200「0」和 200「1」) 每個範例都有 1.0 位元的熵組合愈多 不平衡,其熵已轉向 0.0。

「決策樹」中,熵可協助制定公式 取得資訊 Splitter 選取 conditions 但在分類決策樹狀圖的發展過程中

比較熵:

熵通常稱為善農的熵。

F

特徵重要性

#df

變數重要性的同義詞。

G

奇異無敵

#df

entropy 的指標類似。分割器 使用來自 Gini 不盡或熵的值 分類的條件 決策樹資訊獲利是源自熵。 沒有普遍接受的指標 原汁原味但這類未命名指標 資訊增加

原住民也稱為「gini index」,或簡稱「gini」

梯度提升 (決策) 樹 (GBT)

#df

一種決策樹系,其中:

梯度提升

#df

一種訓練演算法,其中較弱的模型反覆接受訓練 改善強大模型的品質 (降低損失)。例如: 弱模型可能是線性或小型的決策樹狀圖 高強度模型會成為先前訓練所有低強度模型的總和。

在最簡單的梯度增強中,每次疊代時,較弱的模型 模型經過訓練,可預測高強度模型的損失梯度接著, 將預測的漸層減去 類似梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始的強大模式。
  • $F_{i+1}$ 是下一個功能強大的模型,
  • $F_{i}$ 是目前強大的模型。
  • $\xi$ 是一個介於 0.0 和 1.0 之間的值,稱為「shrinkage」。 類似於 學習率: 梯度下降法
  • $f_{i}$ 是經過訓練的弱模型,用來預測 $F_{i}$。

梯度增強的新型變化版本也包括 (Hessian) 導入作業的損失。

決策樹經常用來做為 以及梯度提升詳情請見 梯度提升 (決策) 樹狀圖

I

推論路徑

#df

決策樹中,推論期間 特定範例根層級變更為其他條件節能綠葉。以下方的決策樹狀圖為例, 粗箭頭表示推論路徑,範例如下: 特徵值:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑通過三個 條件移動至節能綠葉 (Zeta) 前。

由四個條件和五個葉子組成的決策樹。
          根條件為 (x > 0)。由於答案是「是」,因此
          推論路徑是從根層級到下一個條件 (y > 0)
          答案為「是」,因此推論路徑接著會前往
          下一個條件 (z > 0)。答案是「否」
          便進入了「葉子」(Zeta) 的終端機節點

三個粗箭頭顯示推論路徑。

獲取資訊

#df

「決策樹系」中,差異 節點的和加權計算 (按樣本數) 所有子節點的熵總和節點的熵 該節點的範例

以以下熵值為例:

  • 父項節點的熵 = 0.6
  • 具有 16 個相關範例的單一子節點熵 = 0.2
  • 含有 24 個相關範例 = 0.1 的另一個子節點

因此 40% 的範例位於一個子節點,60% 都位於 其他子節點因此:

  • 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,資訊吸收的價值是:

  • 資訊增益 = 父項節點的熵 - 子節點的加權熵總和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大部分分割器會尋找建立條件 才能獲得最高的資訊

設定條件

#df

決策樹中,狀況 測試一組項目是否存在單一項目。 舉例來說,以下是插邊條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式特徵的值 為 tudorcolonialcape,則這項條件評估為「是」。如果 房屋風格地圖項目的值是其他值 (例如 ranch)。 則此條件會傳回「否」

事先設定的條件通常能使決策樹效率提高, 測試 one-hot 編碼功能的條件。

L

葉子

#df

決策樹中的任何端點。取消喜歡 condition 屬性不會執行測試。 事實上,葉子是可能的預測結果。節能綠葉也是終極的 推論路徑節點

例如,下列決策樹含有三個葉子:

一條決策樹,有兩個條件,形成三個葉子。

節點 (決策樹)

#df

決策樹狀圖中,任何 condition分葉

包含兩個條件和三個葉子的決策樹。

非二元條件

#df

條件包含超過兩個可能結果。 舉例來說,下列非二進位條件包含三種可能性 成果:

條件 (number_of_legs = ?) 促成三個可能
          成果一結果 (number_of_legs = 8) 促成一片分葉
          名為「自動尋檢程式」第二次結果 (number_of_legs = 4) 導致
          一片名為狗的葉子第三個結果 (number_of_legs = 2) 促成
          名為企鵝的葉子。

O

斜體條件

#df

決策樹狀圖中, 有多個狀況 功能。例如,如果高度和寬度都是地圖項目 下列是斜體條件:

  height > width

軸對齊條件的對比。

自帶式評估 (OOB 評估)

#df

評估服務品質時 決策樹系 比對 範例 不包含於 對該決策樹狀圖進行訓練。例如,在 請注意,系統會訓練每個決策樹 然後比較 其餘均將保留三分之一

由三個決策樹組成的決策樹系。
          其中一個決策樹會使用三分之二的樣本訓練
          然後使用第三分之一的 OOB 評估。
          第二種決策樹是以不同三分之二的背景訓練
          前面的決策樹狀圖中的範例,
          進行 OOB 評估時使用的是三分之一的
          上一個決策樹狀圖

現成評估是運算效率和保守的 交叉驗證機制的近似值。 在交叉驗證中,針對每個交叉驗證回合訓練一個模型 (例如,以 10% 的交叉驗證方式訓練 10 個模型)。 評估 OOB 時,系統會訓練單一模型。因為行李 會在訓練期間保留每個樹狀圖的部分資料,因此 OOB 評估可使用 以便估算出交叉驗證的結果。

P

排列變數重要性

#df

用來評估的一種變數重要性。 將模型排列在「之後」後,模型的預測誤差增加 特徵的值排列變數重要性與模型無關 指標。

R

隨機森林

#df

一種組合決策樹 每個決策樹都使用特定隨機雜訊來訓練 ,例如行李

隨機樹係是一種決策樹系

根號

#df

起始的節點 (第一個節點 決策樹狀圖中的 condition 物件。 按照慣例,圖表會將根層級置於決策樹狀圖的頂端。 例如:

包含兩個條件和三個葉子的決策樹。
          起始條件 (x > 2) 為根。

S

取樣 (含取代)

#df

一種從一組候選項目中挑選項目的方法 使用者可以重複挑選項目「有取代」一詞意思是 每次選取後,所選項目就會傳回 候選項目。反之是「不含替換的取樣」, 這表示每個候選項目只能挑選一次。

以下列水果組為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統會隨機選擇 fig 做為第一個項目。 如果使用取樣的方式進行取代,系統會選用 從下列集合中選取的第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是,這是與之前相同的設定 請再次選取 fig

如果未經替換就使用取樣,一旦選出取樣結果就無法 又再次挑出。舉例來說,如果系統會隨機選擇 fig 做為 第一項樣本,因此無法再次選取fig。因此,系統會 會從下列組合中挑選第二個樣本 (較低值):

fruit = {kiwi, apple, pear, cherry, lime, mango}

縮小

#df

「超參數」 控制項的梯度提升 過度配適。減少梯度提升 類似於 學習率梯度下降法。縮減為小數 值介於 0.0 和 1.0 之間縮減值越小可減少過度配適 大於縮減值

分割

#df

決策樹狀圖中,這是另一個 condition

分割器

#df

訓練決策樹時,處理常式 和演算法) 會找出 每個節點condition 屬性。

T

test

#df

決策樹狀圖中,這是另一個 condition

門檻 (適用於決策樹)

#df

軸對齊條件中,也就是 比較 feature。例如 75 是 門檻值如下:

grade >= 75

V

變數重要性

#df

一組分數,指出各項分數的相對重要性 套用至模型的 feature

例如,假設有一個決策樹 預估房屋房價假設這個決策樹狀圖使用 地圖項目:尺寸、年齡及樣式如果一組變數重要性 這三項功能 {size=5.8, age=2.5, style=4.7},那麼大小就比 而非年齡或風格

有不同的變數重要性指標 瞭解模型不同面向的機器學習專家。

觀眾智慧

#df

計算一般大眾的意見或估計值 的人 (「群眾」) 通常能產生出色的成果。 舉例來說,如果遊戲中有人猜測 果醬成大型罐子裡雖然大部分人 猜錯的話,所有猜測的平均值 其實際數量會出乎意料 罐子裡果醬

Ensembles 是群眾使用的軟體類比。 即使個別模型的預測準確度極差 平均來說,許多模型的預測結果都會產生意想不到的結果 但預測結果才會準確舉例來說 決策樹可能會導致預測結果不準確, 決策樹系通常會做出非常良好的預測。