機器學習詞彙表:決策森林

這個頁麵包含 Decision Forest 詞彙詞彙表。如要查看所有詞彙詞彙,請按這裡

A

屬性取樣

#df

訓練決策森林的策略,其中每個決策樹狀結構在學習條件時,只會考慮隨機的特徵子集。一般而言,系統會為每個節點取樣一部分不同的功能。相反地,如果在不進行屬性取樣的情況下訓練決策樹狀圖,系統會考慮每個節點的所有可能功能。

軸對齊條件

#df

「決策樹狀圖」中,僅包含單一「功能」條件。舉例來說,如果區域為特徵,則其為軸對齊條件:

area > 200

斜體條件形成對比。

B

袋裝

#df

用來訓練集合的方法,其中每個組成模型都會使用隨機的訓練範例子集 (以替代方法取樣) 進行訓練。 例如,「隨機森林」是指一組內含行李訓練的決策樹

「行李」這個詞是「摘要」的縮寫。

二進位檔條件

#df

「Decision Treion」(決策樹狀結構) 中,只有兩項可能結果的條件 (通常是 yesno)。例如,以下是二進位檔條件:

temperature >= 100

非二元條件形成對比。

C

狀況

#df

「決策樹狀圖」中,任何評估運算式的節點。例如,決策樹狀圖的以下部分包含兩個條件:

由兩個條件組成的決策樹狀結構:(x > 0) 和 (y > 0)。

條件又稱為「分割」或「測試」。

分葉形成對比。

另請參閱:

D

決策樹

#df

使用多個決策樹狀圖建立的模型。決策樹會預測決策樹狀結構的預測,以執行預測。常見的決策森林包括隨機森林梯度強化樹

決策樹狀圖

#df

由一組「條件和「退出」組成的階層式學習模型。例如,以下是決策樹狀圖:

由樹狀結構組成的 4 項條件決策畫面,當中有五個葉子。

E

#df

資訊理論中,說明可能性機率分佈情形的說明。或者,熵也定義為每個範例包含的資訊數量。隨機變數的所有值都相同時,分佈情形的可能最高。

具有兩個可能值「quot;0」和「1」的集合 (例如二元分類中的標籤) 的公式如下:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 代表音符。
  • p 是「1」的樣本,
  • q 是「0」的樣本,請注意,q = (1 - p)
  • log 通常是 2。在本例中,熵單位是一點。

例如,假設:

  • 100 個示例包含「1」值。
  • 300 個範例包含「0」這個值。

概略值是:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 位元示例

完全平衡的集合(例如 200"0" 和 200"1") 170 的 entroe 範例。隨著資料集變得越來越均衡,其資訊向量會移動到 0.0。

決策樹狀圖中,entropy 可協助建立資訊增長,協助分割工具在分類決策樹狀結構的成長期間選取條件

對照圖形:

音符通常被稱為 Shannon's 熵。

F 鍵

特徵重要性

#df

變數重要性的同義詞。

G

gini 不定

#df

類似 entropy 的指標。Splitter 使用從 gini 雜訊或熵產生的值來組成條件,以便分類決策樹狀結構資訊增長是根據資訊來源產生。源自 gini 不清指標的指標沒有完全接受的對等字詞;但是,未命名的指標也與資訊增益一樣重要。

Gini 雜訊也稱為「gini 索引」或簡稱「gini」

梯度提升

#df

在訓練演算法中,我們訓練出的弱模型能反覆調整強大模型的品質 (減少損失)。舉例來說,微弱模型可能是線性或小型決策樹模型。強而有力的模型將成為所有先前訓練的弱模型的總和。

以最簡單的漸層提升形式,每次疊代時,系統會訓練弱模型來預測強大模型的損失梯度。然後,減去預測梯度,藉此更新強大模型的輸出內容,與梯度下降類似,

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是開始強大的模型。
  • $F_{i+1}$ 是下一個強大的模型。
  • $F_{i}$ 是目前有效的模型。
  • $\xi$ 是介於 0.0 到 1.0 之間的值,名為 shrinkage,與梯度下降中的學習率相似。
  • $f_{i}$ 是訓練到的弱點模型,可用來預測 $F_{i}$ 的損失梯度。

梯度提升的現代變化也包括計算中的損失二數 (Hessian)。

決策樹通常做為漸層增強中的弱模型。請參閱梯度提升 (決策) 樹狀圖

梯度增強 (決策) 樹木 (GBT)

#df

一種決策森林,其中:

I

推論路徑

#df

「決策樹狀圖」中,於推論期間,特定範例的路徑會從到其他 條件,結尾以分葉。例如,在以下決策樹狀圖中,較粗的箭頭會顯示具有下列特徵值的範例推論路徑:

  • X = 7
  • y = 12
  • Z = -3

下圖中的推論路徑在通過葉子前通過三個條件 (Zeta)。

包含 4 個條件和 5 個葉子的決策樹。根條件為 (x > 0)。由於答案是「是」,因此推論路徑會從根路徑到下一個條件 (y > 0)。由於答案是「是」,因此推論路徑會前往下一個條件 (z > 0)。由於答案是否,因此推論路徑會移往終端機節點,也就是分葉 (Zeta)。

三個厚箭頭表示推論路徑。

獲取資訊

#df

「Decision Forest」中,節點和後端的加權和權重 (按照範例數量) 其內部節點頂點的總和。節點的節拍是這個節點的範例範例。

以下列資訊值為例:

  • 父項節點數 = 0.6
  • 一個子節點 (含 16 個相關範例) = 0.2
  • 另一個子節點代表 24 個相關範例 = 0.1

因此,40% 的樣本位於一個子節點中,60% 則位於另一個子節點中。因此:

  • 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,取得的資訊會有:

  • 資訊成長 = 父項節點概略 - 子節點加權加權總和
  • 資訊增加 = 0.6 - 0.14 = 0.46

大多數分割器都會建立條件,盡可能提高資訊量。

插邊條件

#df

「決策樹狀圖」中,測試一組項目中所有項目的條件。例如,以下是插邊條件:

  house-style in [tudor, colonial, cape]

在推論中,如果房屋式特徵的值為 tudorcolonialcape,則此條件會評估為「是」。如果房屋樣式特徵的值是其他值 (例如 ranch),則這個條件會評估為 No。

在插邊條件中,相較於測試單一程式碼編碼功能,這種條件的決策效率通常會更高。

L

節能綠葉

#df

決策樹狀圖中的任何端點。有別於條件,分葉不會執行測試。而是取消訂閱的可能性。分葉也是推論路徑的終端機節點

舉例來說,以下決策樹包含三個葉子:

一個決策包含兩個條件的決策樹狀圖。

節點 (決策樹狀結構)

#df

「Decision Treion」(決策樹狀結構) 中,任何狀況分葉

含有兩個條件和三個葉子的決策樹。

非二元性別

#df

包含超過兩個可能結果的條件。舉例來說,下列非二進位檔條件包含三個可能的結果:

可得到三種可能結果的條件 (number_of_legs = ?)。其中一個結果 (number_of_legs = 8) 會導向名為「自動尋檢程式」的分葉。第二個結果 (number_of_legs = 4) 會產生一個名為「狗狗」的葉子。第三個結果 (number_of_legs = 2) 會產生一個名為「企鵝」的葉子。

O

斜方狀況

#df

決策樹狀圖中,包含多項功能條件。舉例來說,如果高度和寬度都是兩個特徵,那麼以下為斜體條件:

  height > width

軸對齊條件形成對比。

餐外包評估 (OOB 評估)

#df

用來評估決策森林品質的機制,可以就該決策樹的訓練過程中以外的範例測試。例如,在下圖中,系統針對約三分之二的樣本進行每條決策樹狀圖訓練,然後根據其餘的三分之一進行評估。

由三道決策樹組成的決策森林。其中一個決策樹狀圖佔了三分之二的樣本,然後剩餘的剩下三分之一用於 OOB 評估。第二個決策樹狀圖則是依據先前決策樹狀結構的不同樣本三分之二進行訓練,然後在上一個決策樹狀圖中使用不同的使用不同的三分之一。

不在購物車中的評估作業,會以有效且保守的方式進行交叉驗證機制。在交叉驗證中,系統會針對各個交叉驗證循環訓練一個模型 (例如,以 10 倍交叉驗證訓練 10 個模型)。透過 OOB 評估時,系統會訓練單一模型。由於「包裝」在訓練期間會保留每個樹狀結構中的部分資料,因此 OOB 評估作業可以利用這些資料近似交叉驗證。

P

排列變數重要性

#df

一種變數重要性,可評估模型「覆寫」特徵值之後的預測錯誤增加。排列變數的重要性是模型通用的指標。

R

隨機森林

#df

決策元件,其中每個決策樹狀結構都以特定的隨機雜訊 (例如行李運送) 進行訓練。

隨機森林是一種決策森林

根機構單位

#df

決策樹中的起始節點 (第一個「條件」)。按照慣例,圖表會將根層級放在決策樹狀結構的頂端。例如:

含有兩個條件和三個葉子的決策樹。起始條件 (x > 2) 就是根層級。

S

取樣與替換

#df

從一系列候選項目中挑選同一項目的方法,可多次選取同一個項目。「替換為替代項目」詞組意味著每次選取後,所選項目都會回到候選項目的集區。相反的做法是不替換而取樣,表示候選項目只能選取一次。

以下列水果組合為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統隨機挑選 fig 做為第一個項目。如果使用替換功能進行取樣,系統會從下列組合中選取第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,這組設定與之前相同,因此系統可能會再次選擇 fig

如果在沒有更換的情況下使用取樣,則一經選取,就無法再次選取樣本。舉例來說,如果系統隨機選擇 fig 做為第一個範例,則無法再次選取 fig。因此,系統會從以下 (縮減) 組合中擷取第二個範例:

fruit = {kiwi, apple, pear, cherry, lime, mango}

縮減

#df

控管漸層超參數,用來控制過度配適。梯度提升中的縮減情形與漸層遞減中的學習率相似。「縮減」是介於 0.0 至 1.0 之間的小數值。減少的縮水值可以減少過度配適的值,

分割

#df

「Decision Treion」(決策樹) 中,另一個「condition」(條件) 名稱。

分割器

#df

訓練決策樹狀圖時,處理常式 (和演算法) 負責在每個節點中尋找最佳條件

T

測試

#df

「Decision Treion」(決策樹) 中,另一個「condition」(條件) 名稱。

門檻 (適用於決策樹)

#df

軸對齊條件中,系統會比較特徵的值。例如,75 是下列條件的門檻值:

grade >= 75

V

變數重要性

#df

一組分數,指出各項功能與模型的相對重要性。

例如,您可以使用決策樹來估算房價。假設這項決策樹使用以下三項功能:大小、年齡和樣式。如果計算三項特徵的變數重要性為 {size=5.8, age=2.5, style=4.7},則決策對決策樹狀結構比年齡或樣式更重要。

存在不同的變數重要性指標,可以協助機器學習專家瞭解模型的不同面向。

W

人群智慧

#df

一般人對一群人 (意即人群) 的想法或預估值,通常會產生令人驚喜的成果。 例如,假設使用者猜測到大片罐頭上的水果豆數量。雖然大部分的個別猜測結果都不準確,但所有猜測的平均值都被非常明顯地接近,與 jar 中的實際 Jel 豆類數量非常接近。

Ensembles 是軟體群的類比軟體。 即使個別模型進行預測極為不自然,平均對許多模型的預測進行預測時,卻經常產生令人驚訝的預測結果。舉例來說,雖然個別決策樹狀圖可能會導致預測不佳,但決策樹通常可以產生非常準確的預測結果。