機器學習詞彙表:決策森林

本頁麵包含決策者詞彙。如需所有詞彙詞彙,請按這裡

A

屬性取樣

#df

訓練決策樹的策略,每項決策樹都只能在學習條件時,只考慮部分可能的功能。一般來說,系統會為每個節點取樣不同功能。相反地,如果是在不進行屬性取樣的情況下訓練決策樹,系統會將每個節點的所有可能功能都納入考量。

軸對齊條件

#df

在「決策樹中,只涉及單一功能條件。舉例來說,如果區域是地圖項目,則如下的軸對齊條件:

area > 200

斜體條件相反。

B

包包

#df

一種「訓練方法,可讓每個組成模型隨機訓練訓練範例的子集 (替換為替換品)。舉例來說,「林中森林是一系列使用袋裝訓練的決策樹

「收禮」一詞的意思是「中等」口味。

二進位檔條件

#df

「決策樹」中,只有「兩個」或「否」條件。以下提供二元條件:

temperature >= 100

非二元條件相反。

C

狀況

#df

決策樹中,任何評估運算式的節點。例如,決策樹中的以下部分含有兩個條件:

決策樹包含兩項條件:(x > 0) 和 (y > 0)。

條件也稱為分割或測試。

節能綠的相反條件。

另請參閱:

D

決策樹

#df

由多個決策樹建立的模型。決策樹可透過匯總決策樹的預測結果進行預測。許多種類型的決策樹包括隨機森林漸層強化樹

決策樹狀圖

#df

監督式學習模型,由一組條件退出階層組成。舉例來說,以下是決策樹狀圖:

決策者包含四個階層結構,最終產生五次。

E

#df

資訊理論中,可解釋機率分佈的無法預測方式。另外,文句也定義了每個範例包含多少資訊。如果隨機變數的所有值都相等,分佈情形在可行範圍內最高可行性。

具有一個可能值為「0」和「1」的集群組合 (例如二元分類問題的標籤) 有下列公式:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」的樣本比例。
  • q 為「0」的樣本比例。請注意,q = (1 - p)
  • log 通常是記錄2。在這種情況下,熵單位是一位元。

舉例來說,假設:

  • 100 個範例包含「1」這個值
  • 300 範例包含「0」值

因此,熵資訊是:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75) 記錄2(0.75) = 0.81 位元

一組可達到平衡的組合 (例如 200「0」和 200「1」) 會有一個示例為 1.0 位元的熵。當集合變得越不平衡時,其熵效果會移至 0.0。

決策樹中,熵會協助繪製資訊增長,協助分割者在成長分類樹狀結構的成長期間選取條件

比較熵格式:

熵通常叫做「Shannon」的熵。

F

特徵重要性

#df

表示變數重要性的同義詞。

G

Gini Imityity

#df

類似的指標。分割器使用從 gini 帝國而產生的值或熵,形成 條件,用來分類 決策樹資訊取得衍生自熵資訊。 從 iini 不動產衍生的指標中,沒有正式接受的同等詞彙;不過,這個未命名的指標與資訊取得一樣重要。

吉里巴斯的產物也稱為「gini 指數」,又稱為「gini」

漸層增強

#df

訓練演算法訓練低強度模型經過疊代,以改善高強度模型的品質 (減少損失)。舉例來說,低強度模型可以是線性或小型決策樹模型。強大模型會成為先前所有訓練過的低強度模型總和。

使用最簡單的漸層增強功能,每次疊代時,訓練強度較低的模型可訓練高強度模型的損失漸層。接著,系統會以加權梯度下降法的方式減少預測梯度,以更新功能強大的模型輸出內容。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是開始的強大模型。
  • $F_{i+1}$ 是下一個穩固的型號。
  • $F_{i}$ 是目前的強大模式。
  • $\xi$ 是介於 0.0 和 1.0 之間的值,稱為「shrinkage」,這個值與梯度下降的學習率類似。
  • $f_{i}$ 是經過訓練的弱模型,旨在預測 $F_{i}$ 的損失漸層。

現代的漸層增強功能也涵蓋了其二次損失的導數 (Hessian)。

決策樹通常用來當做漸層增強的弱模型。請參閱「漸層增強 (決策) 樹狀結構」。

漸層增強 (決策) 樹狀結構 (GBT)

#df

決策樹」的類型,其中包含:

I

推論路徑

#df

在「決策」中,在推論期間,特定範例會從根層級轉送至其他條件,並由樹葉終止。例如,在下列決策樹中,較厚箭頭會顯示採用下列特徵值的範例推論路徑:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑會先通過三個條件,然後才會達到分葉 (Zeta)。

決策樹,包含四個條件和五個葉子。根條件為 (x > 0)。由於答案為「是」,因此推論路徑會從根前往下一個條件 (y > 0)。由於答案為「是」,因此推論路徑會移至下一個條件 (z > 0)。由於答案是「否」,因此推論路徑會前往分葉節點 (Zeta)。

三個下拉式選單箭頭顯示推論路徑。

增加資訊

#df

決策樹中,節點和節點數目的權重 (以範例數為) 的差異,是這些節點節點的總和。節點的熵上限是該節點的範例示例。

例如,請考慮以下的熵值:

  • 上層節點熵 = 0.6
  • 一個子節點包含 16 個相關範例的強化熵 = 0.2
  • 另一個子節點,其中有 24 個相關範例 = 0.1

因此,40% 的範例位於某個子節點,而 60% 位於另一個子節點中。因此:

  • 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,這些資訊增長如下:

  • 資訊取得 = 上層節點的熵
  • 資訊取得 = 0.6 - 0.14 = 0.46

大多數分割都會建立條件,盡可能提高資訊擷取量。

插邊條件

#df

決策樹中,會測試條件,以測試一組項目中的其中一個項目。舉例來說,以下為插邊條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式 feature 的值為 tudorcolonialcape,則此條件會評估為「是」。如果內部樣式功能的值是其他情況 (例如 ranch),該條件就會評估為「否」。

在設定條件條件的情況下,通常用於測試單手編碼功能的條件更為有效,

L

葉子

#df

決策樹中的所有端點。分葉與條件不同,分葉不會執行測試。樹葉是可能的預測結果。綠葉也是推論路徑的終端機節點

舉例來說,下列決策樹包含三個葉子:

決策樹狀圖,其中有兩個條件會導致三個落葉。

N

節點 (決策樹)

#df

「決策樹狀圖」中,任何條件分葉

含有兩個條件和三個葉子的決策樹。

非二元條件

#df

condition」包含超過兩個可能的結果。舉例來說,下列非二進位檔條件包含三個可能的結果:

可能導致三個可能結果的條件 (number_of_legs = ?)。一項結果 (number_of_legs = 8) 會引發名為「蜘蛛」的傳單。第二項結果 (number_of_legs = 4) 會引發名為「狗」的分葉。第三個結果 (number_of_legs = 2) 會產生分子名為企鵝的分葉。

O

障礙條件

#df

「決策樹」中,涉及多個功能條件。舉例來說,如果高度和寬度都是兩個功能,那麼以下是障礙條件:

  height > width

軸對齊條件的對比。

漏填評估 (OOB 評估)

#df

用於評估決策樹機制的機制。如要測試決策樹訓練期間不會用到的決策樹例如,在下圖中,請注意,這個指引中大約有三分之二 (33) 用於訓練每個決策樹,然後根據其餘範例的三分之一進行評估。

決策者包含三個決策樹。其中一個決策樹狀圖是以兩個範例的三分之一訓練,再用剩下的三分之一進行 OOB 評估。第二種決策樹是在先前決策樹以外的兩個範例上進行訓練,並採用與第三方決策不同的 OOB 評估作業中的第三方。

「售後評估」是交叉驗證機制的運算效率和保守估計值。 在交叉驗證中,每個模型在驗證過程中會訓練一個模型 (例如,有 10 個模型在 10 個折疊的交叉驗證中訓練)。透過 OOB 評估時,系統會訓練單一模型。由於包裝會在訓練期間保留每個樹狀結構的部分資料,因此 OOB 評估功能可以使用這些資料來概略執行交叉驗證。

P

排列變數的重要性

#df

一種變數重要性,用於評估模型「覆寫」該特徵值之後,產生預測錯誤增加的幅度。排列變數重要性是模型通用的指標。

(右)

隨機森林

#df

決策樹精度,每個決策樹都會透過特定隨機雜訊訓練,例如

隨機森林是一種決策樹的種類。

根目錄

#df

決策樹」中啟動的節點 (第一個條件)。按照慣例,圖表會將根層級放在決策樹狀結構的頂端。例如:

含有兩個條件和三個葉子的決策樹。起始條件 (x > 2) 是根層級。

取樣與取代

#df

從一組候選項目中挑選項目的方法,這樣就能重複選取相同的項目。「使用替代項目」一詞代表每個選項會在選取後傳回給所選項目的集區。反之,不使用取代的取樣,代表候選項目只能挑選一次。

以下列水果組合為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統會隨機挑選 fig 做為第一個項目。如果使用替代取樣功能,系統會從下列組合中選擇第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,這與先前的設定相同,因此系統可能會再次挑選 fig

若使用取代功能,但未進行取代,系統就無法再次選擇範例。舉例來說,如果系統隨機選擇 fig 做為第一個範例,就無法再次選取 fig。因此,系統會從以下 (縮減) 組合中擷取第二個範例:

fruit = {kiwi, apple, pear, cherry, lime, mango}

收縮

#df

「漸層增強」中的「超參數可控制過度調整。梯度提升中的陰影在與漸層下降中的學習率類似。收合是介於 0.0 和 1.0 之間的小數值。縮減的數值越小,過度的應用就會越大。

拆分

#df

決策樹中,還有一個條件

分割器

#df

訓練決策樹時,負責為每個節點找到最佳條件的例行與演算法。

test

#df

決策樹中,還有一個條件

門檻 (適用於決策樹)

#df

水平對齊的條件中,地圖項目與要比較的值比較。例如,在下列情況下,75 為門檻值:

grade >= 75

V

變數重要性

#df

一組分數,表示各項模型特徵的相對重要性。

舉例來說,假設決策樹會估算房屋價格。假設這個決策樹狀圖採用三種功能:大小、年齡和樣式。如果這三項特徵的變數重要性會計算為 {size=5.8, age=2.5, style=4.7},則對於決定該樹狀圖的期間,大小的重要性會比年齡或樣式更重要。

有不同的變數重要性指標,可以協助機器學習專家瞭解模型的不同層面。

人群的智慧

#df

一般大眾 (「群眾」) 的意見或預估構想往往能帶來令人驚豔的成果。 舉例來說,假設某個遊戲的猜測的是裝滿大罐的罐裝豆子數量。雖然大部分的個別猜測結果並不準確,但所有猜測中的平均值平均值,似乎與 jar 中的實際基因數非常接近。

Ensembles 是群眾的智慧之類。即使個別模型的預測失準,但許多模型的平均預測結果有時也可能造成令人意外的預測)。舉例來說,雖然個別決策樹可能會產生不佳的預測結果,但決策樹機制通常令人難以預測。