這個頁麵包含 Decision Forest 詞彙詞彙表。如要查看所有詞彙詞彙,請按這裡。
A
屬性取樣
訓練決策森林的策略,其中每個決策樹狀結構在學習條件時,只會考慮隨機的特徵子集。一般而言,系統會為每個節點取樣一部分不同的功能。相反地,如果在不進行屬性取樣的情況下訓練決策樹狀圖,系統會考慮每個節點的所有可能功能。
軸對齊條件
在「決策樹狀圖」中,僅包含單一「功能」的條件。舉例來說,如果區域為特徵,則其為軸對齊條件:
area > 200
與斜體條件形成對比。
B
袋裝
用來訓練集合的方法,其中每個組成模型都會使用隨機的訓練範例子集 (以替代方法取樣) 進行訓練。 例如,「隨機森林」是指一組內含行李訓練的決策樹。
「行李」這個詞是「摘要」的縮寫。
二進位檔條件
在「Decision Treion」(決策樹狀結構) 中,只有兩項可能結果的條件 (通常是 yes 或 no)。例如,以下是二進位檔條件:
temperature >= 100
與非二元條件形成對比。
C
狀況
在「決策樹狀圖」中,任何評估運算式的節點。例如,決策樹狀圖的以下部分包含兩個條件:
條件又稱為「分割」或「測試」。
與分葉形成對比。
另請參閱:
D
決策樹
使用多個決策樹狀圖建立的模型。決策樹會預測決策樹狀結構的預測,以執行預測。常見的決策森林包括隨機森林和梯度強化樹。
決策樹狀圖
由一組「條件」和「退出」組成的階層式學習模型。例如,以下是決策樹狀圖:
E
熵
在資訊理論中,說明可能性機率分佈情形的說明。或者,熵也定義為每個範例包含的資訊數量。隨機變數的所有值都相同時,分佈情形的可能最高。
具有兩個可能值「quot;0」和「1」的集合 (例如二元分類中的標籤) 的公式如下:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
其中:
- H 代表音符。
- p 是「1」的樣本,
- q 是「0」的樣本,請注意,q = (1 - p)
- log 通常是 2。在本例中,熵單位是一點。
例如,假設:
- 100 個示例包含「1」值。
- 300 個範例包含「0」這個值。
概略值是:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 位元示例
完全平衡的集合(例如 200"0" 和 200"1") 170 的 entroe 範例。隨著資料集變得越來越均衡,其資訊向量會移動到 0.0。
在決策樹狀圖中,entropy 可協助建立資訊增長,協助分割工具在分類決策樹狀結構的成長期間選取條件。
對照圖形:
音符通常被稱為 Shannon's 熵。
F 鍵
特徵重要性
對變數重要性的同義詞。
G
gini 不定
類似 entropy 的指標。Splitter 使用從 gini 雜訊或熵產生的值來組成條件,以便分類決策樹狀結構。資訊增長是根據資訊來源產生。源自 gini 不清指標的指標沒有完全接受的對等字詞;但是,未命名的指標也與資訊增益一樣重要。
Gini 雜訊也稱為「gini 索引」或簡稱「gini」。
梯度提升
在訓練演算法中,我們訓練出的弱模型能反覆調整強大模型的品質 (減少損失)。舉例來說,微弱模型可能是線性或小型決策樹模型。強而有力的模型將成為所有先前訓練的弱模型的總和。
以最簡單的漸層提升形式,每次疊代時,系統會訓練弱模型來預測強大模型的損失梯度。然後,減去預測梯度,藉此更新強大模型的輸出內容,與梯度下降類似,
其中:
- $F_{0}$ 是開始強大的模型。
- $F_{i+1}$ 是下一個強大的模型。
- $F_{i}$ 是目前有效的模型。
- $\xi$ 是介於 0.0 到 1.0 之間的值,名為 shrinkage,與梯度下降中的學習率相似。
- $f_{i}$ 是訓練到的弱點模型,可用來預測 $F_{i}$ 的損失梯度。
梯度提升的現代變化也包括計算中的損失二數 (Hessian)。
決策樹通常做為漸層增強中的弱模型。請參閱梯度提升 (決策) 樹狀圖。
梯度增強 (決策) 樹木 (GBT)
一種決策森林,其中:
I
推論路徑
在「決策樹狀圖」中,於推論期間,特定範例的路徑會從根到其他 條件,結尾以分葉。例如,在以下決策樹狀圖中,較粗的箭頭會顯示具有下列特徵值的範例推論路徑:
- X = 7
- y = 12
- Z = -3
下圖中的推論路徑在通過葉子前通過三個條件 (Zeta
)。
三個厚箭頭表示推論路徑。
獲取資訊
在「Decision Forest」中,節點和後端的加權和權重 (按照範例數量) 其內部節點頂點的總和。節點的節拍是這個節點的範例範例。
以下列資訊值為例:
- 父項節點數 = 0.6
- 一個子節點 (含 16 個相關範例) = 0.2
- 另一個子節點代表 24 個相關範例 = 0.1
因此,40% 的樣本位於一個子節點中,60% 則位於另一個子節點中。因此:
- 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
因此,取得的資訊會有:
- 資訊成長 = 父項節點概略 - 子節點加權加權總和
- 資訊增加 = 0.6 - 0.14 = 0.46
插邊條件
在「決策樹狀圖」中,測試一組項目中所有項目的條件。例如,以下是插邊條件:
house-style in [tudor, colonial, cape]
在推論中,如果房屋式特徵的值為 tudor
、colonial
或 cape
,則此條件會評估為「是」。如果房屋樣式特徵的值是其他值 (例如 ranch
),則這個條件會評估為 No。
在插邊條件中,相較於測試單一程式碼編碼功能,這種條件的決策效率通常會更高。
L
節能綠葉
決策樹狀圖中的任何端點。有別於條件,分葉不會執行測試。而是取消訂閱的可能性。分葉也是推論路徑的終端機節點。
舉例來說,以下決策樹包含三個葉子:
否
節點 (決策樹狀結構)
在「Decision Treion」(決策樹狀結構) 中,任何狀況或分葉。
非二元性別
包含超過兩個可能結果的條件。舉例來說,下列非二進位檔條件包含三個可能的結果:
O
斜方狀況
在決策樹狀圖中,包含多項功能的條件。舉例來說,如果高度和寬度都是兩個特徵,那麼以下為斜體條件:
height > width
與軸對齊條件形成對比。
餐外包評估 (OOB 評估)
用來評估決策森林品質的機制,可以就該決策樹的訓練過程中以外的範例測試。例如,在下圖中,系統針對約三分之二的樣本進行每條決策樹狀圖訓練,然後根據其餘的三分之一進行評估。
不在購物車中的評估作業,會以有效且保守的方式進行交叉驗證機制。在交叉驗證中,系統會針對各個交叉驗證循環訓練一個模型 (例如,以 10 倍交叉驗證訓練 10 個模型)。透過 OOB 評估時,系統會訓練單一模型。由於「包裝」在訓練期間會保留每個樹狀結構中的部分資料,因此 OOB 評估作業可以利用這些資料近似交叉驗證。
P
排列變數重要性
一種變數重要性,可評估模型「覆寫」特徵值之後的預測錯誤增加。排列變數的重要性是模型通用的指標。
R
隨機森林
決策的元件,其中每個決策樹狀結構都以特定的隨機雜訊 (例如行李運送) 進行訓練。
隨機森林是一種決策森林。
根機構單位
決策樹中的起始節點 (第一個「條件」)。按照慣例,圖表會將根層級放在決策樹狀結構的頂端。例如:
S
取樣與替換
從一系列候選項目中挑選同一項目的方法,可多次選取同一個項目。「替換為替代項目」詞組意味著每次選取後,所選項目都會回到候選項目的集區。相反的做法是不替換而取樣,表示候選項目只能選取一次。
以下列水果組合為例:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
假設系統隨機挑選 fig
做為第一個項目。如果使用替換功能進行取樣,系統會從下列組合中選取第二個項目:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
是的,這組設定與之前相同,因此系統可能會再次選擇 fig
。
如果在沒有更換的情況下使用取樣,則一經選取,就無法再次選取樣本。舉例來說,如果系統隨機選擇 fig
做為第一個範例,則無法再次選取 fig
。因此,系統會從以下 (縮減) 組合中擷取第二個範例:
fruit = {kiwi, apple, pear, cherry, lime, mango}
縮減
控管漸層的超參數,用來控制過度配適。梯度提升中的縮減情形與漸層遞減中的學習率相似。「縮減」是介於 0.0 至 1.0 之間的小數值。減少的縮水值可以減少過度配適的值,
分割
在「Decision Treion」(決策樹) 中,另一個「condition」(條件) 名稱。
分割器
訓練決策樹狀圖時,處理常式 (和演算法) 負責在每個節點中尋找最佳條件。
T
測試
在「Decision Treion」(決策樹) 中,另一個「condition」(條件) 名稱。
門檻 (適用於決策樹)
在軸對齊條件中,系統會比較特徵的值。例如,75 是下列條件的門檻值:
grade >= 75
V
變數重要性
一組分數,指出各項功能與模型的相對重要性。
例如,您可以使用決策樹來估算房價。假設這項決策樹使用以下三項功能:大小、年齡和樣式。如果計算三項特徵的變數重要性為 {size=5.8, age=2.5, style=4.7},則決策對決策樹狀結構比年齡或樣式更重要。
存在不同的變數重要性指標,可以協助機器學習專家瞭解模型的不同面向。
W
人群智慧
一般人對一群人 (意即人群) 的想法或預估值,通常會產生令人驚喜的成果。 例如,假設使用者猜測到大片罐頭上的水果豆數量。雖然大部分的個別猜測結果都不準確,但所有猜測的平均值都被非常明顯地接近,與 jar 中的實際 Jel 豆類數量非常接近。
Ensembles 是軟體群的類比軟體。 即使個別模型進行預測極為不自然,平均對許多模型的預測進行預測時,卻經常產生令人驚訝的預測結果。舉例來說,雖然個別決策樹狀圖可能會導致預測不佳,但決策樹通常可以產生非常準確的預測結果。