本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：機器學習基礎知識

本頁包含 ML 基礎知識詞彙。如要查看所有詞彙字詞請按這裡。

A

精確度

#fundamentals

正確分類預測的數量除以除以預測總數也就是：

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如，模型做出了 40 次正確預測預測的準確率為：

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類會提供具體名稱 正確預測與分類 預測結果不正確。所以，二元分類的準確率公式如下：

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中：

TP 是真陽性 (正確預測) 的數量。
TN 是真陰性 (正確預測) 的數量。
FP 是偽陽性 (預測不正確) 的數量。
FN 是偽陰性 (預測不正確) 的數量。

比較準確率： 精確度和 喚回度。

按一下圖示即可查看其他附註。

儘管某些情況相當實用，但準確度極高誤導他人值得注意的是，準確度通常這是一種不佳指標評估分類模型 不平衡資料集。

舉例來說，假設在特定的某件事裡，降雪量僅落在 25 天副熱帶城市從沒下雪的日子 (陰性類別) 大幅度降雪天數 (正類)，降雪資料集不平衡這個城市假設二元分類 預期每天會預測降雪或無雪的模型只會預測「不會下雪」關心時事的讀者這個模型非常準確，但沒有預測能力。下表摘要列出一百個世紀的預測結果：

類別	數字
TP	0
TN	36500
FP	25
FN	0

因此，這個模型的準確率為：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

雖然 99.93% 的準確率似乎很高但實際上並沒有預測功率

精確度和喚回度通常更實用以評估使用不平衡資料集訓練的模型時的準確率。

活化函數

#fundamentals

讓類神經網路學習的函式特徵之間的nonlinear (複雜) 關係和標籤之間的關係

常見的活化函數包括：

ReLU
S 形比較

活化函數的點並非單線。例如，ReLU 活化函數的圖兩條直線：

兩條折線圖。第一行具有常數
y 值為 0，沿著 X 軸 (-infinity，0 到 0,-0) 計算。
第二行的起始值為 0,0。這條線的斜率為 +1
介於 0,0 到 +infinity 之間

S 函數的圖表如下所示：

具有 x 值橫跨網域的 2D 曲線圖
-infinity 到 +正數，而 y 值跨越範圍近 0 到
將近 1.當 x 為 0 時，y 為 0.5。曲線的斜率一律會
正值，最高斜率為 0,0.5，然後逐漸下降
隨著 x 的絕對值增加

點選這個圖示即可查看範例。

在類神經網路中，活化函數會操縱所有輸入內容的加權總和神經元。為了計算加權總和，神經元會相關值和重量的產物。舉例來說，假設與神經元相關的輸入內容包含下列內容：

輸入值	輸入權重
2	1.3 號
-1	0.6
3	0.4

因此加權後的加總如下：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

敬上假設這個類神經網路的設計人員選擇 S 函數 活化函數。在這種情況下，神經元會計算 -2.0 的 sigmoid，大約是 0.12。因此，神經元會傳遞 0.12 (而非 -2.0) 到類神經網路中的下一層。下圖說明程序中的相關部分：

人工智慧

#fundamentals

可解決複雜任務的非人為程式或模型。例如翻譯文字的程式或模型，或是能夠從放射性圖像中找出疾病的跡象，同時都有人工智慧。

從形式上來說，機器學習是人工智慧的子領域人工智慧技術然而，近年來有些組織已經開始使用「人工智慧」和「機器學習」這兩個詞彙可以互換。

AUC (ROC 曲線下的區域)

#fundamentals

介於 0.0 到 1.0 之間的數字，代表 二元分類模型可將正向類別與 負面類別。 AUC 越近 1.0，模型的分離能力也越高互相學習

舉例來說，下圖為分類器模型區分正類別 (綠橢圓形) 與負類別 (紫色矩形)。這個不切實際的模型是 1.0 的 AUC：

有 8 個正面範例的數字行
一側則是 9 個負面示例。

相反地，下圖顯示分類器結果來產生隨機結果這個模型的 AUC 為 0.5：

含有 6 個正例和 6 個負例的數字行。
範例序列為正數、負值
正面, 負面, 正面, 負面, 正面, 負面, 正面, 正面
負面、正面、負面

是，上述模型的 AUC 為 0.5，不是 0.0。

大多數模型都在兩極端之間。舉例來說，以下模型會將正值與負數分開，中的 AUC 介於 0.5 到 1.0 之間：

含有 6 個正例和 6 個負例的數字行。
常見做法是排除、排除、排除、排除指定
正面, 負面, 正面, 正面, 正面, 正面, 正面, 正面,
正面影響。

AUC 會忽略您為 分類門檻：而是 AUC 會考量「所有」可能的分類門檻。

點選圖示即可瞭解 AUC 和 ROC 曲線之間的關係。

AUC 代表下的區域 ROC 曲線：例如：模型的 ROC 曲線與正值完全分開排除項目看起來像這樣：

AUC 是上圖中灰色區域的區域。在此特殊案例中，區域只是灰色區域的長度 (1.0) 乘以灰色區域寬度 (1.0)。因此產品 1.0 和 1.0 會產生正好為 1.0 的 AUC，也就是可能的最高值 AUC 分數。

反之，無法區分類別的分類器的 ROC 曲線會如下所示。這個灰色區域的區域為 0.5。

較典型的 ROC 曲線大致如下：

以人工方式計算曲線下面積會很困難這也是程式通常會計算大部分 AUC 值的原因。

按一下圖示即可查看 AUC 的正式定義。

AUC 是分類器較有把握的機率隨機選擇的正向範例其實是正向樣本隨機選擇的負例為正數

B

反向傳播

#fundamentals

執行時，採用的演算法 梯度下降法 ( 類神經網路。

訓練類神經網路涉及許多疊代循環階段的流程：

在正向傳遞期間，系統會處理批次批次會產生預測的範例。系統會比較每個對應至每個標籤值。預測與實際指標之間的差異就該範例而言，預測結果和標籤值是損失。系統會匯總所有樣本的損失以計算總計目前批次的損失
在反向傳遞 (反向傳播) 期間，系統會調整所有神經元的權重 隱藏的圖層。

類神經網路通常包含多個隱藏層的神經元。這些神經元會以不同方式造成整體損失。反向傳播會決定是否要增加或減少權重特定神經元

學習率是控制每次向下傳遞量增加或減少的程度。如果學習率很高，每個權重的增減幅度會比小學學習率

在微積分中，反向傳播會「鏈結規則」。來自微積分也就是說，反向傳播會計算錯誤的部分導數，事件回應每個參數。

多年前，機器學習從業人員必須撰寫程式碼來實作反向傳播。現代機器學習 API (例如 TensorFlow) 現在會為您實作反向傳播。太好了！

Batch

#fundamentals

在單一訓練中使用的範例組合疊代。批量決定了單一請求中的樣本數批次。

請參閱 訓練週期，瞭解批次與下列指標的關係：一個訓練週期

批量

#fundamentals

批次中的範例數量。舉例來說，如果批量為 100，模型就會處理每次疊代最多 100 個範例。

以下是常用的批量策略：

隨機梯度下降 (SGD)，批次大小為 1。
完整批次，其中批量為整份樣本中的樣本數 訓練集。舉例來說，如果訓練集內含 100 萬個樣本範例。全批次通常是效率不佳的策略。
迷你批次，批次大小通常介於 10 到 1000。迷你批次通常是最有效率的策略。

偏見 (倫理/公平性)

#fairness

#fundamentals

1. 對某些事物、人物或事物的刻板印象、偏見或偏見或群組比其他群組這些偏誤可能會影響集合解讀資料、系統設計，以及使用者與資料互動的方式是使用系統這類偏誤的形式包括：

2. 抽樣或回報程序引發的系統錯誤。這類偏誤的形式包括：

不要和機器學習模型的偏誤用語混淆或預測偏誤。

偏誤 (數學) 或偏誤用語

#fundamentals

與來源之間的攔截或偏移。偏誤是機器學習模型，這類模型會以包括：

b 鍵
W₀

例如，偏誤是下列公式中的 b：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線條中，偏誤只是「y 截距」。例如，下圖中的線條偏誤為 2。

斜坡為 0.5 且偏誤 (y 截距) 為 2 的線條圖。

偏誤存在，因為並非所有模型都從原點 (0,0) 開始。例如：假設遊樂園入場費 2 歐元，客戶入住每小時 0.5 歐元。因此，對應到由於最低費用為 2 歐元，因此總費用偏誤為 2。

偏誤不應與倫理和公平性中的偏誤混淆或預測偏誤。

二元分類

#fundamentals

這種分類工作類型，會會預測兩個互斥的類別之一：

正向類別
負面類別

舉例來說，下列兩個機器學習模型分別會執行二元分類：

判斷電子郵件是否屬於 spam (正類別) 或 not spam (排除類別)。
評估醫療症狀的模型，判斷是否有人有特定疾病 (正類) 或不具備特定疾病疾病 (即陰性類別)，

與多元分類的差異。

另請參閱「邏輯迴歸」和 分類門檻：

資料分組

#fundamentals

將單一功能轉換成多個二進位功能稱為 buckets 或 bins 通常是根據數值範圍切斷的功能通常是 持續推送功能。

舉例來說，與其將隨機性參數持續浮點功能，可以設定不同溫度範圍拆分為離散值區，例如：

攝氏 10 度稱為「冷」Cloud Storage 也提供目錄同步處理功能方便您同步處理 VM 目錄與值區
攝氏 11 到 24 度會是「溫度」Cloud Storage 也提供目錄同步處理功能方便您同步處理 VM 目錄與值區
攝氏 25 度會成為「暖暖」Cloud Storage 也提供目錄同步處理功能方便您同步處理 VM 目錄與值區

模型會以相同的方式處理相同值區中的每個值。適用對象例如，13 和 22 值都位於溫度值區中，因此模型會以相同的方式處理這兩個值

按一下圖示即可查看其他附註。

如果將溫度表示為連續特徵，會將溫度視為單一特徵。如果你選擇表示溫度就視為三個值區，模型會將每個值區視為獨立的特徵。也就是說，模型可以學習每個值區與 label。舉例來說 線性迴歸模型可以學習可以為每個值區建立獨立的權重。

增加區塊數會讓模型更複雜增加模型必須學習的關係量例如，冷、溫和暖值區基本上就是分別為三個不同的特徵進行訓練如果決定另外兩個值區 (如凍結和熱) 模型就會現在必須分別使用五項不同的特徵訓練

如何得知要建立的值區數量或範圍系統應採用何種值區？一般而言，這個答案需要一定進行實驗。

C

類別型資料

#fundamentals

特徵具有一組特定可能值。例如：考慮名為 traffic-light-state 的類別特徵，該功能只能在可能的值為下列其中一個值：

red
yellow
green

透過將 traffic-light-state 表示為類別特徵模型就能學習針對 red、green 和 yellow 對駕駛行為的影響。

類別特徵有時也稱為 獨立功能：

與數值資料比較。

類別

#fundamentals

標籤所屬的類別。例如：

在二元分類模型中，偵測到這兩個類別可能是「垃圾內容」且「非垃圾郵件」。
在多元分類模型中類別可以是 poodle、beagle、Pug、依此類推

「分類模型」可預測類別。相較之下，「迴歸模型」可預測而非類別

分類模型

#fundamentals

預測為類別的模型。例如，以下是所有分類模型：

模型會預測輸入語句的語言 (法文西班牙文？義大利文？)
用來預測樹種 (Maple?橡木色？猴麵包樹？)。
預測特定資料的正向或負類健康狀況

相較之下，迴歸模型會預測數字而非類別

兩種常見的分類模型類型如下：

二元分類
多元分類

分類門檻

#fundamentals

在「二元分類」中，這個數值可以轉換 邏輯迴歸模型填入正面類別的預測結果或排除類別。請注意，分類門檻是由人類選擇的值不是模型訓練選擇的值

邏輯迴歸模型會輸出介於 0 至 1 之間的原始值。然後執行下列步驟：

如果這個原始值大於分類門檻，則會產生預測結果
如果這個原始值小於分類門檻，則會產生預測結果

舉例來說，假設分類門檻為 0.8。如果原始值等於 0.9，則模型會預測正類如果原始值為 0.7，則模型會預測負類別

選擇分類門檻後，系統產生 偽陽性和 偽陰性。

按一下圖示即可查看其他附註。

隨著模型或資料集不斷演進，工程師有時也會改變分類門檻當分類門檻變更時正向類別的預測結果突然變成負面類別反之亦然

舉例來說，假設有一個二元分類疾病預測模型，假設系統在第一年執行時：

特定病患的原始值為 0.95。
分類門檻為 0.94。

因此，系統會診斷正類。(病患氣體「喔不！我生病了！」)

一年後，現在值可能如下所示：

同一患者的原始值仍為 0.95，
分類門檻會變更為 0.97。

因此，系統現在會將該病患重新分類為負類。 (「祝你有美好的一天！我才不死。」)同樣的病患。不同的診斷結果不同。

不平衡資料集

#fundamentals

分類問題的資料集每個類別的標籤各有不同。例如，假設有一個二項標籤的二元分類資料集劃分方式如下：

1,000,000 個排除標籤
10 個正面標籤

負與正標籤的比率為 100,000 to 1 是不平衡的資料集

反之，下列資料集「並非」級別不平衡，因為負面標籤與正面標籤的比率相對接近 1：

517 個排除標籤
483 個正面標籤

多類別資料集也可達到級別平衡。例如，下列多類別分類資料集也呈現不平衡分類，因為只會有一個標籤比其他兩個範例更多：

1,000,000 個包含「green」類別的標籤
200 個類別為「紫色」的標籤
350 個含有「orange」類別的標籤

另請參閱熵、主要類別。和少數類別。

裁剪

#fundamentals

處理離群值的技巧符合下列一項或兩項條件：

減少大於上限的 feature 值並調降至該門檻
將低於最低門檻的特徵值提高到該值最低門檻

舉例來說，假設特定特徵的值小於 0.5% 必須介於 40 到 60 之間。在這種情況下，您可以執行以下操作：

將超過 60 (最大門檻) 的所有值剪裁為 60 以上。
將低於 40 (最低門檻) 的所有值裁剪為 40。

離群值會損壞模型，有時會導致重量可能會發生溢位現象有些離群值也可能太劇烈例如準確率等指標。剪輯是一種用來限制導致損害的意外結果

漸層剪裁力在訓練期間指定範圍內的梯度值。

混淆矩陣

#fundamentals

一份 NxN 表，彙整正確和錯誤預測的數量摘要 分類模型 例如，請思考下列概念的混淆矩陣： 二元分類模型：

	胎兒 (預測)	非腫瘤 (預測)
真相 (真值)	18 (TP)	1 (芬蘭)
非仲裁 (真值)	6 (FP)	452 (田納西州)

上述混淆矩陣顯示如下：

在 19 筆基準真相的預測中中，模型正確分類為 18 歲，但誤歸為 1
在 458 個預測結果中，真值是非腫瘤的預測結果正確歸類為 452，但歸類為 6

多元分類的混淆矩陣問題有助於找出錯誤的模式舉例來說，假設下列 3 級的混淆矩陣分類三種 iris 類型的多元分類模型 (維吉尼亞州、維斯西色和 Setosa)。當真值是維吉尼亞州時混淆矩陣顯示模型 Versicolor 的預測結果比 Setosa：

	Setosa (預測)	Versicolor (預測)	維吉尼亞州 (預計)
Setosa (基準真相)	88	12	0
Versicolor (真值)	6	141	7
維吉尼亞州 (基準真相)	2	27	109

另一個例子是混淆矩陣顯示訓練資料的模型如果現在辨識手寫數字，往往會誤將 9 比 4 或誤將 1 預測為 1，而不是 7

混淆矩陣內含充足資訊，可計算各種成效指標，包括精確度 和喚回度。

持續特徵

#fundamentals

浮點地圖項目，範圍無限例如隨機性參數或體重

與獨立功能比較。

收斂

#fundamentals

當損失值極少變更或已達成的狀態而未每次疊代時也不會有任何改變。例如，下列 損失曲線可指出在大約 700 次的疊代下收斂：

笛卡兒圖。X 軸損失。Y 軸是訓練次數
疊代。損失在最初幾次疊代中非常高
降水經過約 100 次疊代後，損失仍
但速度會逐漸提升經過約 700 次疊代後
成本就會持平

當其他訓練無法訓練時，模型「收斂」可以改善模型

在深度學習中，損失值有時會保持不變或在最後是遞減之前多次疊代長期可能會暫時誤解誤算感。

另請參閱「提前停止」一節。

D

DataFrame

#fundamentals

這是一種常見的 pandas 資料類型，用於表示記憶體中的資料集。

DataFrame 類似於表格或試算表。每一欄 DataFrame 具有名稱 (標頭)，且每個資料列都由專屬號碼

DataFrame 中的每個資料欄都採用類似 2D 陣列的結構，除了您可以為各個資料欄指派專屬資料類型。

另請參閱官方 pandas.DataFrame 參考資料頁面。

資料集或資料集

#fundamentals

原始資料的集合，通常 (非唯一) 整理成單一項目以下格式：

試算表
檔案為 CSV (逗號分隔值) 格式

深度模型

#fundamentals

包含多個類神經網路的「類神經網路」隱藏的圖層。

深層模型又稱為「深層類神經網路」。

與廣角模型的對比度。

稠密特徵

#fundamentals

多數或所有值都不是零的功能，通常是浮點值的 Tensor。例如，下列 10 元素的 Tensor 較為密集，因為其中 9 個值為非零：

與稀疏功能的對比。

深度

#fundamentals

類神經網路中的下列項目總和：

隱藏圖層的數量
輸出層的數量，通常為 1
嵌入層的數量

例如，有五個隱藏層和一個輸出層的類神經網路深度為 6

請注意，輸入層不會影響深度

離散特徵

#fundamentals

具有一組有限可能值的功能。例如：此特徵的值可能僅為動物、蔬菜或礦物離散 (或類別) 特徵。

對比連續功能。

動態

#fundamentals

某些操作頻繁或持續執行，「動態」和「線上」是機器學習技術的同義詞。以下是機器的動態和線上常見用途學習中：

動態模型 (或線上模型) 則是模型訓練週期數
動態訓練 (或線上訓練) 是訓練程序更新頻率相當高
動態推論 (或線上推論) 是進而視需求產生預測結果

動態模型

#fundamentals

頻繁 (可能還會持續) 的模型重新訓練動態模型是「終身學習者」並不斷適應不斷變化的資料動態模型又稱為 線上模型。

與靜態模型的對比。

E

提早中止訓練

#fundamentals

正則化的方法，包括在訓練損失完成之前訓練下降中。在提早停止訓練時，您會刻意停止訓練模型 驗證資料集開始損失 increase;也就是 一般化效能會降低，

按一下圖示即可查看其他附註。

提早中止訓練聽起來可能不符合直覺。畢竟，要求模型暫停但光是下降仍減少，看起來像是告訴一位廚師在甜點完全烘焙前，不要再做菜了。不過訓練模型過長會導致過度配適。也就是說，訓練模型的時間太長模型無法準確預測新的樣本。

嵌入層

#language

#fundamentals

特殊隱藏層，可在高維度類別特徵會逐漸學習較低維度的嵌入向量一個嵌入層可讓類神經網路比單純訓練高維度類別特徵來得有效率

舉例來說，Google 地球目前大約支援 73,000 種樹木。假設樹種是模型中的特徵，輸入層包括一個 one-hot 向量 73,000 個元素。例如，也許 baobab 應表示如下：

包含 73,000 個元素的陣列。前 6,232 個元素保有價值
0.下一個元素包含值 1。最終的 66,767 個元素
並將值設為零

73,000 元素的陣列太長。如未新增嵌入層因此訓練非常耗時乘以 72,999 個零您可以選擇要納入的嵌入層 12 個維度因此嵌入層會逐漸學習為各個樹種建立全新的嵌入向量

在某些情況下，雜湊處理是合理的替代方案加入嵌入層

Epoch 紀元時間

#fundamentals

完整的訓練內含完整訓練集 確保每個範例都處理過一次。

週期代表 N/批量訓練 iterations，其中 N 是範例總數。

舉例來說，假設：

資料集包含 1,000 個範例。
批量為 50 個範例。

因此，在單一週期內，必須疊代 20 次：

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

範例

#fundamentals

features 其中一列的值，但有可能標籤。範例 監督式學習可分為兩種一般類別：

已加上標籤的範例包含一或多項特徵加上一個標籤已加上標籤的範例會在訓練期間使用。
未加上標籤的範例包含但不含標籤未加上標籤的範例會在推論期間使用。

例如，假設您正在訓練模型，藉此判斷影響顯示學生測驗成績的天氣狀況。以下是三個加上標籤的範例：

功能			標籤
溫度	溼度	氣壓	測驗分數
15	47	998	不錯
19	34	1020	極佳
18	92	1012	不佳

以下提供三個未加上標籤的範例：

溫度	溼度	氣壓
12	62	1014
21	47	1017
19	41	1021

例如，資料集的資料列通常是原始來源。也就是說，範例通常由資料欄的此外，範例中的功能可能還包括 合成功能，例如 跨項目。

F

偽陰性 (FN)

#fundamentals

以下例子：模型誤將 排除類別。例如預測特定電子郵件不是垃圾郵件 (排除類別)，但該電子郵件確實為垃圾郵件。

偽陽性 (FP)

#fundamentals

以下例子：模型誤將「正面類別」。舉例來說，模型會預測特定電子郵件是垃圾郵件 (正類)，但這種現象電子郵件不是垃圾郵件。

偽陽率 (FPR)

#fundamentals

模型未正確排除的實際排除樣本比例預測出的陽性類別以下公式計算了正值：

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率是指 ROC 曲線中的 X 軸。

功能

#fundamentals

機器學習模型的輸入變數。範例由一個或多個功能組成。舉例來說，假設您要訓練一個模型判斷天氣狀況對學生測驗分數的影響。以下表格列出三個範例，每個範例都含有三個功能及一個標籤

功能			標籤
溫度	溼度	氣壓	測驗分數
15	47	998	92
19	34	1020	84
18	92	1012	87

與標籤的對比度。

交錯組合特徵

#fundamentals

由「交叉比對」組成的合成特徵 分類統計或值區特徵。

舉例來說，你可以考慮使用「心情預測」代表的是溫度從以下四個區間之一：

freezing
chilly
temperate
warm

並且以下列三個區間之一表示風速：

still
light
windy

如果沒有交錯組合，線性模型會在各個測試前 7 個不同的值區舉例來說 freezing，而且不受訓練的影響 windy。

或是建立跨隨機性參數風速這項合成功能提供下列 12 個可能值：

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

多功能交叉性功能，可讓模型學習情緒差異介於 freezing-windy 天到 freezing-still 天之間。

如果你透過兩個特徵建立合成功能，且兩者俱備因此產生的特徵交錯組合就會有龐大的數量組合起來。舉例來說，如果某個特徵有 1,000 個值區另一個特徵有 2,000 個值區，因此交叉特徵會達到 2,000,000 Cloud Storage 也提供目錄同步處理功能方便您同步處理 VM 目錄與值區

正式上來說笛卡兒產品。

特徵交錯組合最常搭配線性模型使用，而且很少使用這種模型會使用類神經網路

特徵工程

#fundamentals

#TensorFlow

這項程序包含下列步驟：

判斷哪些功能可能很實用訓練模型
將資料集的原始資料轉換為有效的版本這些特徵的相對重要性

舉例來說，您可能會判定 temperature 可能很實用而不是每個特徵的分數接著，您可以嘗試特徵分塊實驗，讓模型從不同的 temperature 範圍內學習到的內容，達到最佳成效。

特徵工程有時也稱為 擷取功能或「特徵化」。

按一下圖示即可查看 TensorFlow 的其他附註。

在 TensorFlow 中，特徵工程通常是指轉換原始記錄檔 tf.Example 通訊協定緩衝區的項目。其他參考資訊 tf.Transform.

特徵集

#fundamentals

用來機器學習的一組功能模型用於訓練。舉例來說，郵遞區號、屬性大小和屬性條件包含一個簡單的特徵組合，用於預測房價的模型。

特徵向量

#fundamentals

feature 值陣列構成範例。特徵向量訓練及推論。例如，模型的特徵向量具有兩個獨立特徵可以是：

[0.92, 0.56]

四個圖層：一個輸入層、兩個隱藏層，以及一個輸出層。
輸入層包含兩個節點，其中一個包含
0.92 和另一個包含 0.56 的值。

每個範例會為特徵向量提供不同的值，因此下一個範例的特徵向量如下：

[0.73, 0.49]

特徵工程會決定如何呈現建立特徵向量的功能例如，帶有以下字詞的二元類別特徵五個可能的值 one-hot 編碼。在這個範例中，這個範例的特徵向量是含有 4 個 0 一個 1.0 的值，如下所示：

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子，假設您的模型包含三個特徵：

二元類別特徵，其中有 5 個可能的值，以 one-hot 編碼；例如：[0.0, 1.0, 0.0, 0.0, 0.0]
另一個二元類別特徵，含 3 個可能的值。採用 one-hot 編碼；例如：[0.0, 0.0, 1.0]
浮點功能；例如：8.3。

在本例中，每個範例的特徵向量除以 9 值以上述清單中的範例值來說，特徵向量如下：

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

回饋循環

#fundamentals

在機器學習中，模型的預測會影響搭配相同模型或其他模型的訓練資料例如，模型系統推薦電影之後，人們觀賞的電影影響後續的電影推薦模型

G

一般化

#fundamentals

模型對新的、先前未顯示的資料可一般化的模型則相反 過度配適的模型

按一下圖示即可查看其他附註。

您將根據訓練集中的範例訓練模型。因此模型會學習訓練集內的資料特性一般化基本上，模型會詢問模型能否對範例做出良好的預測「不在」訓練集內

為促進一般化 正則化有助於訓練模型反之則較不準確

一般化曲線

#fundamentals

訓練損失和驗證損失，疊代。

一般化曲線可協助您 過度配適。例如，下列一般化曲線指出過度配適是因為驗證損失最終遠大於訓練損失。

以購物車圖為例，Y 軸表示損失，X 軸
已標記為「疊代」畫面上會出現兩張圖。一張圖表顯示
分別代表訓練損失及驗證損失
這兩份圖表一開始看起來很類似，但訓練損失最終會
低點則遠低於驗證損失。

梯度下降法

#fundamentals

盡可能減少損失的數學技巧。漸進式下降法權重和偏誤、逐漸找出最佳組合，將損失降到最低。

梯度下降法比機器學習更舊，比機器學習更舊。

基準真相

#fundamentals

。

實際發生的情形。

比方說，請考慮使用二元分類 預測學生是否攻讀大學會在六年內升級這個模型的真值而不是實際上在六年內畢業

按一下圖示即可查看其他附註。

我們會依據真值評估模型品質。但基準真相但這不一定完全正確舉例來說，假設以下為基準真相中潛在不完美的示例：

以畢業為例，我們「確定」畢業每位學生的記錄一律正確嗎？大學的我的唱片完美無缺嗎？
假設標籤是儀器測量的浮點值 (例如氣壓計)。那麼我們該如何確保每種樂器兩者的讀數都相同，或者每次讀數都是情況如何？
如果標籤是涉及真人意見，我們如何確定每個人工評分者都會評估嗎？為提高一致性，在某些情況下，人工評估人員有時會採用「專業」評估人員或緩解措施

H

隱藏層

#fundamentals

「類神經網路」中的一層輸入層 (特徵) 和「輸出層」 (預測結果)。每個隱藏層都含有一或多個「神經元」。例如，下列類神經網路包含兩個隱藏層第一個包含三個神經元，第二個則帶有兩個神經元：

四層。第一個層是輸入層
接著介紹網際網路通訊層
包括兩項主要的安全防護功能第二層是隱藏層
神經元第三層是隱藏層
神經元第四層是輸出層每項地圖項目
包含三個邊緣，每個邊緣分別指向不同的神經元
指定初始層第二層中的每個神經元
包含兩個邊緣，每個邊緣分別指向不同的神經元
第三層的結構第三層中的每個神經元
一個邊緣，每個邊緣都指向輸出層

深層類神經網路包含多個隱藏層舉例來說，上圖是深層類神經網路的因為模型包含兩個隱藏層

超參數

#fundamentals

您或超參數調整服務的變數在連續執行模型時調整例如：「學習率」是超參數。您可以先將學習率設為 0.01，再進行訓練課程如果發生以下情況：假設 0.01 過高下個單元的學習分數為 0.003

相較之下，參數是各種模型的權重和偏誤會在訓練過程中學習。

I

獨立且均勻分佈 (i.i.d)

#fundamentals

從未改變的分佈情形取得的資料，以及每個值繪製的性質不受先前繪製的值影響。是 i.i.d。理想氣體機器學習—實用的數學結構，但幾乎從未見過實際體驗例如網頁訪客的分佈情形可以是 i.i.d。縮短時間也就是說並在短暫的時間內產生變化相互獨立但若您延長這段時間兩個不同版本的網頁訪客

另請參閱非期待性。

推論

#fundamentals

在機器學習中，產生預測結果的過程將經過訓練的模型套用至未加上標籤的範例。

在統計資料中，「推論」的含意略有不同。詳情請參閱有關統計推論的維基百科文章。

輸入層

#fundamentals

類神經網路的層包含特徵向量。也就是輸入層提供訓練範例、推論。例如，下圖中的輸入層類神經網路包含兩項功能

四個圖層：一個輸入層、兩個隱藏層，以及一個輸出層。

可解釋性

#fundamentals

能夠解釋或呈現機器學習模型的推論能力人類能夠理解的詞彙

例如，大多數線性迴歸模型才會具有可解釋性(您只需查看每個 feature.)決策樹也具有高度可解釋性。不過有些模型需要複雜的圖表才能呈現出可解釋性

您可以使用 可解釋性學習工具 (LIT) 解釋機器學習模型

疊代

#fundamentals

單次更新模型參數，也就是模型的期間權重和偏誤訓練。批量會決定模型在單一疊代中處理多少樣本舉例來說：如果批量為 20，則模型會先處理 20 個樣本調整參數

訓練類神經網路時，只會執行一次涉及以下兩條通道：

評估單一批次損失的前向傳遞。
反向傳遞 (反向傳播)，用於調整模型將依據損失和學習率調整參數。

L

L₀ 正則化

#fundamentals

一種正則化，會影響非零的權重「總數」模型例如 11 個非零權重的模型會比權重 10 不為零的相似模型更受到懲罰。

L₀ 正則化有時稱為 L0 正規化。

按一下圖示即可查看其他附註。

在大型模型中，L₀ 正則化通常不切實際 L₀ 正則化將訓練轉換為凸顯最佳化問題

L₁ 損失

#fundamentals

計算絕對值的損失函式 實際標籤值與也就是模型預測的值。舉例來說，以下是以五分之一的批次 L₁ 損失計算例子：

範例的實際值	模型的預測值	Delta 的絕對值
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = 損失 ₁

L₁ 損失對離群值敏感度較低少於 L₂。

平均絕對錯誤是平均值每個範例 L₁ 損失。

按一下圖示即可查看正式數學。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 是範例的數量。
$y$ 是標籤的實際值。
模型預測 $y$ 的值為 $\hat{y}$。

L₁ 正則化

#fundamentals

會懲罰的一種正則化類型權重，其與權重值L₁ 正則化有助於彌補不相關的權重或幾乎不相關的特徵或等於 0。功能系統會從模型中有效移除權重 0。

與 L₂ 正則化對比。

L₂ 損失

#fundamentals

計算平方的損失函式 實際標籤值與也就是模型預測的值。舉例來說，以下是計算五分之批次的 L₂ 損失計算結果例子：

範例的實際值	模型的預測值	差異遷移廣場
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = 損失₂

由於質量的關係，L₂ 損失代表 離群值：換句話說，相較於不良預測，L₂ 損失對預測結果的反應強烈 L₁ 流失。例如：L₁ 損失前一批數量是 8 而不是 16請注意就是 16 中的 9。

迴歸模型通常使用 L₂ 損失做為損失函式

均方誤差是平均值的每個例子的 L₂ 損失率。「平方損失」是 L₂ 損失的另一個名稱。

按一下圖示即可查看正式數學。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

其中：

$n$ 是範例的數量。
$y$ 是標籤的實際值。
模型預測 $y$ 的值為 $\hat{y}$。

L₂ 正則化

#fundamentals

會懲罰的一種正則化類型權重，佔權重正方形的總和。 L₂ 正則化可協助提升離群值 (也就是許多數值都很接近 0，但並非相當 0。值非常接近 0 的特徵會保留在模型中但不會影響模型的預測結果

L₂ 正則化一律會改善 線性模型。

與 L₁ 正則化對比。

有標籤樣本

#fundamentals

包含一或多個地圖項目和 label。舉例來說，下表顯示三個根據房屋估值模型加上標籤的範例，每個模型都包含三項特徵和一個標籤：

臥室數量	浴室數量	房屋年齡	房屋價格 (標籤)
3	2	15	$345,000 美元
2	1	72	$179,000 美元
4	2	34	$392,000 美元

在監督式機器學習中模型會根據加上標籤的樣本進行訓練 未加上標籤的範例。

對比有未加上標籤的範例的對比標籤。

lambda

#fundamentals

正規化率的同義詞。

Lambda 是一個超載的字詞。這裡我們把重點放在 正則化中的定義。

圖層

#fundamentals

一組神經元，類神經網路。三種常見的圖層類型如下：

輸入層，用來提供功能。
一或多個隱藏圖層，找到特徵與標籤之間的非線性關係。
提供預測的輸出層。

舉例來說，下圖中的類神經網路一個輸入層、兩個隱藏層，以及一個輸出層：

一個類神經網路，其中有一個輸入層、兩個隱藏層和
輸出層輸入層包含兩項特徵。第一個
由三個神經元和第二個隱藏層
由兩個神經元組成輸出層由單一節點組成。

在 TensorFlow 中，圖層是 Python 函式，使用 Tensor 和設定選項做為輸入和會產生其他張量做為輸出內容

學習率

#fundamentals

指出梯度下降法的浮點數演算法對每個符記的權重和偏誤疊代。舉例來說，如果學習率為 0.3 調整權重和偏誤的調整效果比學習率高出三倍 0.1。

學習率是重要的超參數。如果您為學習率過低，訓練時間太長如果將學習率設為過高時，梯度下降法經常發生問題觸及對話。

按一下圖示即可查看更多數學說明。

在每次疊代中 梯度下降法 會乘以依梯度區分學習率完成的結果稱為 梯度步驟

線性

#fundamentals

兩個以上可以單純表示的變數之間的關係可以結合加法和乘法

線性關係圖是以線條表示。

與nonlinear對比。

線性模型

#fundamentals

為每個模型指派一個權重。 feature 進行預測。 (線性模型也包含偏誤)。相對地 深度模型中的特徵與預測之間的關係通常都是nonlinear。

線性模型通常較容易訓練，比深度模型可解讀。不過深度模型可以學習特徵之間的複雜關係。

線性迴歸和 邏輯迴歸是兩種線性模型的類型。

按一下圖示即可查看計算結果。

線性模式遵循以下公式：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

其中：

是是原始預測結果(在特定類型的線性模型中原始預測結果會進一步修改舉例來說，請參閱 邏輯迴歸)。
b 是偏見。
w 是權重，因此 w₁ 是第一個特徵的權重，₂ 則是第二項功能等等
x 是一個功能，因此 x₁ 是 x₂ 是第二個特徵的值依此類推

，瞭解如何調查及移除這項存取權。舉例來說，假設三個特徵的線性模型學習了以下內容偏誤和權重：

b = 7
W₁ = -2.5
w₂ = -1.2
w₃ = 1.4

，瞭解如何調查及移除這項存取權。因此，在設定三個特徵 (x₁、x₂、和 x₃)，線性模型會使用下列方程式來產生每項預測結果

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

假設某個特定範例包含以下值：

x₁ = 4
x₂ = -10
x₃ = 5

，瞭解如何調查及移除這項存取權。將這些值輸入公式後，系統就會以此範例產生預測結果：

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

線性模式不只包括只使用線性方程式的模型進行預測，也包含一系列使用線性方程式的模型只是公式中的一個元件例如，邏輯迴歸在後續處理預測結果 (y') 產生 0 到 1 之間的最終預測值。

線性迴歸

#fundamentals

這種機器學習模型符合下列兩種條件：

模型為線性模型。
預測結果為浮點值。(這是迴歸部分屬於線性迴歸)。

使用邏輯迴歸的對比線性迴歸。此外，使用分類時則適合使用迴歸。

邏輯迴歸

#fundamentals

用來預測機率的迴歸模型。邏輯迴歸模型具有下列特性：

這個標籤為類別。「物流」一詞迴歸通常是指「二元邏輯迴歸」，也就是模型來計算標籤機率。較不常見的變體「多項式邏輯迴歸」會計算具有超過兩個可能值標籤的機率。
訓練時的損失函式為記錄損失。 (標籤可同時放置多個記錄檔遺失單元) 超過兩個可能的值)。
模型採用線性架構，而非深層類神經網路。然而，此定義的其餘部分預測機率的深度模型 以分類標籤

舉例來說，假設有一個邏輯迴歸模型輸入電子郵件遭歸類為垃圾郵件或非垃圾郵件的機率。假設模型在推論期間預測為 0.72，因此，正在估算的模型

電子郵件被歸類為垃圾郵件的機率為 72%。
電子郵件非垃圾郵件的機率為 28%。

邏輯迴歸模型採用下列兩步驟架構：

模型會套用線性函數來產生原始預測結果 (y') 輸入特徵
模型會使用該原始預測結果做為輸入內容 sigmoid 函式，可用於轉換原始傳回 0 到 1 之間的值 (不含 0 和 1)。

如同任何迴歸模型，邏輯迴歸模型可預測數字。然而，這個數字通常會成為二元分類的一部分如下所示：

如果預測數字大於 分類門檻，二元分類模型會預測正類
如果預測的數量小於分類門檻，二元分類模型會預測負類別

對數損失

#fundamentals

用於二進位檔的損失函式 邏輯迴歸：

按一下圖示即可查看計算結果。

以下公式可計算對數損失：

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

其中：

$(x,y)\in D$ 是含有許多已加上標籤的資料集也就是配對 $(x,y)$
$y$ 是加上標籤的範例中的標籤。這是邏輯迴歸 $y$ 的每個值都必須是 0 或 1。
$y'$ 是預測值 (介於 0 到 1 之間，不含 0 和 1) 就會採用 $x$中的一組功能

對數勝算比

#fundamentals

部分事件機率的對數。

按一下圖示即可查看計算結果。

如果事件是二元機率，則「機率」是指成功機率 (p) 與失敗 (1-p)。舉例來說，假設指定事件達到 90% 成功機率和 10% 的失敗機率在本例中機率的計算方式如下：

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

對數等於是勝數的對數。按照慣例「對數」指的是自然對數、但對數實際上可以是大於 1 的任何底數依照慣例，我們範例中的記錄機率為：

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

對數機率函式與 S 函數。

損失

#fundamentals

完成這項操作的訓練期間監督式模型，可測量模型的預測結果來自其標籤。

損失函式會計算損失。

損失曲線

#fundamentals

以損失表示訓練次數的函式圖疊代。下圖顯示一般損失率曲線：

呈現損失與訓練疊代的笛卡兒圖，
初期疊代的損失迅速減少然後逐漸下降
最後反覆練習時是平緩下降的曲線

損失曲線可協助您判斷模型收斂或過度配適。

損失曲線可繪製以下所有類型的損失：

訓練損失
驗證損失
測試損失

另請參閱一般化曲線。

損失函式

#fundamentals

在訓練或測試期間，計算在批次中執行損失。損失函式會傳回較低的損失對於具有良好預測預測結果不佳。

訓練的目的通常是將損失函數的損失降至最低就會傳回值。

可以找到許多不同類型的損失函式。挑選適當的損失選項函式。例如：

L₂ 損失 (或 均方誤差) 是線性迴歸的損失函式。
Log Loss 是 邏輯迴歸：

M

機器學習

#fundamentals

訓練輸入資料中的 model。經過訓練的模型根據新的 (前所未見) 資料與用來訓練模型的分佈相同。

機器學習也是指研究領域提供這些程式或系統的相關資訊

多數類別

#fundamentals

在 class-imbalanced 資料集：例如：如果某個資料集含有 99% 的負標籤和 1% 陽性標籤，負標籤是多數類別

與少數類別的對比。

迷你批次

#fundamentals

隨機選擇的少數批次子集疊代。迷你批次的「批次大小」通常 10 至 1,000 個範例。

舉例來說，假設整個訓練集 (完整批次) 包含 1,000 個範例此外，假設您將將每個迷你批次的批次大小降至 20。因此，每項疊代後，從 1,000 個樣本中隨機決定 20 個可能的損失，然後並據此調整權重和偏誤。

用迷你批次計算損失的效率比所有樣本的損失

少數類別

#fundamentals

中較不常見的標籤 class-imbalanced 資料集：例如：如果某個資料集含有 99% 的負標籤和 1% 陽性標籤，則為少數類別

與主要類別的對比。

按一下圖示即可查看其他附註。

有百萬種範例音效的訓練集也令人印象深刻不過，如果少數類別代表的特徵不足那麼即使是非常大型的訓練集也可能不敷使用減少專注力例如資料集內的樣本總數列舉幾個例子

如果資料集內的少數類別範例不足，請考慮您可以使用向下取樣 (定義 ) 為少數類別補充資訊。

模型

#fundamentals

一般而言，任何處理輸入資料並傳回輸出內容詞組不同，模型是指由參數和結構組成的集合以及系統進行預測所需的資料在監督式機器學習中模型會將範例做為輸入內容，以 predict 形式建立預測。在監督式機器學習中稍有不同例如：

線性迴歸模型包含一組權重以及偏誤。
「類神經網路」模型包含：
- 一組隱藏圖層，每個圖層都包含一個或更多神經元。
- 與各個神經元相關聯的權重和偏誤。
決策樹模型包含：
- 樹木的形狀；也就是條件葉子彼此相連
- 條件和葉子。

您可以儲存、還原或複製模型。

非監督式機器學習 產生的模型，通常是將輸入範例對應至最適當的叢集。

點選這個圖示，即可比較代數和程式設計函式與機器學習模型。

代數函式如下：

  f(x, y) = 3x -5xy + y² + 17

上述函式會將輸入值 (x 和 y) 對應至輸出內容

同樣地，類似下列的程式設計函式也是模型：

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

呼叫端會將引數傳遞至上述 Python 函式， Python 函式產生輸出內容 (透過 return 陳述式)。

雖然深層類神經網路 數學結構與代數或程式設計大不相同深層類神經網路仍會接收輸入內容 (範例) 並傳回輸出內容 (預測結果)。

真人程式設計師手動編寫程式設計函式。相對地機器學習模型會逐漸學習最佳參數預先訓練的 BERT 模型

多元分類

#fundamentals

在監督式學習中，會發生分類問題資料集中包含超過兩個 類別的標籤。例如，Iris 資料集中的標籤必須是下列其中一項三個類別：

伊里斯馬索薩
伊利斯.維吉尼卡 (Iris virginica)
虹彩

以 Iris 資料集訓練而成的模型，可針對新的範例預測 Iris 類型也就是執行多元分類

相對的，分類問題則能區分類別為「二元分類模型」。例如預測「垃圾郵件」或「非垃圾郵件」的電子郵件模型是一種二元分類模型

在分群問題中，「多類別分類」是指兩個叢集

否

負類

#fundamentals

在「二元分類」中，一個類別是另一個字詞是「負面」，另一個則是「負面」。正類為模型正在測試的內容或事件，而負類別例如：

醫療檢測中的陰性類別可能為「非腫瘤」。
電子郵件分類器中的排除類別可能為「非垃圾郵件」。

與正向類別的對比。

輸出內容

#fundamentals

含有至少一個內容的模型隱藏的圖層。「深層類神經網路」是一種類神經網路含有多個隱藏層例如，下圖會顯示包含兩個隱藏層的深層類神經網路

一個類神經網路，其中有輸入層、兩個隱藏層
輸出層

類神經網路中的每個神經元都會連線至下一層中的所有節點。例如，在上圖中，有三個神經元分別連結至第二個隱藏層

在電腦上實作的類神經網路有時也稱為 人工類神經網路 腦力激盪和其他神經系統中的類神經網路

某些類神經網路可以模擬非常複雜的非線性關係區分特徵和標籤

另請參閱卷積類神經網路和循環類神經網路。

神經元

#fundamentals

在機器學習中，隱藏層中的不同單位類神經網路的變體。每個神經元都會執行下列雙步驟動作：

計算輸入值相乘的加權總和 計算依據的權重
將加權總和做為輸入內容傳送至 活化函數。

第一個隱藏層中的神經元接受來自特徵值的輸入 輸入層神經元會隱藏在第一個值會接受來自先前隱藏層中神經元的輸入內容。舉例來說，第二個隱藏層中的神經元會接受來自產生第一個隱藏層的神經元

下圖標明兩個神經元輸入內容

一個類神經網路，其中有輸入層、兩個隱藏層
輸出層並醒目顯示兩個神經元：一個
另一個隱藏層醒目顯示的
第一個隱藏層的神經元會從兩個特徵接收輸入內容
特定物件第二個隱藏層中醒目顯示的神經元
會從第一個隱藏的神經元中的三個神經元
接收輸入內容
執行

類神經網路中的神經元會模仿神經元在大腦中的行為其他部分

節點 (類神經網路)

#fundamentals

隱藏層中的神經元。

nonlinear

#fundamentals

兩個或多個無法單獨表示的變數之間的關係可以結合加法和乘法線性關係能以線條表示不能是nonlinear關係。以線條表示舉例來說，假設兩個模型都具有將單一特徵套用至單一標籤左側模型為線性右側模型為非線性

兩圖。其中一張圖是線條，就屬於線性關係。
另一條圖為曲線，因此是非線性關係。

非穩定性

#fundamentals

這類特徵的值會隨著一或多個維度改變，通常是時間。例如，請考慮下列非持久性的例子：

特定商店的泳裝數量會因季節而異。
特定區域採集的水果數量這個期間的大部分時間為 0，但短期內的值會大於 0。
每年平均溫度因氣候變遷而持續改變。

與stationarity 相反。

正規化

#fundamentals

大致來說，轉換變數的實際範圍轉換為標準值範圍，例如：

-1 到 +1
0 至 1
常態分佈

舉例來說，假設某個特徵值的實際範圍是 800 到 2,400 之間。做為特徵工程的一部分都能將實際值正規化為標準範圍例如 -1 到 +1。

正規化是 特徵工程：模型訓練速度通常更快訓練資料中每個數值特徵 特徵向量大致相同。

數值資料

#fundamentals

特徵，以整數或實值表示。舉例來說，房屋估值模型可能代表以數值資料表示的房屋 (平方英尺或平方公尺)。代表將特徵視為數值資料與標籤之間的「數學」關係。也就是房子的平方公尺以及房屋價值的數學關係

並非所有整數資料都應以數字資料表示。例如：全球某些地區的郵遞區號為整數；但如果是整數郵政在模型中，請勿將代碼顯示為數值資料。這是因為 20000 的郵遞區號不是兩倍 (或半) 的郵遞區號， 10,000。此外，雖然不同的郵遞區號「確實」與不同房地產價值，我們無法假設郵遞區號中的房地產價值 20000 的價值是房地產價值的兩倍，以郵遞區號 10000 表示。郵遞區號應以類別型資料表示。

數字特徵有時稱為 持續推出的功能：

O

離線

#fundamentals

static 的同義詞。

離線推論

#fundamentals

模型產生批次預測結果的程序然後快取 (儲存) 這些預測資料這樣一來，應用程式就能存取推測而非重新執行模型

舉例來說，假設某個模型可以產生當地天氣預報 (預測) 每四小時一次。每個模型執行完畢後，系統會快取所有當地天氣預報資訊。天氣應用程式擷取預報資訊從快取中取得

離線推論也稱為「靜態推論」。

與線上推論的差異。

one-hot 編碼

#fundamentals

以向量表示類別資料，方法如下：

1 個元素設為 1，
所有其他元素則設為 0。

one-hot 編碼通常用於代表可能的值數量有限例如，假設某項類別特徵的名稱是 Scandinavia 有五個可能的值：

「丹麥」
「瑞典」
「挪威」
「芬蘭」
「冰島」

one-hot 編碼可代表這五個值，如下所示：

country	向量
「丹麥」	1	0	0	0	0
「瑞典」	0	1	0	0	0
「挪威」	0	0	1	0	0
「芬蘭」	0	0	0	1	0
「冰島」	0	0	0	0	1

透過 one-hot 編碼，模型可學習不同的連線製作不同國家/地區的實驗

以「數字資料」表示特徵是 one-hot 編碼的替代方法不幸的是不建議在斯堪地那維亞國家使用數字。例如：看看以下的數值：

「丹麥」為 0
「瑞典」1 是
「挪威」2 是
「芬蘭」是 3 個
「冰島」4 是

使用數字編碼時，模型會解讀原始數字然後嘗試根據這些數字進行訓練。不過，冰島實際上並非兩倍 (或一半) 所以模型會得出一些奇怪的結論，

一對多

#fundamentals

由於 N 類別的分類問題，由 N 個獨立的元件組成 二進位分類器—一種二進位分類程式，用於各項可能的結果例如，假設某個模型會分類範例無論是動物、蔬菜或礦物，哪種解決方案都能提供下列三種不同的二進位分類器：

動物之對不是動物
蔬菜與非蔬菜
礦物與非礦物

線上

#fundamentals

動態的同義詞。

線上推論

#fundamentals

根據需要產生預測。例如：假設應用程式將輸入內容傳遞至模型，並向預測結果使用線上推論的系統以將預測結果傳回應用程式

與離線推論比較。

輸出層

#fundamentals

「最終」類神經網路層的架構輸出層包含預測結果。

下圖顯示一個小型深層類神經網路兩個隱藏層，和輸出層：

過度配適

#fundamentals

建立符合訓練資料，導致模型無法對新資料做出正確的預測

正規化可減少過度配適的情況。提供多種訓練集的訓練，也有助於減少過度配適。

按一下圖示即可查看其他附註。

過度配適就像根據自己常用的建議嚴格把關老師。您或許能在那位老師的課程中獲得成功，但可能「過度配適」與這位老師分享的想法，在其他人的創意上類別遵循由老師共同的建議，可讓您：根據新的情境做出調整

P

pandas

#fundamentals

以 numpy 為基礎建構而成的資料欄導向資料分析 API。許多機器學習架構包括 TensorFlow，支援 pandas 資料結構做為輸入內容。詳情請參閱 pandas 說明文件。

參數

#fundamentals

模型在訓練期間學習的權重和偏誤訓練。例如，在 線性迴歸模型，這類參數由產生偏誤 (b) 和所有權重 (w₁、w₂、以此類推：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相反地，「超參數」是指「您」 (或超參數切換服務) 提供給模型。舉例來說，「學習率」是超參數。

正類

#fundamentals

您要測試的類別。

舉例來說，癌症模型的正類可能為「tumor」。電子郵件分類器中的正類別可能是「垃圾郵件」。

與負面類別比較。

按一下圖示即可查看其他附註。

「正面類別」一詞可能令人感到困惑，因為結果許多測試往往是不理想的結果。舉例來說許多與腫瘤或疾病相關的醫療檢測一般而言，您希望醫生表示：「恭喜！測試結果是負面的。」無論如何，正類都是測試尋找的事件。

當然，你能同時測試正面和負面類別

後續處理

#fairness

#fundamentals

在執行模型「之後」調整模型的輸出內容。後續處理可用於強制執行公平性限制，而不以及模型本身

例如將後續處理套用至二元分類器並設定分類門檻 機會平等 確認某項屬性的真陽率 該屬性的所有值都相同。

預測

#fundamentals

模型的輸出內容。例如：

二元分類模型的預測結果為正數或負類別
多元分類模型的預測結果為單一類別。
線性迴歸模型的預測結果是數字。

Proxy 標籤

#fundamentals

用來估算資料集中無法直接提供的標籤的資料。

舉例來說，假設您必須訓練模型來預測員工壓力水平。您的資料集包含許多預測功能沒有名為「stress level」的標籤。就算你選了「工作場所意外」做為壓力水平。畢竟，處於高壓力的員工會變得更加健康而非冷靜的員工還是實際行動？可能會發生職場意外究竟是出於多種原因而攀升

第二個例子：假設您希望「它是雨天嗎？」使用布林值標籤但資料集不含雨資料如果使用者可以拍攝人物相片搬運雨傘做為「正在下雨嗎？」的代理標籤？請問適當的 Proxy 標籤？有可能，但某些文化的人比起雨，更有可能攜帶遮陽傘來保護太陽的機率。

Proxy 標籤通常不夠完善。如果可以的話，請將實際標籤 Proxy 標籤如果沒有實際標籤，請選擇 Proxy 並謹慎選擇最不可能的 Proxy 標籤

R

RAG

#fundamentals

以下字詞的縮寫 擷取評估產生版本。

資料標註者

#fundamentals

提供範例標籤的真人。「註解者」是評分者的另一個名稱

線性整形單元 (ReLU)

#fundamentals

啟用函式，行為如下：

如果輸入為負數或零，則輸出值為 0。
如果輸入為正數，則輸出結果等於輸入內容。

例如：

如果輸入是 -3，則輸出為 0。
如果輸入是 +3，則輸出結果是 3.0。

ReLU 的情節如下：

兩條卡通圖畫。第一行具有常數
y 值為 0，沿著 X 軸 (-infinity，0 到 0,-0) 計算。
第二行的起始值為 0,0。這條線的斜率為 +1
介於 0,0 到 +infinity 之間

ReLU 是很受歡迎的活化函數。儘管它的單純行為很簡單 ReLU 仍可讓類神經網路學習nonlinear Feature 和 label 之間的關係。

迴歸模型

#fundamentals

非正式的模型，可以產生數值。(相對地，分類模型會產生類別 prediction.)例如，以下是所有迴歸模型：

用來預測特定房屋價值的模型，例如 423,000 歐元。
預測特定樹木的壽命，例如 23.2 年。
預測特定城市的降雨量模型，例如 0.18 英寸

迴歸模型有兩種常見的類型：

線性迴歸：找出將標籤值對應到特徵
邏輯迴歸：則系統通常會對應至特定類別的機率為 0.0 至 1.0 的機率預測結果

並非每個輸出數值預測的模型都是迴歸模型。在某些情況下，數字預測結果實際上只是分類模型會發生的數字類別名稱例如數值郵遞區號是分類模型，不是迴歸模型。

正則化

#fundamentals

任何可減少過度配適的機制。常見的正規化類型包括：

L₁ 正則化
L₂ 正則化
丟棄正則化
盡早停止 (這非正式但可有效限制過度配適)

正規化也可以定義為模型複雜度的懲罰。

按一下圖示即可查看其他附註。

正規化符合直覺。正規化功能日益普及增加訓練損失，這會令人困惑，因為「最大化」訓練損失的目標？

其實不必。目標不是將訓練損失降至最低。目標是根據實際範例做出極佳的預測雖然大家都知道正規化增加後，訓練損失會增加更準確地預測實際範例。

正則化率

#fundamentals

這個數字用來指定 正則化形式。提高正則化率可降低過度配適，但可能會降低模型的預測能力相反地，如果減少或省略正則化率會增加過度配適。

按一下圖示即可查看計算結果。

正規化率通常以希臘字母 lambda 表示。以下簡化的損失算式如下 lambda 的影響：

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

其中正則化是任何正規化機制，包括：

L₁ 正則化
L₂ 正則化

ReLU

#fundamentals

「Rectified Linear Unit」的縮寫。

檢索增強生成 (RAG)

#fundamentals

一個能改善 大型語言模型 (LLM) 輸出內容方法以在模型訓練後所擷取的知識來源為基礎。 RAG 向訓練過的 LLM 提供存取從信任的知識庫或文件擷取的資訊。

使用檢索增強生成技術的常見動機包括：

提高模型生成回應的事實準確率。
將非訓練目的知識提供給模型。
變更模型使用的知識。
讓模型能夠引用來源。

舉例來說，假設化學應用程式使用 PaLM API，以產生摘要與使用者查詢有關的資訊當應用程式的後端收到查詢時，後端：

搜尋與使用者查詢相關的資料 (「擷取」)。
在使用者的查詢中附加 (「錯誤」) 相關化學資料。
指示 LLM 根據附加資料建立摘要。

ROC (接收者操作特徵) 曲線

#fundamentals

真陽率與不同人的偽陽率 二進位的分類門檻 例如單一語句分類

ROC 曲線的形狀表明二元分類模型的能力將正類與負類別區分開來舉例來說二元分類模型來自所有正類的類別：

數字行右側有 8 個正面範例
左邊是 7 個負面示例。

上述模型的 ROC 曲線如下所示：

ROC 曲線。X 軸為偽陽率，Y 軸
是真陽率曲線的 L 形狀為反轉 L。曲線
會從 (0.0,0.0) 開始，直至 (0.0,1.0)。然後沿著曲線
從 (0.0,1.0) 到 (1.0,1.0)。

相較之下，下圖呈現了原始邏輯迴歸無法將負類別與的正向類別：

有正例和負類的數值行
完全排除。

這個模型的 ROC 曲線如下所示：

ROC 曲線，實際上是 (0.0,0.0) 的直線
(1.0,1.0)。

同時，大多數二元分類模型也在現實世界中各自獨立到某種程度的正面和負面類別，但這通常不盡完美所以典型的 ROC 曲線在兩極極端之間：

ROC 曲線。X 軸為偽陽率，Y 軸
是真陽率ROC 曲線接近弧形弧形
從西到北進行指南針。

理論上最接近 (0.0,1.0) 的 ROC 曲線點，可識別出理想的分類門檻不過，還有一些其他真實問題決定理想的分類門檻例如：偽陰性的情況比偽陽性更大的疼痛。

名為 AUC 的數值指標總結了 ROC 曲線單一浮點值

均方根誤差 (RMSE)

#fundamentals

均方誤差的平方根。

S

S 函數

#fundamentals

「擠壓」的數學函式限制多個輸入值通常是 0 到 1，或 -1 到 +1。也就是說，您可以傳送任何數字 (2、100 個字元) 然後輸出小於零分的倒數因此受到限制 S 函數的圖表如下所示：

S 函數在機器學習領域有幾項用途，包括：

轉換 邏輯迴歸 也就是多項式迴歸模型機率最高的符記
做為某些 Google 服務的活化函式 類神經網路

按一下圖示即可查看計算結果。

輸入數字 x 上方的 S 函數函數如下：

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在機器學習中，x 通常是 加權總和：

軟性最高

#fundamentals

此函式可決定中每個可能類別的機率 多元分類模型：機率加起來確切來說是 1.0例如，下表顯示 softmax 的發布方式各種機率：

圖片為...	機率
狗	0.85
cat	0.13
馬	0.02

Softmax 也稱為「full softmax」。

與候選抽樣比較。

按一下圖示即可查看計算結果。

softmax 方程式如下：

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

其中：

$\sigma_i$ 是輸出向量。輸出向量的每個元素會指定此元素的機率所有元素總和輸出向量為 1.0輸出向量包含的數值相同 $z$ 做為輸入向量
$z$ 是輸入向量。輸入向量的每個元素都包含浮點值
$K$ 是輸入向量中的元素數量 ( 向量)。

舉例來說，假設輸入向量是：

[1.2, 2.5, 1.8]

因此，softmax 的計算分母如下：

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

因此，每個元素的 softmax 機率如下：

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

因此，輸出向量如下所示：

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 中三個元素的總和為 1.0。太好了！

稀疏特徵

#language

#fundamentals

特徵的值主要為零或空白。舉例來說，包含 1 個值和 100 萬個值的特徵是稀疏。相反地，稠密特徵的值通常不是零或空白

在機器學習領域，有許多令人驚訝的特徵是稀疏特徵。類別特徵通常是稀疏的特徵。舉例來說，以森林中有 300 種可能的樹種為例，可能只會辨識楓樹。或是數百萬一個範例可能會找出就只要「Casablanca」即可。

在模型中，您通常會使用 one-hot 編碼。如果 one-hot 編碼太大可以將嵌入層放在 one-hot 編碼來提高效率。

稀疏表示法

#language

#fundamentals

在稀疏特徵中僅儲存非零元素的 position(s)。

舉例來說，假設名為 species 的類別特徵識別為 36 可以瞭解特定森林中的大樹種進一步假設 example 只能識別單一物種。

您可以使用 one-hot 向量來表示每個範例中的樹木種類。單樣本向量會包含單一 1 (代表在此範例中的特定樹種) 和 35 個 0 (代表這個例子中「沒有」35 種樹種)。one-hot 表示法的 maple 可能如下所示：

在 0 到 23 排名的向量中，值 0，位置。
24 包含值 1，排名 25 到 35 則包含值 0。

或者，稀疏表示法只會找出特定物種如果 maple 位於 24 的位置，則為稀疏表示法 maple 就是：

請注意，稀疏表示法比單一樣本更為精簡這種表示法

按一下圖示即可查看較複雜的範例。

假設模型中的每個範例都必須代表字詞，但不得字詞的順序 (以英文句子表示)。英文約為 170,000 字，因此英文是類別型內含約 170,000 個元素大部分的英文句子都會使用這 170,000 個字中只有極小一部分，因此稱為一個例子幾乎肯定都是稀疏資料

請見以下句子：

My dog is a great dog

您可以使用 one-hot 向量的變體來表示語句在這個變化版本中，向量中的多個儲存格可包含非零的值此外，在這個變化版本中，儲存格可以包含整數而非單一雖然「my」、「is」、「a」和「great」等字詞僅顯示你會在句子中同時加入「狗」這個字詞出現兩次使用這個 API 的變化版本代表此句子中字詞的 one-hot 向量，會產生下列結果 170,000 個元素的向量：

相同語句的稀疏表示法如下：

如果您覺得困惑，請按一下該圖示。

「稀疏表示法」一詞很稀疏，讓許多人困惑表示法本身並非稀疏向量。相反地表示法實際上是稀疏向量的稠密表示法。同義詞「索引表示法」「稀疏表示法」。

稀疏向量

#fundamentals

值主要為零的向量。另請參閱稀疏度特徵和一致性。

平方損失

#fundamentals

L₂ 損失的同義詞。

靜態

#fundamentals

只完成一次這些動作，不會一直重複進行。「靜態」和「離線」這兩個詞彙是同義詞。以下是靜態和離線機器的常見用法學習中：

靜態模型 (或「離線模型」) 則是經過一次訓練的模型可能會需要一段時間
靜態訓練 (或「離線訓練」) 是指訓練靜態模型
靜態推論 (或離線推論) 是模型會一次產生一批預測結果

對比動態。

靜態推論

#fundamentals

離線推論的同義詞。

穩定性

#fundamentals

此特徵的值在一個或多個維度中不會改變，通常是時間。例如，下列特徵的值在 2021 年相同，且 2023 年展出的基地。

現實世界中，很少有展覽中心性展覽品。甚至功能相當於隨著時間的穩定性 (例如海平面) 的變化。

與非期待性的對比。

隨機梯度下降法 (SGD)

#fundamentals

梯度下降法演算法：批量是一。換句話說，SGD 以並統一選擇隨機擷取訓練集中的模型

監督式機器學習

#fundamentals

使用特徵及其訓練方式訓練模型對應的標籤。監督式機器學習學習某個科目對應的答案瞭解問題之間的對應關係學生就能找出新問題的答案同一個主題的問題

比較對象 非監督式機器學習：

合成特徵

#fundamentals

輸入特徵中未出現的特徵，但衍生的片段建立綜合特徵的方法包括：

將連續特徵特徵分塊化為範圍特徵分塊。
建立跨功能。
將一個特徵值乘以 (或除以) 其他特徵值或單用舉例來說，如果 a 和 b 是輸入特徵，則以下是綜合特徵的範例：
- ab
- a²
將準函式套用至特徵值。舉例來說，如果 c 是輸入特徵，以下是合成特徵的範例：
- sin(c)
- ln(c)

透過正規化或資源調度建立的功能單靠模型不會視為合成特徵

T

測試損失

#fundamentals

指標，代表模型的損失值 測試集。建構模型時，通常都會盡量減少測試損失因為測試損失偏低表示訊號是否良好 (低於訓練損失) 或 驗證損失偏低。

測試損失與訓練損失或驗證損失之間有時會存在明顯落差表示您必須提高 正則化比率。

訓練

#fundamentals

決定理想參數 (權重和則構成模型。在訓練期間，系統會讀取範例，並逐漸調整參數。訓練會運用從數次到數十億次情境

訓練損失

#fundamentals

指標，代表模型在一段期間內的損失特定訓練疊代作業舉例來說，假設損失函式就是平均值方框錯誤。也許是訓練損失平方誤差)，且第 10 次疊代的訓練損失為 2.2，第 100 次疊代為 1.9

損失曲線：比較訓練損失和疊代。損失曲線提供以下訓練提示：

向下斜坡則代表模型持續改善。
上升斜率則代表模型的成效越來越差。
平斜率表示模型已達成目標收斂。

例如，以下是一些合理的損失曲線 顯示：

初始的疊代期間，是一個陡峭的陡坡，快速改善模型
逐漸平緩 (但仍會朝下) 的斜坡直到底部這代表模型在某種程度上持續改善模型較慢的步調
訓練結束時的平緩斜坡，表示收斂。

訓練損失與疊代的圖。損失曲線開始時
有陡峭的緩坡斜率逐漸平緩，直到
的斜率會變成零

雖然訓練損失很重要，但另請參閱 一般化。

訓練/應用偏差

#fundamentals

模型在這段時間的成效差異訓練，以及在訓練期間使用相同模型的成效服務。

訓練集

#fundamentals

用來訓練模型的資料集子集。

傳統上，資料集中的範例分為下列三個不重複子集：

在理想情況下，資料集中的每個範例應該僅屬於。舉例來說，單一範例不應屬於某個群組訓練集和驗證集

真陰性 (TN)

#fundamentals

「正確」預測模型 負面類別：舉例來說，模型會推論特定電子郵件不是垃圾郵件，而且該電子郵件確實。

真陽性 (TP)

#fundamentals

「正確」預測模型 正向類別。舉例來說，模型會推論某封垃圾郵件可能是垃圾郵件，但是該電子郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是：

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

正向比率是指 ROC 曲線中的 Y 軸。

U

配料不足

#fundamentals

產生預測能力不佳的模型，因為模型尚未完全擷取訓練資料的複雜度。許多問題可能造成配適的情況，包括：

以錯誤的功能組合進行訓練。
訓練週期過少或過低 學習率。
正規化率過高的訓練。
在單一中提供的隱藏圖層過少深層類神經網路

未加上標籤的範例

#fundamentals

包含 features 但不含 label 的示例。舉例來說，下表顯示房屋的三個未加上標籤的範例評估模型，每個特徵都有三個特徵，但沒有房屋價值：

臥室數量	浴室數量	房屋年齡
3	2	15
2	1	72
4	2	34

在監督式機器學習中模型會根據加上標籤的樣本進行訓練 未加上標籤的範例。

在半監督式和 非監督式學習會在訓練期間使用未加上標籤的範例

與未加標籤示例的對比已加上標籤的範例。

非監督式機器學習

#clustering

#fundamentals

訓練模型找出資料集中的模式，通常是指未加上標籤的資料集

非監督式機器學習最常見的用途是叢集資料按類似樣本分組例如非監督式機器學習演算法可以依據不同屬性將歌曲分類您的作品產生的叢集可能會成為其他機器的輸入內容學習演算法 (例如音樂推薦服務)。在實用標籤稀少或不存在時進行分群法，例如，在反濫用和詐欺等領域中，叢集可以幫助讓人類更好地理解資料

與監督式機器學習的差異。

按一下圖示即可查看其他附註。

非監督式機器學習的另一個例子主要組件分析 (PCA)。例如，對硬體層套用 PCA 包含數百萬筆購物車內容的資料集含有檸檬的購物車中經常也有伴奏

V

validation

#fundamentals

模型品質的初始評估作業。驗證程序會根據 驗證集。

驗證集與訓練集不同，驗證有助於防範過度配適。

建議您根據驗證集來評估模型第一次測試並對照比較模型 測試集做為第二輪測試。

驗證損失

#fundamentals

代表模型損失的指標指標特定物件期間的驗證集 訓練的疊代。

另請參閱一般化曲線。

驗證集

#fundamentals

執行初始的資料集子集針對訓練好的模型進行評估。一般而言，您應評估根據多個驗證集修改訓練過的模型再根據測試集評估模型。

一般來說，您將資料集中的範例分為下列三個不重複子集：

在理想情況下，資料集中的每個範例應該僅屬於。舉例來說，單一範例不應屬於某個群組訓練集和驗證集

三

重量

#fundamentals

模型乘以另一個值的值。訓練是判斷模型理想權重的程序；「推論」是指運用所學權重達成最後是階段 5，如果對模型成效感到滿意您就能使用該模型進行預測

按一下圖示即可查看線性模式中權重的範例。

假設有一個包含兩個特徵的線性模型，假設訓練會決定下列權重 ( bias)：

偏誤 (b) 的值為 2.2
與一個特徵相關聯的權重₁為 1.5。
與其他特徵相關聯的權重₂為 0.4。

現在請設想含有下列功能的範例值：

一個特徵的值 x₁ 為 6。
另一個特徵的值 x₂ 為 10。

此線性模型使用以下公式產生預測結果 y'：

$$y' = b + w_1x_1 + w_2x_2$$

因此，預測結果是：

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果權重為 0，則代表相對特徵的權重模型例如，如果 w₁ 為 0，則值為 x₁ 無關緊要。

加權總和

#fundamentals

所有相關輸入值的總和乘以相應的輸入值權重舉例來說，假設相關輸入內容包含下列項目：

輸入值	輸入權重
2	1.3 號
-1	0.6
3	0.4

因此加權後的加總如下：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是 活化函數。

Z

Z 分數正規化

#fundamentals

取代原始原始檔的縮放技術 feature 值，以及代表浮點值與該特徵平均值相差的標準差數。舉例來說，假設某個特徵的平均值為 800，且偏差為 100。下表顯示 Z 分數正規化方式會將原始值對應到其 Z 分數：

原始值	Z 分數
800	0
950	+1.5
575	-2.25

接著機器學習模型以 Z 分數進行訓練而不是原始值

機器學習詞彙表：機器學習基礎知識

A

精確度

按一下圖示即可查看其他附註。

活化函數

點選這個圖示即可查看範例。

人工智慧

AUC (ROC 曲線下的區域)

點選圖示即可瞭解 AUC 和 ROC 曲線之間的關係。

按一下圖示即可查看 AUC 的正式定義。

B

反向傳播

Batch

批量

偏見 (倫理/公平性)

偏誤 (數學) 或偏誤用語

二元分類

資料分組

按一下圖示即可查看其他附註。

C

類別型資料

類別

分類模型

分類門檻

按一下圖示即可查看其他附註。

不平衡資料集

裁剪

混淆矩陣

持續特徵

收斂

D

DataFrame

資料集或資料集

深度模型

稠密特徵

深度

離散特徵

動態

動態模型

E

提早中止訓練

按一下圖示即可查看其他附註。

嵌入層

Epoch 紀元時間

範例

F

偽陰性 (FN)

偽陽性 (FP)

偽陽率 (FPR)

功能

交錯組合特徵

特徵工程

按一下圖示即可查看 TensorFlow 的其他附註。

特徵集

特徵向量

回饋循環

G

一般化

按一下圖示即可查看其他附註。

一般化曲線

梯度下降法

基準真相

按一下圖示即可查看其他附註。

H

隱藏層

超參數

I

獨立且均勻分佈 (i.i.d)

推論

輸入層

可解釋性

疊代

L

L0 正則化

按一下圖示即可查看其他附註。

L1 損失

按一下圖示即可查看正式數學。

L1 正則化

L2 損失

按一下圖示即可查看正式數學。

L₀ 正則化

L₁ 損失

L₁ 正則化

L₂ 損失

L₂ 正則化