機器學習詞彙表:機器學習基礎知識

本頁包含 ML 基礎知識詞彙。如要查看所有詞彙字詞 請按這裡

A

精確度

#fundamentals

正確分類 預測 的數量除以 除以預測總數也就是:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,模型做出了 40 次正確預測 預測的準確率為:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類會提供具體名稱 正確預測與分類 預測結果不正確。所以,二元分類的準確率公式 如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真陽性 (正確預測) 的數量。
  • TN 是真陰性 (正確預測) 的數量。
  • FP 是偽陽性 (預測不正確) 的數量。
  • FN 是偽陰性 (預測不正確) 的數量。

比較準確率: 精確度喚回度

活化函數

#fundamentals

類神經網路學習的函式 特徵之間的nonlinear (複雜) 關係 和標籤之間的關係

常見的活化函數包括:

活化函數的點並非單線。 例如,ReLU 活化函數的圖 兩條直線:

兩條折線圖。第一行具有常數
          y 值為 0,沿著 X 軸 (-infinity,0 到 0,-0) 計算。
          第二行的起始值為 0,0。這條線的斜率為 +1
          介於 0,0 到 +infinity 之間

S 函數的圖表如下所示:

具有 x 值橫跨網域的 2D 曲線圖
          -infinity 到 +正數,而 y 值跨越範圍近 0 到
          將近 1.當 x 為 0 時,y 為 0.5。曲線的斜率一律會
          正值,最高斜率為 0,0.5,然後逐漸下降
          隨著 x 的絕對值增加

人工智慧

#fundamentals

可解決複雜任務的非人為程式或模型。 例如翻譯文字的程式或模型,或是 能夠從放射性圖像中找出疾病的跡象,同時都有人工智慧。

從形式上來說,機器學習是人工智慧的子領域 人工智慧技術然而,近年來有些組織已經開始使用 「人工智慧」和「機器學習」這兩個詞彙可以互換。

AUC (ROC 曲線下的區域)

#fundamentals

介於 0.0 到 1.0 之間的數字,代表 二元分類模型 可將正向類別負面類別。 AUC 越近 1.0,模型的分離能力也越高 互相學習

舉例來說,下圖為分類器模型 區分正類別 (綠橢圓形) 與負類別 (紫色矩形)。這個不切實際的模型 是 1.0 的 AUC:

有 8 個正面範例的數字行
          一側則是 9 個負面示例。

相反地,下圖顯示分類器結果 來產生隨機結果這個模型的 AUC 為 0.5:

含有 6 個正例和 6 個負例的數字行。
          範例序列為正數、負值
          正面, 負面, 正面, 負面, 正面, 負面, 正面, 正面
          負面、正面、負面

是,上述模型的 AUC 為 0.5,不是 0.0。

大多數模型都在兩極端之間。舉例來說, 以下模型會將正值與負數分開, 中的 AUC 介於 0.5 到 1.0 之間:

含有 6 個正例和 6 個負例的數字行。
          常見做法是排除、排除、排除、排除指定
          正面, 負面, 正面, 正面, 正面, 正面, 正面, 正面,
          正面影響。

AUC 會忽略您為 分類門檻:而是 AUC 會考量「所有」可能的分類門檻。

B

反向傳播

#fundamentals

執行時,採用的演算法 梯度下降法 ( 類神經網路

訓練類神經網路涉及許多疊代 循環階段的流程:

  1. 正向傳遞期間,系統會處理批次批次 會產生預測的範例。系統會比較每個 對應至每個標籤值。預測與實際指標之間的差異 就該範例而言,預測結果和標籤值是損失。 系統會匯總所有樣本的損失以計算總計 目前批次的損失
  2. 反向傳遞 (反向傳播) 期間,系統會 調整所有神經元的權重 隱藏的圖層

類神經網路通常包含多個隱藏層的神經元。 這些神經元會以不同方式造成整體損失。 反向傳播會決定是否要增加或減少權重 特定神經元

學習率是控制 每次向下傳遞量增加或減少的程度。 如果學習率很高,每個權重的增減幅度會比 小學學習率

在微積分中,反向傳播會 「鏈結規則」。 來自微積分也就是說,反向傳播會計算 錯誤的部分導數, 事件回應每個參數。

多年前,機器學習從業人員必須撰寫程式碼來實作反向傳播。 現代機器學習 API (例如 TensorFlow) 現在會為您實作反向傳播。太好了!

Batch

#fundamentals

在單一訓練中使用的範例組合 疊代批量決定了單一請求中的樣本數 批次。

請參閱 訓練週期,瞭解批次與下列指標的關係: 一個訓練週期

批量

#fundamentals

批次中的範例數量。 舉例來說,如果批量為 100,模型就會處理 每次疊代最多 100 個範例。

以下是常用的批量策略:

  • 隨機梯度下降 (SGD),批次大小為 1。
  • 完整批次,其中批量為整份樣本中的樣本數 訓練集。舉例來說,如果訓練集 內含 100 萬個樣本 範例。全批次通常是效率不佳的策略。
  • 迷你批次,批次大小通常介於 10 到 1000。迷你批次通常是最有效率的策略。

偏見 (倫理/公平性)

#fairness
#fundamentals

1. 對某些事物、人物或事物的刻板印象、偏見或偏見 或群組比其他群組這些偏誤可能會影響集合 解讀資料、系統設計,以及使用者與資料互動的方式 是使用系統這類偏誤的形式包括:

2. 抽樣或回報程序引發的系統錯誤。 這類偏誤的形式包括:

不要和機器學習模型的偏誤用語混淆 或預測偏誤

偏誤 (數學) 或偏誤用語

#fundamentals

與來源之間的攔截或偏移。偏誤是 機器學習模型,這類模型會以 包括:

  • b 鍵
  • W0

例如,偏誤是下列公式中的 b

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線條中,偏誤只是「y 截距」。 例如,下圖中的線條偏誤為 2。

斜坡為 0.5 且偏誤 (y 截距) 為 2 的線條圖。

偏誤存在,因為並非所有模型都從原點 (0,0) 開始。例如: 假設遊樂園入場費 2 歐元, 客戶入住每小時 0.5 歐元。因此,對應到 由於最低費用為 2 歐元,因此總費用偏誤為 2。

偏誤不應與倫理和公平性中的偏誤混淆 或預測偏誤

二元分類

#fundamentals

這種分類工作類型,會 會預測兩個互斥的類別之一:

舉例來說,下列兩個機器學習模型分別會執行 二元分類:

  • 判斷電子郵件是否屬於 spam (正類別) 或 not spam (排除類別)。
  • 評估醫療症狀的模型,判斷是否有人 有特定疾病 (正類) 或不具備特定疾病 疾病 (即陰性類別),

多元分類的差異。

另請參閱「邏輯迴歸」和 分類門檻

資料分組

#fundamentals

將單一功能轉換成多個二進位功能 稱為 bucketsbins 通常是根據數值範圍切斷的功能通常是 持續推送功能

舉例來說,與其將隨機性參數 持續浮點功能,可以設定不同溫度範圍 拆分為離散值區,例如:

  • 攝氏 10 度稱為「冷」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區
  • 攝氏 11 到 24 度會是「溫度」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區
  • 攝氏 25 度會成為「暖暖」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區

模型會以相同的方式處理相同值區中的每個值。適用對象 例如,1322 值都位於溫度值區中,因此 模型會以相同的方式處理這兩個值

C

類別型資料

#fundamentals

特徵具有一組特定可能值。例如: 考慮名為 traffic-light-state 的類別特徵,該功能只能在 可能的值為下列其中一個值:

  • red
  • yellow
  • green

透過將 traffic-light-state 表示為類別特徵 模型就能學習 針對 redgreenyellow 對駕駛行為的影響。

類別特徵有時也稱為 獨立功能

數值資料比較。

類別

#fundamentals

標籤所屬的類別。 例如:

  • 二元分類模型中,偵測到 這兩個類別可能是「垃圾內容」且「非垃圾郵件」
  • 多元分類模型中 類別可以是 poodlebeaglePug、 依此類推

「分類模型」可預測類別。 相較之下,「迴歸模型」可預測 而非類別

分類模型

#fundamentals

預測為類別模型。 例如,以下是所有分類模型:

  • 模型會預測輸入語句的語言 (法文西班牙文? 義大利文?)
  • 用來預測樹種 (Maple?橡木色?猴麵包樹?)。
  • 預測特定資料的正向或負類 健康狀況

相較之下,迴歸模型會預測數字 而非類別

兩種常見的分類模型類型如下:

分類門檻

#fundamentals

在「二元分類」中, 這個數值可以轉換 邏輯迴歸模型 填入正面類別的預測結果 或排除類別。 請注意,分類門檻是由人類選擇的值 不是模型訓練選擇的值

邏輯迴歸模型會輸出介於 0 至 1 之間的原始值。然後執行下列步驟:

  • 如果這個原始值大於分類門檻,則 會產生預測結果
  • 如果這個原始值小於分類門檻,則 會產生預測結果

舉例來說,假設分類門檻為 0.8。如果原始值 等於 0.9,則模型會預測正類如果原始值為 0.7,則模型會預測負類別

選擇分類門檻後,系統產生 偽陽性偽陰性

不平衡資料集

#fundamentals

分類問題的資料集 每個類別的標籤各有不同。 例如,假設有一個二項標籤的二元分類資料集 劃分方式如下:

  • 1,000,000 個排除標籤
  • 10 個正面標籤

負與正標籤的比率為 100,000 to 1 是不平衡的資料集

反之,下列資料集「並非」級別不平衡,因為 負面標籤與正面標籤的比率相對接近 1:

  • 517 個排除標籤
  • 483 個正面標籤

多類別資料集也可達到級別平衡。例如,下列 多類別分類資料集也呈現不平衡分類,因為只會有一個標籤 比其他兩個範例更多:

  • 1,000,000 個包含「green」類別的標籤
  • 200 個類別為「紫色」的標籤
  • 350 個含有「orange」類別的標籤

另請參閱主要類別。 和少數類別

裁剪

#fundamentals

處理離群值的技巧 符合下列一項或兩項條件:

  • 減少大於上限的 feature 值 並調降至該門檻
  • 將低於最低門檻的特徵值提高到該值 最低門檻

舉例來說,假設特定特徵的值小於 0.5% 必須介於 40 到 60 之間。在這種情況下,您可以執行以下操作:

  • 將超過 60 (最大門檻) 的所有值剪裁為 60 以上。
  • 將低於 40 (最低門檻) 的所有值裁剪為 40。

離群值會損壞模型,有時會導致重量 可能會發生溢位現象有些離群值也可能太劇烈 例如準確率等指標。剪輯是一種用來限制 導致損害的意外結果

漸層剪裁力 在訓練期間指定範圍內的梯度值。

混淆矩陣

#fundamentals

一份 NxN 表,彙整正確和錯誤預測的數量摘要 分類模型 例如,請思考下列概念的混淆矩陣: 二元分類模型:

胎兒 (預測) 非腫瘤 (預測)
真相 (真值) 18 (TP) 1 (芬蘭)
非仲裁 (真值) 6 (FP) 452 (田納西州)

上述混淆矩陣顯示如下:

  • 在 19 筆基準真相的預測中中, 模型正確分類為 18 歲,但誤歸為 1
  • 在 458 個預測結果中,真值是非腫瘤的預測結果 正確歸類為 452,但歸類為 6

多元分類的混淆矩陣 問題有助於找出錯誤的模式 舉例來說,假設下列 3 級的混淆矩陣 分類三種 iris 類型的多元分類模型 (維吉尼亞州、維斯西色和 Setosa)。當真值是維吉尼亞州時 混淆矩陣顯示模型 Versicolor 的預測結果比 Setosa:

  Setosa (預測) Versicolor (預測) 維吉尼亞州 (預計)
Setosa (基準真相) 88 12 0
Versicolor (真值) 6 141 7
維吉尼亞州 (基準真相) 2 27 109

另一個例子是混淆矩陣 顯示訓練資料的模型 如果現在辨識手寫數字,往往會誤將 9 比 4 或誤將 1 預測為 1,而不是 7

混淆矩陣內含充足資訊,可計算 各種成效指標,包括精確度喚回度

持續特徵

#fundamentals

浮點地圖項目,範圍無限 例如隨機性參數或體重

獨立功能比較。

收斂

#fundamentals

損失值極少變更或已達成的狀態 而未每次疊代時也不會有任何改變。例如,下列 損失曲線可指出在大約 700 次的疊代下收斂:

笛卡兒圖。X 軸損失。Y 軸是訓練次數
          疊代。損失在最初幾次疊代中非常高
          降水經過約 100 次疊代後,損失仍
          但速度會逐漸提升經過約 700 次疊代後
          成本就會持平

當其他訓練無法訓練時,模型「收斂」 可以改善模型

深度學習中,損失值有時會保持不變或 在最後是遞減之前多次疊代長期 可能會暫時誤解誤算感。

另請參閱「提前停止」一節。

D

DataFrame

#fundamentals

這是一種常見的 pandas 資料類型,用於表示 記憶體中的資料集

DataFrame 類似於表格或試算表。每一欄 DataFrame 具有名稱 (標頭),且每個資料列都由 專屬號碼

DataFrame 中的每個資料欄都採用類似 2D 陣列的結構,除了 您可以為各個資料欄指派專屬資料類型。

另請參閱官方 pandas.DataFrame 參考資料 頁面

資料集或資料集

#fundamentals

原始資料的集合,通常 (非唯一) 整理成單一項目 以下格式:

  • 試算表
  • 檔案為 CSV (逗號分隔值) 格式

深度模型

#fundamentals

包含多個類神經網路的「類神經網路」 隱藏的圖層

深層模型又稱為「深層類神經網路」

廣角模型的對比度。

稠密特徵

#fundamentals

多數或所有值都不是零的功能,通常是 浮點值的 Tensor。例如,下列 10 元素的 Tensor 較為密集,因為其中 9 個值為非零:

8 3 7 5 2 4 0 4 9 6

稀疏功能的對比。

深度

#fundamentals

類神經網路中的下列項目總和:

例如,有五個隱藏層和一個輸出層的類神經網路 深度為 6

請注意,輸入層不會 影響深度

離散特徵

#fundamentals

具有一組有限可能值的功能。例如: 此特徵的值可能僅為動物蔬菜礦物 離散 (或類別) 特徵。

對比連續功能

動態

#fundamentals

某些操作頻繁或持續執行, 「動態」和「線上」是機器學習技術的同義詞。 以下是機器的動態線上常見用途 學習中:

  • 動態模型 (或線上模型) 則是模型 訓練週期數
  • 動態訓練 (或線上訓練) 是訓練程序 更新頻率相當高
  • 動態推論 (或線上推論) 是 進而視需求產生預測結果

動態模型

#fundamentals

頻繁 (可能還會持續) 的模型 重新訓練動態模型是「終身學習者」並 不斷適應不斷變化的資料動態模型又稱為 線上模型

靜態模型的對比。

E

提早中止訓練

#fundamentals

正則化的方法,包括 在訓練損失完成 之前訓練 下降中。在提早停止訓練時,您會刻意停止訓練模型 驗證資料集開始損失 increase;也就是 一般化效能會降低,

嵌入層

#language
#fundamentals

特殊隱藏層,可在 高維度類別特徵 會逐漸學習較低維度的嵌入向量一個 嵌入層可讓類神經網路 比單純訓練高維度類別特徵來得有效率

舉例來說,Google 地球目前大約支援 73,000 種樹木。假設 樹種是模型中的特徵, 輸入層包括一個 one-hot 向量 73,000 個元素。 例如,也許 baobab 應表示如下:

包含 73,000 個元素的陣列。前 6,232 個元素保有價值
     0.下一個元素包含值 1。最終的 66,767 個元素
     並將值設為零

73,000 元素的陣列太長。如未新增嵌入層 因此訓練非常耗時 乘以 72,999 個零您可以選擇要納入的嵌入層 12 個維度因此嵌入層會逐漸學習 為各個樹種建立全新的嵌入向量

在某些情況下,雜湊處理是合理的替代方案 加入嵌入層

Epoch 紀元時間

#fundamentals

完整的訓練內含完整訓練集 確保每個範例都處理過一次。

週期代表 N/批量 訓練 iterations,其中 N 是 範例總數。

舉例來說,假設:

  • 資料集包含 1,000 個範例。
  • 批量為 50 個範例。

因此,在單一週期內,必須疊代 20 次:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

範例

#fundamentals

features 其中一列的值,但有可能 標籤。範例 監督式學習可分為兩種 一般類別:

例如,假設您正在訓練模型,藉此判斷影響 顯示學生測驗成績的天氣狀況。以下是三個加上標籤的範例:

功能 標籤
溫度 溼度 氣壓 測驗分數
15 47 998 不錯
19 34 1020 極佳
18 92 1012 不佳

以下提供三個未加上標籤的範例:

溫度 溼度 氣壓  
12 62 1014  
21 47 1017  
19 41 1021  

例如,資料集的資料列通常是原始來源。 也就是說,範例通常由資料欄的 此外,範例中的功能可能還包括 合成功能,例如 跨項目

F

偽陰性 (FN)

#fundamentals

以下例子:模型誤將 排除類別。例如 預測特定電子郵件不是垃圾郵件 (排除類別),但該電子郵件確實為垃圾郵件

偽陽性 (FP)

#fundamentals

以下例子:模型誤將 「正面類別」。舉例來說,模型會預測 特定電子郵件是垃圾郵件 (正類),但這種現象 電子郵件不是垃圾郵件

偽陽率 (FPR)

#fundamentals

模型未正確排除的實際排除樣本比例 預測出的陽性類別以下公式計算了 正值:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率是指 ROC 曲線中的 X 軸。

功能

#fundamentals

機器學習模型的輸入變數。範例 由一個或多個功能組成。舉例來說,假設您要訓練一個 模型判斷天氣狀況對學生測驗分數的影響。 以下表格列出三個範例,每個範例都含有 三個功能及一個標籤

功能 標籤
溫度 溼度 氣壓 測驗分數
15 47 998 92
19 34 1020 84
18 92 1012 87

標籤的對比度。

交錯組合特徵

#fundamentals

由「交叉比對」組成的合成特徵 分類統計值區特徵。

舉例來說,你可以考慮使用 「心情預測」代表的是 溫度從以下四個區間之一:

  • freezing
  • chilly
  • temperate
  • warm

並且以下列三個區間之一表示風速:

  • still
  • light
  • windy

如果沒有交錯組合,線性模型會在各個 測試前 7 個不同的值區舉例來說 freezing,而且不受訓練的影響 windy

或是建立跨隨機性參數 風速這項合成功能提供下列 12 個可能 值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

多功能交叉性功能,可讓模型學習情緒差異 介於 freezing-windy 天到 freezing-still 天之間。

如果你透過兩個特徵建立合成功能,且兩者俱備 因此產生的特徵交錯組合就會有龐大的數量 組合起來。舉例來說,如果某個特徵有 1,000 個值區 另一個特徵有 2,000 個值區,因此交叉特徵會達到 2,000,000 Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區

正式上來說 笛卡兒產品

特徵交錯組合最常搭配線性模型使用,而且很少使用 這種模型會使用類神經網路

特徵工程

#fundamentals
#TensorFlow

這項程序包含下列步驟:

  1. 判斷哪些功能可能很實用 訓練模型
  2. 將資料集的原始資料轉換為有效的版本 這些特徵的相對重要性

舉例來說,您可能會判定 temperature 可能很實用 而不是每個特徵的分數接著,您可以嘗試特徵分塊實驗 ,讓模型從不同的 temperature 範圍內學習到的內容,達到最佳成效。

特徵工程有時也稱為 擷取功能「特徵化」

特徵集

#fundamentals

用來機器學習的一組功能 模型用於訓練。 舉例來說,郵遞區號、屬性大小和屬性條件 包含一個簡單的特徵組合,用於預測房價的模型。

特徵向量

#fundamentals

feature 值陣列構成 範例。特徵向量 訓練推論。 例如,模型的特徵向量具有兩個獨立特徵 可以是:

[0.92, 0.56]

四個圖層:一個輸入層、兩個隱藏層,以及一個輸出層。
          輸入層包含兩個節點,其中一個包含
          0.92 和另一個包含 0.56 的值。

每個範例會為特徵向量提供不同的值,因此 下一個範例的特徵向量如下:

[0.73, 0.49]

特徵工程會決定如何呈現 建立特徵向量的功能例如,帶有以下字詞的二元類別特徵 五個可能的值 one-hot 編碼。在這個範例中, 這個範例的特徵向量是含有 4 個 0 一個 1.0 的值,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子,假設您的模型包含三個特徵:

  • 二元類別特徵,其中有 5 個可能的值,以 one-hot 編碼;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一個二元類別特徵,含 3 個可能的值。 採用 one-hot 編碼;例如:[0.0, 0.0, 1.0]
  • 浮點功能;例如:8.3

在本例中,每個範例的特徵向量 除以 9 值以上述清單中的範例值來說, 特徵向量如下:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

回饋循環

#fundamentals

在機器學習中,模型的預測會影響 搭配相同模型或其他模型的訓練資料例如,模型 系統推薦電影 之後,人們觀賞的電影 影響後續的電影推薦模型

G

一般化

#fundamentals

模型對新的、 先前未顯示的資料可一般化的模型則相反 過度配適的模型

一般化曲線

#fundamentals

訓練損失驗證損失疊代

一般化曲線可協助您 過度配適。例如,下列 一般化曲線指出過度配適是因為驗證損失 最終遠大於訓練損失。

以購物車圖為例,Y 軸表示損失,X 軸
          已標記為「疊代」畫面上會出現兩張圖。一張圖表顯示
          分別代表訓練損失及驗證損失
          這兩份圖表一開始看起來很類似,但訓練損失最終會
          低點則遠低於驗證損失。

梯度下降法

#fundamentals

盡可能減少損失的數學技巧。 漸進式下降法 權重偏誤、 逐漸找出最佳組合,將損失降到最低。

梯度下降法比機器學習更舊,比機器學習更舊。

基準真相

#fundamentals

實際發生的情形。

比方說,請考慮使用二元分類 預測學生是否攻讀大學 會在六年內升級這個模型的真值 而不是實際上在六年內畢業

H

隱藏層

#fundamentals

「類神經網路」中的一層 輸入層 (特徵) 和 「輸出層」 (預測結果)。 每個隱藏層都含有一或多個「神經元」。 例如,下列類神經網路包含兩個隱藏層 第一個包含三個神經元,第二個則帶有兩個神經元:

四層。第一個層是輸入層
          接著介紹網際網路通訊層
包括兩項主要的安全防護功能第二層是隱藏層
          神經元第三層是隱藏層
          神經元第四層是輸出層每項地圖項目
          包含三個邊緣,每個邊緣分別指向不同的神經元
          指定初始層第二層中的每個神經元
          包含兩個邊緣,每個邊緣分別指向不同的神經元
          第三層的結構第三層中的每個神經元
          一個邊緣,每個邊緣都指向輸出層

深層類神經網路包含多個 隱藏層舉例來說,上圖是深層類神經網路的 因為模型包含兩個隱藏層

超參數

#fundamentals

您或超參數調整服務的變數 在連續執行模型時調整例如: 「學習率是超參數。您可以 先將學習率設為 0.01,再進行訓練課程如果發生以下情況: 假設 0.01 過高 下個單元的學習分數為 0.003

相較之下,參數是各種 模型的權重偏誤 會在訓練過程中學習

I

獨立且均勻分佈 (i.i.d)

#fundamentals

從未改變的分佈情形取得的資料,以及每個值 繪製的性質不受先前繪製的值影響。是 i.i.d。 理想氣體 機器 學習—實用的數學結構,但幾乎從未見過 實際體驗例如網頁訪客的分佈情形 可以是 i.i.d。縮短時間也就是說 並在短暫的時間內產生變化 相互獨立但若您延長這段時間 兩個不同版本的網頁訪客

另請參閱非期待性

推論

#fundamentals

在機器學習中,產生預測結果的過程 將經過訓練的模型套用至未加上標籤的範例

在統計資料中,「推論」的含意略有不同。 詳情請參閱 有關統計推論的維基百科文章。

輸入層

#fundamentals

類神經網路 包含特徵向量。也就是輸入層 提供 訓練 範例推論。例如,下圖中的輸入層 類神經網路包含兩項功能

四個圖層:一個輸入層、兩個隱藏層,以及一個輸出層。

可解釋性

#fundamentals

能夠解釋或呈現機器學習模型的推論能力 人類能夠理解的詞彙

例如,大多數線性迴歸模型 才會具有可解釋性(您只需查看每個 feature.)決策樹也具有高度可解釋性。不過有些模型 需要複雜的圖表才能呈現出可解釋性

您可以使用 可解釋性學習工具 (LIT) 解釋機器學習模型

疊代

#fundamentals

單次更新模型參數,也就是模型的 期間權重偏誤 訓練批量會決定 模型在單一疊代中處理多少樣本舉例來說: 如果批量為 20,則模型會先處理 20 個樣本 調整參數

訓練類神經網路時,只會執行一次 涉及以下兩條通道:

  1. 評估單一批次損失的前向傳遞。
  2. 反向傳遞 (反向傳播),用於調整 模型將依據損失和學習率調整參數。

L

L0 正則化

#fundamentals

一種正則化, 會影響非零的權重「總數」 模型例如 11 個非零權重的模型 會比權重 10 不為零的相似模型更受到懲罰。

L0 正則化有時稱為 L0 正規化

L1 損失

#fundamentals

計算絕對值的損失函式 實際標籤值與 也就是模型預測的值。舉例來說,以下是 以五分之一的批次 L1 損失計算 例子

範例的實際值 模型的預測值 Delta 的絕對值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = 損失 1

L1 損失對離群值敏感度較低 少於 L2

平均絕對錯誤是平均值 每個範例 L1 損失。

L1 正則化

#fundamentals

會懲罰的一種正則化類型 權重,其與 權重值L1 正則化有助於彌補不相關的權重 或幾乎不相關的特徵或等於 0功能 系統會從模型中有效移除權重 0。

L2 正則化對比。

L2 損失

#fundamentals

計算平方的損失函式 實際標籤值與 也就是模型預測的值。舉例來說,以下是 計算五分之批次的 L2 損失計算結果 例子

範例的實際值 模型的預測值 差異遷移廣場
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = 損失2

由於質量的關係,L2 損失代表 離群值: 換句話說,相較於不良預測,L2 損失對預測結果的反應強烈 L1 流失。例如:L1 損失 前一批數量是 8 而不是 16請注意 就是 16 中的 9。

迴歸模型通常使用 L2 損失 做為損失函式

均方誤差是平均值的 每個例子的 L2 損失率。 「平方損失」是 L2 損失的另一個名稱。

L2 正則化

#fundamentals

會懲罰的一種正則化類型 權重,佔權重正方形的總和。 L2 正則化可協助提升離群值 (也就是 許多數值都很接近 0,但並非相當 0。 值非常接近 0 的特徵會保留在模型中 但不會影響模型的預測結果

L2 正則化一律會改善 線性模型

L1 正則化對比。

標籤

#fundamentals

監督式機器學習中 「接聽」或「result」範例部分。

每個已加上標籤的範例都含有一或多個 地圖項目和一個標籤。例如垃圾郵件 則標籤可能是「spam」或 「非垃圾內容」。在雨量資料集中,標籤可以是 特定時期下降的雨量

有標籤樣本

#fundamentals

包含一或多個地圖項目label。舉例來說,下表顯示三個 根據房屋估值模型加上標籤的範例,每個模型都包含三項特徵 和一個標籤:

臥室數量 浴室數量 房屋年齡 房屋價格 (標籤)
3 2 15 $345,000 美元
2 1 72 $179,000 美元
4 2 34 $392,000 美元

監督式機器學習中 模型會根據加上標籤的樣本進行訓練 未加上標籤的範例

對比有未加上標籤的範例的對比標籤。

lambda

#fundamentals

正規化率的同義詞。

Lambda 是一個超載的字詞。這裡我們把重點放在 正則化中的定義。

圖層

#fundamentals

一組神經元類神經網路。三種常見的圖層類型 如下:

舉例來說,下圖中的類神經網路 一個輸入層、兩個隱藏層,以及一個輸出層:

一個類神經網路,其中有一個輸入層、兩個隱藏層和
          輸出層輸入層包含兩項特徵。第一個
          由三個神經元和第二個隱藏層
          由兩個神經元組成輸出層由單一節點組成。

TensorFlow 中,圖層是 Python 函式, 使用 Tensor 和設定選項做為輸入和 會產生其他張量做為輸出內容

學習率

#fundamentals

指出梯度下降法的浮點數 演算法對每個符記的權重和偏誤 疊代。舉例來說,如果學習率為 0.3 調整權重和偏誤的調整效果比學習率高出三倍 0.1。

學習率是重要的超參數。如果您為 學習率過低,訓練時間太長如果 將學習率設為過高時,梯度下降法經常發生問題 觸及對話

線性

#fundamentals

兩個以上可以單純表示的變數之間的關係 可以結合加法和乘法

線性關係圖是以線條表示。

nonlinear對比。

線性模型

#fundamentals

為每個模型指派一個權重feature 進行預測。 (線性模型也包含偏誤)。相對地 深度模型中的特徵與預測之間的關係 通常都是nonlinear

線性模型通常較容易訓練, 比深度模型可解讀。不過 深度模型可以學習特徵之間的複雜關係。

線性迴歸邏輯迴歸是兩種線性模型的類型。

線性迴歸

#fundamentals

這種機器學習模型符合下列兩種條件:

  • 模型為線性模型
  • 預測結果為浮點值。(這是 迴歸部分屬於線性迴歸)。

使用邏輯迴歸的對比線性迴歸。 此外,使用分類時則適合使用迴歸。

邏輯迴歸

#fundamentals

用來預測機率的迴歸模型。 邏輯迴歸模型具有下列特性:

  • 這個標籤為類別。「物流」一詞 迴歸通常是指「二元邏輯迴歸」,也就是 模型來計算標籤機率。 較不常見的變體「多項式邏輯迴歸」會計算 具有超過兩個可能值標籤的機率。
  • 訓練時的損失函式為記錄損失。 (標籤可同時放置多個記錄檔遺失單元) 超過兩個可能的值)。
  • 模型採用線性架構,而非深層類神經網路。 然而,此定義的其餘部分 預測機率的深度模型 以分類標籤

舉例來說,假設有一個邏輯迴歸模型 輸入電子郵件遭歸類為垃圾郵件或非垃圾郵件的機率。 假設模型在推論期間預測為 0.72,因此, 正在估算的模型

  • 電子郵件被歸類為垃圾郵件的機率為 72%。
  • 電子郵件非垃圾郵件的機率為 28%。

邏輯迴歸模型採用下列兩步驟架構:

  1. 模型會套用線性函數來產生原始預測結果 (y') 輸入特徵
  2. 模型會使用該原始預測結果做為輸入內容 sigmoid 函式,可用於轉換原始 傳回 0 到 1 之間的值 (不含 0 和 1)。

如同任何迴歸模型,邏輯迴歸模型可預測數字。 然而,這個數字通常會成為二元分類的一部分 如下所示:

  • 如果預測數字大於 分類門檻, 二元分類模型會預測正類
  • 如果預測的數量小於分類門檻, 二元分類模型會預測負類別

對數損失

#fundamentals

用於二進位檔的損失函式 邏輯迴歸

對數勝算比

#fundamentals

部分事件機率的對數。

損失

#fundamentals

完成這項操作的訓練期間 監督式模型,可測量 模型的預測結果來自其標籤

損失函式會計算損失。

損失曲線

#fundamentals

損失表示訓練次數的函式圖 疊代。下圖顯示一般損失率 曲線:

呈現損失與訓練疊代的笛卡兒圖,
          初期疊代的損失迅速減少 然後逐漸下降
          最後反覆練習時是平緩下降的曲線

損失曲線可協助您判斷模型 收斂過度配適

損失曲線可繪製以下所有類型的損失:

另請參閱一般化曲線

損失函式

#fundamentals

訓練或測試期間, 計算 在批次中執行損失。損失函式會傳回較低的損失 對於具有良好預測 預測結果不佳。

訓練的目的通常是將損失函數的損失降至最低 就會傳回值。

可以找到許多不同類型的損失函式。挑選適當的損失選項 函式。例如:

M

機器學習

#fundamentals

訓練 輸入資料中的 model。經過訓練的模型 根據新的 (前所未見) 資料 與用來訓練模型的分佈相同。

機器學習也是指研究領域 提供這些程式或系統的相關資訊

多數類別

#fundamentals

class-imbalanced 資料集:例如: 如果某個資料集含有 99% 的負標籤和 1% 陽性標籤, 負標籤是多數類別

少數類別的對比。

迷你批次

#fundamentals

隨機選擇的少數批次子集 疊代。 迷你批次的「批次大小」通常 10 至 1,000 個範例。

舉例來說,假設整個訓練集 (完整批次) 包含 1,000 個範例此外,假設您將 將每個迷你批次的批次大小降至 20。因此,每項 疊代後,從 1,000 個樣本中隨機決定 20 個可能的損失,然後 並據此調整權重偏誤

用迷你批次計算損失的效率比 所有樣本的損失

少數類別

#fundamentals

中較不常見的標籤 class-imbalanced 資料集:例如: 如果某個資料集含有 99% 的負標籤和 1% 陽性標籤, 則為少數類別

主要類別的對比。

模型

#fundamentals

一般而言,任何處理輸入資料並傳回 輸出內容詞組不同,模型是指由參數和結構組成的集合 以及系統進行預測所需的資料 在監督式機器學習中 模型會將範例做為輸入內容, 以 predict 形式建立預測。在監督式機器學習中 稍有不同例如:

  • 線性迴歸模型包含一組權重 以及偏誤
  • 「類神經網路」模型包含:
    • 一組隱藏圖層,每個圖層都包含一個或 更多神經元
    • 與各個神經元相關聯的權重和偏誤。
  • 決策樹模型包含:
    • 樹木的形狀;也就是條件 葉子彼此相連
    • 條件和葉子。

您可以儲存、還原或複製模型。

非監督式機器學習 產生的模型,通常是將輸入範例對應至 最適當的叢集

多元分類

#fundamentals

在監督式學習中,會發生分類問題 資料集中包含超過兩個 類別的標籤。 例如,Iris 資料集中的標籤必須是下列其中一項 三個類別:

  • 伊里斯馬索薩
  • 伊利斯.維吉尼卡 (Iris virginica)
  • 虹彩

以 Iris 資料集訓練而成的模型,可針對新的範例預測 Iris 類型 也就是執行多元分類

相對的,分類問題則能區分 類別為「二元分類模型。 例如預測「垃圾郵件」或「非垃圾郵件」的電子郵件模型 是一種二元分類模型

在分群問題中,「多類別分類」是指 兩個叢集

負類

#fundamentals

「二元分類」中,一個類別是 另一個字詞是「負面」,另一個則是「負面」。正類為 模型正在測試的內容或事件,而負類別 例如:

  • 醫療檢測中的陰性類別可能為「非腫瘤」。
  • 電子郵件分類器中的排除類別可能為「非垃圾郵件」。

正向類別的對比。

輸出內容

#fundamentals

含有至少一個內容的模型 隱藏的圖層。 「深層類神經網路」是一種類神經網路 含有多個隱藏層例如,下圖 會顯示包含兩個隱藏層的深層類神經網路

一個類神經網路,其中有輸入層、兩個隱藏層
          輸出層

類神經網路中的每個神經元都會連線至下一層中的所有節點。 例如,在上圖中,有三個神經元 分別連結至 第二個隱藏層

在電腦上實作的類神經網路有時也稱為 人工類神經網路 腦力激盪和其他神經系統中的類神經網路

某些類神經網路可以模擬非常複雜的非線性關係 區分特徵和標籤

另請參閱卷積類神經網路循環類神經網路

神經元

#fundamentals

在機器學習中,隱藏層中的不同單位 類神經網路的變體。每個神經元都會執行下列 雙步驟動作:

  1. 計算輸入值相乘的加權總和 計算依據的權重
  2. 將加權總和做為輸入內容傳送至 活化函數

第一個隱藏層中的神經元接受來自特徵值的輸入 輸入層神經元會隱藏在 第一個值會接受來自先前隱藏層中神經元的輸入內容。 舉例來說,第二個隱藏層中的神經元會接受來自 產生第一個隱藏層的神經元

下圖標明兩個神經元 輸入內容

一個類神經網路,其中有輸入層、兩個隱藏層
          輸出層並醒目顯示兩個神經元:一個
          另一個隱藏層醒目顯示的
          第一個隱藏層的神經元會從兩個特徵接收輸入內容
          特定物件第二個隱藏層中醒目顯示的神經元
          會從第一個隱藏的神經元中的三個神經元
接收輸入內容
          執行

類神經網路中的神經元會模仿神經元在大腦中的行為 其他部分

節點 (類神經網路)

#fundamentals

隱藏層中的神經元

nonlinear

#fundamentals

兩個或多個無法單獨表示的變數之間的關係 可以結合加法和乘法線性關係 能以線條表示不能是nonlinear關係。 以線條表示舉例來說,假設兩個模型都具有 將單一特徵套用至單一標籤左側模型為線性 右側模型為非線性

兩圖。其中一張圖是線條,就屬於線性關係。
          另一條圖為曲線,因此是非線性關係。

非穩定性

#fundamentals

這類特徵的值會隨著一或多個維度改變,通常是時間。 例如,請考慮下列非持久性的例子:

  • 特定商店的泳裝數量會因季節而異。
  • 特定區域採集的水果數量 這個期間的大部分時間為 0,但短期內的值會大於 0。
  • 每年平均溫度因氣候變遷而持續改變。

stationarity 相反。

正規化

#fundamentals

大致來說,轉換變數的實際範圍 轉換為標準值範圍,例如:

  • -1 到 +1
  • 0 至 1
  • 常態分佈

舉例來說,假設某個特徵值的實際範圍是 800 到 2,400 之間。做為特徵工程的一部分 都能將實際值正規化為標準範圍 例如 -1 到 +1。

正規化是 特徵工程:模型訓練速度通常更快 訓練資料中每個數值特徵 特徵向量大致相同。

數值資料

#fundamentals

特徵,以整數或實值表示。 舉例來說,房屋估值模型可能代表 以數值資料表示的房屋 (平方英尺或平方公尺)。代表 將特徵視為數值資料 與標籤之間的「數學」關係。 也就是房子的平方公尺 以及房屋價值的數學關係

並非所有整數資料都應以數字資料表示。例如: 全球某些地區的郵遞區號為整數;但如果是整數郵政 在模型中,請勿將代碼顯示為數值資料。這是因為 20000 的郵遞區號不是兩倍 (或半) 的郵遞區號, 10,000。此外,雖然不同的郵遞區號「確實」與不同 房地產價值,我們無法假設郵遞區號中的房地產價值 20000 的價值是房地產價值的兩倍,以郵遞區號 10000 表示。 郵遞區號應以類別型資料表示 。

數字特徵有時稱為 持續推出的功能

O

離線

#fundamentals

static 的同義詞。

離線推論

#fundamentals

模型產生批次預測結果的程序 然後快取 (儲存) 這些預測資料這樣一來,應用程式就能存取推測 而非重新執行模型

舉例來說,假設某個模型可以產生當地天氣預報 (預測) 每四小時一次。每個模型執行完畢後,系統會 快取所有當地天氣預報資訊。天氣應用程式擷取預報資訊 從快取中取得

離線推論也稱為「靜態推論」

線上推論的差異。

one-hot 編碼

#fundamentals

以向量表示類別資料,方法如下:

  • 1 個元素設為 1,
  • 所有其他元素則設為 0。

one-hot 編碼通常用於代表 可能的值數量有限 例如,假設某項類別特徵的名稱是 Scandinavia 有五個可能的值:

  • 「丹麥」
  • 「瑞典」
  • 「挪威」
  • 「芬蘭」
  • 「冰島」

one-hot 編碼可代表這五個值,如下所示:

country 向量
「丹麥」 1 0 0 0 0
「瑞典」 0 1 0 0 0
「挪威」 0 0 1 0 0
「芬蘭」 0 0 0 1 0
「冰島」 0 0 0 0 1

透過 one-hot 編碼,模型可學習不同的連線 製作不同國家/地區的實驗

以「數字資料」表示特徵是 one-hot 編碼的替代方法不幸的是 不建議在斯堪地那維亞國家使用數字。例如: 看看以下的數值:

  • 「丹麥」為 0
  • 「瑞典」1 是
  • 「挪威」2 是
  • 「芬蘭」是 3 個
  • 「冰島」4 是

使用數字編碼時,模型會解讀原始數字 然後嘗試根據這些數字進行訓練。 不過,冰島實際上並非兩倍 (或一半) 所以模型會得出一些奇怪的結論,

一對多

#fundamentals

由於 N 類別的分類問題, 由 N 個獨立的元件組成 二進位分類器—一種二進位分類程式,用於 各項可能的結果例如,假設某個模型會分類範例 無論是動物、蔬菜或礦物,哪種解決方案都能提供 下列三種不同的二進位分類器:

  • 動物之對不是動物
  • 蔬菜與非蔬菜
  • 礦物與非礦物

線上

#fundamentals

動態的同義詞。

線上推論

#fundamentals

根據需要產生預測。例如: 假設應用程式將輸入內容傳遞至模型,並向 預測結果 使用線上推論的系統以 將預測結果傳回應用程式

離線推論比較。

輸出層

#fundamentals

「最終」類神經網路層的架構輸出層包含預測結果。

下圖顯示一個小型深層類神經網路 兩個隱藏層,和輸出層:

一個類神經網路,其中有一個輸入層、兩個隱藏層和
          輸出層輸入層包含兩項特徵。第一個
          由三個神經元和第二個隱藏層
          由兩個神經元組成輸出層由單一節點組成。

過度配適

#fundamentals

建立符合 訓練資料,導致模型無法 對新資料做出正確的預測

正規化可減少過度配適的情況。 提供多種訓練集的訓練,也有助於減少過度配適。

P

pandas

#fundamentals

numpy 為基礎建構而成的資料欄導向資料分析 API。 許多機器學習架構 包括 TensorFlow,支援 pandas 資料結構做為輸入內容。詳情請參閱 pandas 說明文件

參數

#fundamentals

模型在訓練期間學習的權重偏誤 訓練。例如,在 線性迴歸模型,這類參數由 產生偏誤 (b) 和所有權重 (w1w2、 以此類推:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相反地,「超參數」是指 「您」 (或超參數切換服務) 提供給模型。 舉例來說,「學習率」是超參數。

正類

#fundamentals

您要測試的類別。

舉例來說,癌症模型的正類可能為「tumor」。 電子郵件分類器中的正類別可能是「垃圾郵件」。

負面類別比較。

後續處理

#fairness
#fundamentals

在執行模型「之後」調整模型的輸出內容。 後續處理可用於強制執行公平性限制,而不 以及模型本身

例如將後續處理套用至二元分類器 並設定分類門檻 機會平等 確認某項屬性的真陽率 該屬性的所有值都相同。

預測

#fundamentals

模型的輸出內容。例如:

  • 二元分類模型的預測結果為正數 或負類別
  • 多元分類模型的預測結果為單一類別。
  • 線性迴歸模型的預測結果是數字。

Proxy 標籤

#fundamentals

用來估算資料集中無法直接提供的標籤的資料。

舉例來說,假設您必須訓練模型來預測員工 壓力水平。您的資料集包含許多預測功能 沒有名為「stress level」的標籤。 就算你選了「工作場所意外」做為 壓力水平。畢竟,處於高壓力的員工會變得更加健康 而非冷靜的員工還是實際行動?可能會發生職場意外 究竟是出於多種原因而攀升

第二個例子:假設您希望「它是雨天嗎?」使用布林值標籤 但資料集不含雨資料如果 使用者可以拍攝人物相片 搬運雨傘做為「正在下雨嗎?」的代理標籤?請問 適當的 Proxy 標籤?有可能,但某些文化的人 比起雨,更有可能攜帶遮陽傘來保護太陽的機率。

Proxy 標籤通常不夠完善。如果可以的話,請將實際標籤 Proxy 標籤如果沒有實際標籤,請選擇 Proxy 並謹慎選擇最不可能的 Proxy 標籤

R

RAG

#fundamentals

以下字詞的縮寫 擷取評估產生版本

資料標註者

#fundamentals

提供範例標籤的真人。 「註解者」是評分者的另一個名稱

線性整形單元 (ReLU)

#fundamentals

啟用函式,行為如下:

  • 如果輸入為負數或零,則輸出值為 0。
  • 如果輸入為正數,則輸出結果等於輸入內容。

例如:

  • 如果輸入是 -3,則輸出為 0。
  • 如果輸入是 +3,則輸出結果是 3.0。

ReLU 的情節如下:

兩條卡通圖畫。第一行具有常數
          y 值為 0,沿著 X 軸 (-infinity,0 到 0,-0) 計算。
          第二行的起始值為 0,0。這條線的斜率為 +1
          介於 0,0 到 +infinity 之間

ReLU 是很受歡迎的活化函數。儘管它的單純行為很簡單 ReLU 仍可讓類神經網路學習nonlinear Featurelabel 之間的關係。

迴歸模型

#fundamentals

非正式的模型,可以產生數值。(相對地, 分類模型會產生類別 prediction.)例如,以下是所有迴歸模型:

  • 用來預測特定房屋價值的模型,例如 423,000 歐元。
  • 預測特定樹木的壽命,例如 23.2 年。
  • 預測特定城市的降雨量模型 ,例如 0.18 英寸

迴歸模型有兩種常見的類型:

  • 線性迴歸:找出 將標籤值對應到特徵
  • 邏輯迴歸: 則系統通常會對應至特定類別的機率為 0.0 至 1.0 的機率 預測結果

並非每個輸出數值預測的模型都是迴歸模型。 在某些情況下,數字預測結果實際上只是分類模型 會發生的數字類別名稱例如 數值郵遞區號是分類模型,不是迴歸模型。

正則化

#fundamentals

任何可減少過度配適的機制。 常見的正規化類型包括:

正規化也可以定義為模型複雜度的懲罰。

正則化率

#fundamentals

這個數字用來指定 正則化形式。提高 正則化率可降低過度配適,但可能會 降低模型的預測能力相反地,如果減少或省略 正則化率會增加過度配適。

ReLU

#fundamentals

「Rectified Linear Unit」的縮寫。

檢索增強生成 (RAG)

#fundamentals

一個能改善 大型語言模型 (LLM) 輸出內容 方法以在模型訓練後所擷取的知識來源為基礎。 RAG 向訓練過的 LLM 提供 存取從信任的知識庫或文件擷取的資訊。

使用檢索增強生成技術的常見動機包括:

  • 提高模型生成回應的事實準確率。
  • 將非訓練目的知識提供給模型。
  • 變更模型使用的知識。
  • 讓模型能夠引用來源。

舉例來說,假設化學應用程式使用 PaLM API,以產生摘要 與使用者查詢有關的資訊當應用程式的後端收到查詢時,後端:

  1. 搜尋與使用者查詢相關的資料 (「擷取」)。
  2. 在使用者的查詢中附加 (「錯誤」) 相關化學資料。
  3. 指示 LLM 根據附加資料建立摘要。

ROC (接收者操作特徵) 曲線

#fundamentals

真陽率與 不同人的偽陽率 二進位的分類門檻 例如單一語句分類

ROC 曲線的形狀表明二元分類模型的能力 將正類與負類別區分開來舉例來說 二元分類模型 來自所有正類的類別:

數字行右側有 8 個正面範例
          左邊是 7 個負面示例。

上述模型的 ROC 曲線如下所示:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率曲線的 L 形狀為反轉 L。曲線
          會從 (0.0,0.0) 開始,直至 (0.0,1.0)。然後沿著曲線
          從 (0.0,1.0) 到 (1.0,1.0)。

相較之下,下圖呈現了原始邏輯迴歸 無法將負類別與 的正向類別:

有正例和負類的數值行
          完全排除。

這個模型的 ROC 曲線如下所示:

ROC 曲線,實際上是 (0.0,0.0) 的直線
          (1.0,1.0)。

同時,大多數二元分類模型也在現實世界中各自獨立 到某種程度的正面和負面類別,但這通常不盡完美所以 典型的 ROC 曲線在兩極極端之間:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率ROC 曲線接近弧形弧形
          從西到北進行指南針。

理論上最接近 (0.0,1.0) 的 ROC 曲線點,可識別出 理想的分類門檻不過,還有一些其他真實問題 決定理想的分類門檻例如: 偽陰性的情況比偽陽性更大的疼痛。

名為 AUC 的數值指標總結了 ROC 曲線 單一浮點值

均方根誤差 (RMSE)

#fundamentals

均方誤差的平方根。

S

S 函數

#fundamentals

「擠壓」的數學函式限制多個輸入值 通常是 0 到 1,或 -1 到 +1。也就是說,您可以傳送任何數字 (2、100 個字元) 然後輸出小於零分的倒數 因此受到限制 S 函數的圖表如下所示:

具有 x 值橫跨網域的 2D 曲線圖
          -infinity 到 +正數,而 y 值跨越範圍近 0 到
          將近 1.當 x 為 0 時,y 為 0.5。曲線的斜率一律會
          正值,最高斜率為 0,0.5,然後逐漸下降
          隨著 x 的絕對值增加

S 函數在機器學習領域有幾項用途,包括:

軟性最高

#fundamentals

此函式可決定 中每個可能類別的機率 多元分類模型:機率加起來 確切來說是 1.0例如,下表顯示 softmax 的發布方式 各種機率:

圖片為... 機率
0.85
cat 0.13
0.02

Softmax 也稱為「full softmax」

候選抽樣比較。

稀疏特徵

#language
#fundamentals

特徵的值主要為零或空白。 舉例來說,包含 1 個值和 100 萬個值的特徵是 稀疏。相反地,稠密特徵的值 通常不是零或空白

在機器學習領域,有許多令人驚訝的特徵是稀疏特徵。 類別特徵通常是稀疏的特徵。 舉例來說,以森林中有 300 種可能的樹種為例, 可能只會辨識楓樹。或是數百萬 一個範例可能會找出 就只要「Casablanca」即可。

在模型中,您通常會使用 one-hot 編碼。如果 one-hot 編碼太大 可以將嵌入層放在 one-hot 編碼來提高效率。

稀疏表示法

#language
#fundamentals

在稀疏特徵中僅儲存非零元素的 position(s)

舉例來說,假設名為 species 的類別特徵識別為 36 可以瞭解特定森林中的大樹種進一步假設 example 只能識別單一物種。

您可以使用 one-hot 向量來表示每個範例中的樹木種類。 單樣本向量會包含單一 1 (代表 在此範例中的特定樹種) 和 35 個 0 (代表 這個例子中「沒有」35 種樹種)。one-hot 表示法 的 maple 可能如下所示:

在 0 到 23 排名的向量中,值 0,位置。
          24 包含值 1,排名 25 到 35 則包含值 0。

或者,稀疏表示法只會找出 特定物種如果 maple 位於 24 的位置,則為稀疏表示法 maple 就是:

24

請注意,稀疏表示法比單一樣本更為精簡 這種表示法

稀疏向量

#fundamentals

值主要為零的向量。另請參閱稀疏度 特徵一致性

平方損失

#fundamentals

L2 損失的同義詞。

靜態

#fundamentals

只完成一次這些動作,不會一直重複進行。 「靜態」和「離線」這兩個詞彙是同義詞。 以下是靜態離線機器的常見用法 學習中:

  • 靜態模型 (或「離線模型」) 則是經過一次訓練的模型 可能會需要一段時間
  • 靜態訓練 (或「離線訓練」) 是指訓練 靜態模型
  • 靜態推論 (或離線推論) 是 模型會一次產生一批預測結果

對比動態

靜態推論

#fundamentals

離線推論的同義詞。

穩定性

#fundamentals

此特徵的值在一個或多個維度中不會改變,通常是時間。 例如,下列特徵的值在 2021 年相同,且 2023 年展出的基地。

現實世界中,很少有展覽中心性展覽品。甚至功能 相當於隨著時間的穩定性 (例如海平面) 的變化。

非期待性的對比。

隨機梯度下降法 (SGD)

#fundamentals

梯度下降法演算法: 批量是一。換句話說,SGD 以 並統一選擇 隨機擷取訓練集中的模型

監督式機器學習

#fundamentals

使用特徵及其訓練方式訓練模型 對應的標籤。監督式機器學習 學習某個科目 對應的答案瞭解問題之間的對應關係 學生就能找出新問題的答案 同一個主題的問題

比較對象 非監督式機器學習

合成特徵

#fundamentals

輸入特徵中未出現的特徵,但 衍生的片段建立綜合特徵的方法 包括:

  • 將連續特徵特徵分塊化為範圍特徵分塊。
  • 建立跨功能
  • 將一個特徵值乘以 (或除以) 其他特徵值 或單用舉例來說,如果 ab 是輸入特徵,則 以下是綜合特徵的範例:
    • ab
    • a2
  • 將準函式套用至特徵值。舉例來說,如果 c 是輸入特徵,以下是合成特徵的範例:
    • sin(c)
    • ln(c)

透過正規化資源調度建立的功能 單靠模型不會視為合成特徵

T

測試損失

#fundamentals

指標,代表模型的損失測試集。建構模型時, 通常都會盡量減少測試損失因為測試損失偏低 表示訊號是否良好 (低於訓練損失) 或 驗證損失偏低。

測試損失與訓練損失或驗證損失之間有時會存在明顯落差 表示您必須提高 正則化比率

訓練

#fundamentals

決定理想參數 (權重和 則構成模型。在訓練期間,系統會讀取 範例,並逐漸調整參數。訓練會運用 從數次到數十億次情境

訓練損失

#fundamentals

指標,代表模型在一段期間內的損失 特定訓練疊代作業舉例來說,假設損失函式 就是平均值方框錯誤。也許是訓練損失 平方誤差),且第 10 次疊代的訓練損失為 2.2, 第 100 次疊代為 1.9

損失曲線:比較訓練損失和 疊代。損失曲線提供以下訓練提示:

  • 向下斜坡則代表模型持續改善。
  • 上升斜率則代表模型的成效越來越差。
  • 平斜率表示模型已達成目標 收斂

例如,以下是一些合理的損失曲線 顯示:

  • 初始的疊代期間,是一個陡峭的陡坡, 快速改善模型
  • 逐漸平緩 (但仍會朝下) 的斜坡直到底部 這代表模型在某種程度上持續改善模型 較慢的步調
  • 訓練結束時的平緩斜坡,表示收斂。

訓練損失與疊代的圖。損失曲線開始時
     有陡峭的緩坡斜率逐漸平緩,直到
     的斜率會變成零

雖然訓練損失很重要,但另請參閱 一般化

訓練/應用偏差

#fundamentals

模型在這段時間的成效差異 訓練,以及在訓練期間使用相同模型的成效 服務

訓練集

#fundamentals

用來訓練模型資料集子集。

傳統上,資料集中的範例分為下列三個 不重複子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,單一範例不應屬於某個群組 訓練集和驗證集

真陰性 (TN)

#fundamentals

「正確」預測模型 負面類別:舉例來說,模型會推論 特定電子郵件不是垃圾郵件,而且該電子郵件確實

真陽性 (TP)

#fundamentals

「正確」預測模型 正向類別。舉例來說,模型會推論 某封垃圾郵件可能是垃圾郵件, 但是該電子郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

正向比率是指 ROC 曲線中的 Y 軸。

U

配料不足

#fundamentals

產生預測能力不佳的模型,因為模型 尚未完全擷取訓練資料的複雜度。許多問題 可能造成配適的情況,包括:

未加上標籤的範例

#fundamentals

包含 features 但不含 label 的示例。 舉例來說,下表顯示房屋的三個未加上標籤的範例 評估模型,每個特徵都有三個特徵,但沒有房屋價值:

臥室數量 浴室數量 房屋年齡
3 2 15
2 1 72
4 2 34

監督式機器學習中 模型會根據加上標籤的樣本進行訓練 未加上標籤的範例

半監督式非監督式學習 會在訓練期間使用未加上標籤的範例

與未加標籤示例的對比已加上標籤的範例

非監督式機器學習

#clustering
#fundamentals

訓練模型找出資料集中的模式,通常是指 未加上標籤的資料集

非監督式機器學習最常見的用途是 叢集資料 按類似樣本分組例如非監督式機器 學習演算法可以依據不同屬性將歌曲分類 您的作品產生的叢集可能會成為其他機器的輸入內容 學習演算法 (例如音樂推薦服務)。 在實用標籤稀少或不存在時進行分群法, 例如,在反濫用和詐欺等領域中,叢集可以幫助 讓人類更好地理解資料

監督式機器學習的差異。

V

validation

#fundamentals

模型品質的初始評估作業。 驗證程序會根據 驗證集

驗證集與訓練集不同, 驗證有助於防範過度配適

建議您根據驗證集來評估模型 第一次測試並對照比較模型 測試集做為第二輪測試。

驗證損失

#fundamentals

代表模型損失指標指標 特定物件期間的驗證集 訓練的疊代

另請參閱一般化曲線

驗證集

#fundamentals

執行初始的資料集子集 針對訓練好的模型進行評估。一般而言,您應評估 根據多個驗證集修改訓練過的模型 再根據測試集評估模型。

一般來說,您將資料集中的範例分為下列三個 不重複子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,單一範例不應屬於某個群組 訓練集和驗證集

重量

#fundamentals

模型乘以另一個值的值。 訓練是判斷模型理想權重的程序; 「推論」是指運用所學權重達成 最後是階段 5,如果對模型成效感到滿意 您就能使用該模型進行預測

加權總和

#fundamentals

所有相關輸入值的總和乘以相應的輸入值 權重舉例來說,假設相關輸入內容包含下列項目:

輸入值 輸入權重
2 1.3 號
-1 0.6
3 0.4

因此加權後的加總如下:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是 活化函數

Z

Z 分數正規化

#fundamentals

取代原始原始檔的縮放技術 feature 值,以及代表浮點值 與該特徵平均值相差的標準差數。 舉例來說,假設某個特徵的平均值為 800,且 偏差為 100。下表顯示 Z 分數正規化方式 會將原始值對應到其 Z 分數:

原始值 Z 分數
800 0
950 +1.5
575 -2.25

接著機器學習模型以 Z 分數進行訓練 而不是原始值