機器學習詞彙表:機器學習基礎知識

本頁麵包含機器學習基礎知識詞彙表。如需所有詞彙詞彙,請按這裡

A

accuracy

#fundamentals

正確分類預測的數量除以預測總數。也就是:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

舉例來說,如果模型正確產生 40 個正確預測和 10 次錯誤預測,則準確率就會提高:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類:會針對正確的預測結果不準確的預測類別提供特定名稱。因此,二進位分類的準確率公式如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 代表真陽性 (正確預測)。
  • TN 代表真偽 (正確預測)。
  • FP 代表偽陽性 (不正確的預測)。
  • FN 是偽陰性 (不正確的預測) 的數量。

比較精確度喚回度

啟用函式

#fundamentals

可讓類神經網路瞭解功能和標籤之間的非線性 (複雜) 關係。

熱門啟動功能包括:

啟動函式的都是典型的一行直線。例如,LLU 啟用函式的圖表包含兩行直線:

由兩條線組成的購物車。第一行的常數 y 值為 0,在 x 軸沿著 -infinity,0 到 0,-0 一起執行。
第二行的起始值為 0,0。這條線的起點是 +1,因此在 0,0 到 +infinity,+infinity 之間執行。

Sigmoid 啟用函式示意圖:

2 維曲線的 x 值,跨網域為 -infinity 至 +positive,而 y 值則涵蓋將近 0 至幾乎 1 的範圍。x 為 0 時,y 為 0.5。曲線的斜率始終為正值,而最高的坡度為 0,0.5,斜率則是 x 的絕對值時逐漸攀升。

也就是

#fundamentals

可解決複雜工作的非人為程式或模型。 例如,可翻譯文本影像疾病的文字或程式或模型,或可辨別人工醫療技術的程式或模型,都屬於人工智慧。

「正式」是人工智慧的子欄位。不過,近年來有些機構已經開始用「人工智慧」和「機器學習」這兩個詞彙來交替使用。

AUC (ROC 曲線下面積)

#fundamentals

介於 0.0 和 1.0 之間的數字,代表二元分類模型功能,可區分正類類別負數類別。AUC 越接近 1.0,越能有效區分類別。

舉例來說,上圖顯示分類器模型,可將正類 (綠色烤箱) 和負類 (紫色矩形) 完美分隔。這個非常不完美的模型是 1.0 的 AUC:

同一一邊,數字為 8 的正面示例,另一側為 9 個負例子。

反之,下圖顯示產生隨機結果的分類器模型結果。這個模型的 AUC 為 0.5:

含有 6 個正面示例和 6 個負實例範例。這些序列的順序為正數、負數、正數、負數、正數、負數、負數、負數、負數或正值。

是,上述模型的 AUC 為 0.5,而非 0.0。

大多數的模型都存在於兩個極端之間。例如,以下模型會將正面與負數分開,因此介於 0.5 和 1.0 之間有一個 AUC:

含有 6 個正面示例和 6 個負實例範例。這些序列包含負數、負

AUC 會忽略您設定的分類門檻值。而 AUC 會考量「所有」可能的分類門檻。

B

傳播

#fundamentals

類神經網路中實作梯度下降法的演算法。

訓練類神經網路涉及以下兩個傳遞週期的疊代

  1. 轉送期間,系統會處理範例批次來產生預測結果。系統會將每個預測與各個標籤值進行比較。預測結果和標籤值之間的差距為損失。系統會匯總所有範例的損失,以計算目前批次的損失。
  2. 進行反向傳遞 (反向傳遞) 時,系統會調整所有隱藏層中所有神經的權重,以降低損失。

類神經網路通常包含多個隱藏層中的神經元。每個神經元都會以不同的方式造成整體損失。反向傳播會決定是否要增加或減少套用至特定神經元的權重。

學習率是調節係數,可控制每次反向傳遞的增加或減少權重。學習率越高,每種權重的幅度都可能會增加或低於某個小學習率。

以微量運算術語來說,反向傳遞實作的是微積分的鏈結規則。 也就是說,回呼會計算每個參數的「部分衍生數」,並將每個參數視為反射值。詳情請參閱機器學習密集課程的教學課程

多年前,機器學習從業人員必須編寫程式碼來實作傳播。TensorFlow 等現代化的機器學習 API 現在會為您實作回溯化。哇!

Batch

#fundamentals

一個訓練疊代要使用的一組範例。「批次大小會決定批次中的範例數量。

請參閱訓練週期,瞭解批次與週期之間的關係。

批量

#fundamentals

批次中的範例數量。舉例來說,如果批次大小為 100,則模型會針對每個疊代處理 100 個範例。

以下是常見的批次大小策略:

  • Stochastic Gradient Descent (SGD),其中批次大小為 1。
  • 完整批次,批次大小是整個訓練集中的範例數量。舉例來說,如果訓練集含有數百萬個範例,則批次大小為一百萬個範例。批次作業通常效率不彰。
  • mini-Batch:批次大小通常介於 10 至 1000 之間。迷你批次通常通常是最有效率的策略。

偏誤 (倫理/公平)

#fairness
#fundamentals

1. 針對某些內容、人物或群體採取歧視、偏見或好評。這些偏誤可能會影響資料的收集與解讀、系統設計,以及使用者與系統互動的方式。這類偏誤形式包括:

2. 取樣或回報程序發生系統性錯誤。 這類偏誤形式包括:

不要和機器學習模型或預測偏誤偏誤不同。

偏誤 (數學) 或偏見

#fundamentals

攔截或偏移起點。偏誤是機器學習模型中的參數,並採用下列任一符號表示:

  • B
  • w

舉例來說,「偏誤」是以下公式中的 b

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線中,「偏誤」指的是「y 截距」。以下圖中的線條偏誤為 2。

線形的斜率為 0.5,偏誤為 2 的偏誤 (y 截距)。

由於並非所有模型都是從起點 (0,0) 開始,因此偏誤。舉例來說,假設遊樂園內有 2 歐元可折抵 2 次歐元,而每造訪一個小時,每小時可以額外收取 0.5 歐元。因此,總計費用模型的成本偏誤為 2,因為最低費用是 2 歐元。

調整偏誤與倫理和公平性的偏誤預測偏誤

二進位檔分類

#fundamentals

一種分類工作,可預測兩種互斥類別的其中一個類別:

舉例來說,以下兩個機器學習模型會執行二進位檔分類:

  • 模型可判斷電子郵件是否為垃圾郵件 (正類) 或非垃圾郵件 (排除類別)。
  • 評估醫療症狀的模型,用於判斷某人是否出現特定疾病 (正類) 或沒有疾病 (負類類別)。

多類別分類相反。

另請參閱邏輯迴歸分類門檻

特徵分塊

#fundamentals

將單一地圖項目轉換成多個稱為「值區」或「繫結」的二進位功能,通常取決於值範圍。已選擇的功能通常是連續功能

舉例來說,您可以將溫度範圍選擇成獨立的值區,而不是將溫度視為單一連續浮點功能,例如:

  • 攝氏 10 度就會是「冷」值區。
  • 攝氏 11 到 24 度可說是「溫度」值區。
  • 攝氏 25 度就會是「戰爭」值區。

模型同樣會將相同值區中的所有值視為相同。舉例來說,1322 值都屬於臨時值區,因此模型會以相同的方式處理這兩個值。

C

類別資料

#fundamentals

地圖項目:具有一組可能的值。例如,假設名為 traffic-light-state 的類別功能,其中只能有下列其中一個值:

  • red
  • yellow
  • green

藉由將 traffic-light-state 視為類別功能,模型可以瞭解 redgreenyellow 對駕駛行為的影響。

類別功能有時稱為「不同的功能」

數值資料相反。

類別

#fundamentals

標籤所屬的類別。 例如:

  • 在偵測垃圾內容的「二元分類」模型中,這兩個類別可能是垃圾內容非垃圾內容
  • 在識別犬隻品種的多類別分類模型中,類別可能為 poodlebeapug 等。

分類模型可以預測類別。 相反地,「迴歸模型」會預測數字,而不是類別。

分類模型

#fundamentals

您可以將預測結果視為類別模型。例如,以下是所有分類模型:

  • 預測輸入語句的語言 (法文?西班牙語? 義大利文?)
  • 預測樹種的模型 (Maple?橡木?寶貝?
  • 這種模型可預測特定醫療狀況的陽性或負面類別。

反之,迴歸模型可預測數字,而非類別。

兩種常見的分類模型類型如下:

分類門檻

#fundamentals

二元分類中的 0 到 1 之間的數字,可將邏輯迴歸模型的原始輸出內容轉換為正類類別排除類別的預測結果。請注意,分類門檻是人類選擇的值,而不是模型訓練選擇的值。

邏輯迴歸模型會輸出介於 0 和 1 之間的原始值。然後:

  • 如果原始值大於分類門檻,系統就會預測正類。
  • 如果原始值低於分類門檻,系統會預測負類別。

舉例來說,假設分類門檻為 0.8。如果原始值為 0.9,模型會預測正類。如果原始值是 0.7,模型會預測排除類別。

分類分類門檻會影響偽陽性偽陰性的數量。

類別不平衡資料集

#fundamentals

一個分類問題資料集,其中各類別的「標籤」總數總數有明顯差異。例如,假設包含兩個標籤的二進位分類資料集如下:

  • 1,000,000 個排除標籤
  • 10 個正面標籤

負數標籤與正數標籤的比率為 100,000 至 1,因此這是類別平衡的資料集。

相反地,下列資料集並非類別平衡,因為負面標籤與正面標籤的比率差不多:

  • 517 個排除標籤
  • 483 個正面標籤

多類別資料集也可以進行類別平衡。舉例來說,下列多類別分類資料集也會對類別進行不平衡,因為其中一個標籤比其他兩個範例來得多:

  • 1,000,000 個標籤為「綠色」標籤
  • 200 個類別為「紫色」的標籤
  • 350 個標籤「類別」

另請參閱主要類別最小類別

剪輯

#fundamentals

您可以透過下列一或兩項做法處理離群值的技巧:

  • 將大於上限上限的特徵值調降至該上限。
  • 將低於最低門檻的功能值增加到最低門檻。

舉例來說,假設特定特徵的 0.5% 值落在 40 至 60 的範圍之內。在這種情況下,您可以執行以下操作:

  • 將所有值超過 60 (上限為 60) 的下限。
  • 剪輯所有值低於 40 (最小值) 的值,使其精確為 40。

離群值可能會損害模型,有時會導致權重在訓練期間溢位。有些離群值也可能會嚴重迫切,例如準確率。剪輯是降低損害的常見技術。

漸層漸層會在訓練期間強制將指定範圍中的「漸層」值設為有效值。

混淆矩陣

#fundamentals

這個 NxN 資料表匯總了分類模型的正確和不正確預測數量。例如,請考量「二元分類模型的下列混淆矩陣:

Tumor (預測) 非恐怖 (預測)
Tumor (真值) 18 (TP) 1 (FN)
非熱帶 (真值) 每秒影格數 (6) 452 (TN)

上述混淆矩陣顯示以下內容:

  • 在 19 次預測的真值中,模型將正確分類為 18 次,正確分類 1。
  • 在 458 預測為「非真偽」的預測中,模型正確分類 452,而誤分類為 6。

多類別分類問題的混淆矩陣可協助您找出錯誤的模式。 舉例來說,假設下列 3 類別多分類分類模型 (由 Virginica、Versicolor 和 Setosa 分類) 採用下列混淆矩陣。如果真值是維吉尼亞州,混淆矩陣顯示模型預測出 Versicolor 的可能性較高 (與 Setosa 相似):

  塞羅薩 (預測) 攝氏 (預測) 維吉尼亞州 (預測)
塞羅薩 (真值) 88 12 0
真值 (真值) 6 141 7
維吉尼亞州 (真值) 2 27 109

再舉一個例子,令人困惑的矩陣顯示,訓練出來辨識手寫數字的模型通常誤認為 9 而非 4,或是誤地預測 1 (而非 7)。

混淆矩陣含有足夠的資訊,可以計算各種成效指標,包括精確度喚回度

連續功能

#fundamentals

具有無限可能值的可能值 feature,例如溫度或體重。

離地功能相反。

對話

#fundamentals

loss 值幾乎或完全沒有與各個疊代變更時,狀態就會達到。舉例來說,下列曲線曲線建議在大約 700 次疊代之間進行對話:

笛卡車的情節。X 軸遺失,Y 軸是訓練疊代次數。第一次疊代期間,損失極高,但會明顯下降。大約 100 次疊代之後,損失就會下降,但會逐漸慢慢。約 700 次疊代之後,損失就會遺失。

如果其他訓練無法改善模型,模型會聚合

深度學習中,有時值會保持或接近許多疊代,直到遞減為止。長時間的損失損失值中,您可能會暫時收到誤判情況。

另請參閱提早停止

D

DataFrame

#fundamentals

代表記憶體中資料集的常見 pandas 資料類型。

DataFrame 類似於資料表或試算表。每個 DataFrame 的欄都有名稱 (標頭),而每個資料列都會以不重複的編號識別。

DataFrame 中的各個資料欄的結構都與 2D 陣列類似,不過每個資料欄都可以指派專屬的資料類型。

另請參閱官方的 pandas.DataFrame 參考資料頁面

資料集或資料集

#fundamentals

以下列任一格式彙整的原始資料 (通常不是只有一組):

  • 試算表
  • 檔案格式的 CSV (以半形逗號分隔值) 檔案

深度模型

#fundamentals

類神經網路,其中包含多個「隱藏的圖層」

深層模型也稱為「深層類神經網路」

寬幅模型對比。

密集特徵

#fundamentals

大多數或所有數值都是非零的地圖項目,通常是浮點值的 Tensor。舉例來說,下列 10 個元素的 Tensor 非常密集,因為其中 9 個值不是零:

8 3 7 5 2 4 0 4 9 6

剖析功能相反。

depth

#fundamentals

類神經網路中的下列項目總和:

舉例來說,某個包含五個隱藏層的類神經網路和一個輸出層深度為 6。

請注意,「輸入層」沒有影響深度。

離地功能

#fundamentals

內含一組有限值的 feature。舉例來說,如果地圖項目的值可能只有「動物」、「蔬菜」或「礦產」,就不用 (或類別) 功能。

連續功能相反。

動態

#fundamentals

經常或持續進行。「動態」和「線上」這兩個詞是機器學習的同義詞。 以下是機器學習中的動態線上常見用途:

  • 「動態模型」 (或「線上模型」) 是經常重新訓練或持續訓練的模型。
  • 「動態訓練」 (或「線上訓練」) 是訓練程序頻繁或持續進行的流程。
  • 「動態推論」 (或「線上推論」) 是產生隨選預測資料的程序。

動態模型

#fundamentals

經常重新訓練的模型 (有時可能持續執行)。動態模型是一種「終身學習者」,可依據持續演進的資料進行調整。動態模型也稱為「線上模型」

靜態模型相反。

E

提早中止訓練

#fundamentals

一種正規化方法,會在結束訓練之前,結束結束訓練。在早期停止時,如果驗證資料集上的損失開始增加 (即一般化效能表現較差),則您打算停止訓練模型。

嵌入層

#language
#fundamentals

特殊的隱藏層,用於訓練高維度的類別功能,以漸進的方式學習較低的維度嵌入向量。嵌入層可讓類神經網路的訓練效率遠超過高維度類別功能的訓練。

舉例來說,Google 地球目前支援大約 73,000 棵樹。假設樹狀圖是模型中的特徵,因此模型的輸入層包含單次 1 個向量的 73,000 個元素。例如,baobab 可能如下所示:

由 73,000 個元素組成的陣列。前 6,232 個元素的值為 0。下一個元素的值是 1。最後一個 66,767 元素會保留 0 值。

73,000 個元素陣列太長。如果未在模型中新增嵌入層,由於將乘以 72,999 個零的結果,因此訓練會耗用大量時間。也許您選擇了嵌入層,由 12 個維度組成。因此,嵌入層會逐漸學習每個樹狀結構的新嵌入向量。

在某些情況下,「雜湊」是嵌入層的合理替代方案。

Epoch 紀元時間

#fundamentals

系統會傳遞整個訓練集,好讓每個範例處理過一次。

週期代表 N/批次大小訓練疊代,其中 N 是範例總數。

例如,假設:

  • 資料集包含 1,000 個範例。
  • 批量為 50 個範例。

因此,單一週期需要 20 次疊代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

範例

#fundamentals

一個 features 資料列的值,並且可能是標籤監督式學習中的範例分為兩種一般類別:

  • 已加上標籤的範例包含一或多項功能和標籤。標籤樣本會在訓練期間使用。
  • 「未加上標籤的範例」是由一或多個功能組成,但沒有標籤。未加上標籤的範例會在推論期間使用。

舉例來說,假設您訓練的模型可以判斷天氣狀況對學生測驗分數的影響,以下是三個已加上標籤的例子:

功能 標籤
溫度 濕度 壓力 測試分數
15 47 998 不錯
19 34 1020 極佳
18 92 1012 不佳

以下是三個未加上標籤的範例:

溫度 濕度 壓力  
12 62 1014  
21 47 1017  
19 41 1021  

資料集的資料列通常為來源的原始來源。也就是說,範例通常包含資料集內部分資料欄。此外,範例中的功能也可以包含合成功能,例如地圖項目交錯

F

偽陰性 (FN)

#fundamentals

模型未準確預測負數類別的範例。例如,模型會預測特定電子郵件「並非垃圾郵件」(負類別),但該電子郵件「確實是垃圾郵件」

偽陽性 (FP)

#fundamentals

針對模型誤認為正類的範例。例如,模型會預測特定電子郵件為垃圾郵件 (正類),但該電子郵件實際上不是垃圾郵件

偽陽率 (FPR)

#fundamentals

模型實際預測正類類別的實際負面示例比例。以下公式會計算誤判率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率指的是 ROC 曲線中的 X 軸。

功能

#fundamentals

機器學習模型的輸入變數。含有一項或多項功能的範例。舉例來說,假設您訓練的模型可以判斷天氣狀況對學生測驗分數的影響。下表列出三個範例,每個範例都包含三個特徵和一個標籤:

功能 標籤
溫度 濕度 壓力 測試分數
15 47 998 92
19 34 1020 84
18 92 1012 87

標籤相反。

功能交叉

#fundamentals

「交錯使用」或類似「特徵分塊」功能。合成功能

舉例來說,假設「情境預測」模型在下列四個值區中的一種來代表溫度:

  • freezing
  • chilly
  • temperate
  • warm

這三個值區分別代表風速:

  • still
  • light
  • windy

如果沒有特徵交叉特徵,線性模型就會分別針對前七個不同的值區,單獨訓練。因此,舉例來說,freezing 訓練會以獨立訓練的方式運作,例如:windy

或者,您也可以建立特徵溫度和風速。這項綜合功能包含下列 12 個可能值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

多虧了這項功能,模型可以學習 freezing-windy 天和 freezing-still 天之間的情緒差異。

如果您從兩個功能建立綜合功能,而每個功能具有許多不同的值區,則產生的特徵組合將有許多可能的組合。舉例來說,如果某項功能有 1,000 個值區,另一個功能則含有 2,000 個值區,則產生的功能也擁有 2,000,000 個值區。

十字符號是一個購物車中的產品

特徵越集合經常用於線性模型,因此很少用於類神經網路。

特徵工程

#fundamentals
#TensorFlow

這個程序包含以下步驟:

  1. 判斷哪些功能在訓練模型時相當實用。
  2. 將資料集的原始資料轉換為這些功能的有效版本。

例如,您可能認為 temperature 是一項實用的功能。接著,您可以實驗值區,將模型從不同 temperature 範圍中學到的內容最佳化。

特徵工程有時也稱為「功能擷取」

功能組合

#fundamentals

機器學習模型功能群組。例如,對於預測房屋價格的模型,包含郵遞區號、屬性大小和屬性狀況可能包括一組簡單的功能集。

地圖項目向量

#fundamentals

內含範例功能值陣列。功能向量會在訓練推論期間輸入。例如,若模型具有兩個不同的功能,其特徵向量可能如下:

[0.92, 0.56]

四個圖層:輸入層、兩個隱藏的圖層和一個輸出層。輸入層包含兩個節點,其中一個包含 0.92 值,另一個則包含值為 0.56。

每個範例都為功能向量提供不同的值,因此下一個範例的特徵向量可能如下所示:

[0.73, 0.49]

功能工程會決定如何表示功能向量中的地圖項目。舉例來說,包含類別五個可能的二進位類別功能可能會以一次性程式碼表示。在這個範例中,特定範例的功能向量的一部分是由四個零和一個 1.0 組成,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子,假設您的模型包含三個功能:

  • 包含五項編碼的 5 個可能值的二進位類別功能;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一個二進位類別功能,其中包含擁有一幅編碼的三個可能值,例如:[0.0, 0.0, 1.0]
  • 浮點功能,例如:8.3

在這種情況下,每個範例的特徵向量會以 9 個值表示。根據上述清單中的範例值,地圖項目向量如下:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

意見回饋循環

#fundamentals

在機器學習中,模型的預測結果會影響相同模型或其他模型的訓練資料。例如,推薦電影的模型會影響使用者看到的電影,進而影響後續的電影推薦模型。

G

一般化

#fundamentals

模型可以對之前從未出現的新資料進行正確預測。可一般化的模式與過度配適的模型相反。

一般化曲線

#fundamentals

訓練損失和「驗證失敗圖表,即是疊代次數的函式。

一般化曲線可協助您偵測可能的過度適配。例如,以下的正規化曲線建議過度過度化,因為驗證損失最終會遠低於訓練損失。

將 Y 軸標示為「loss」的 Cartesian 圖表,X 軸會標示為「iterations」。畫面上會顯示兩支的設定。一個管道代表訓練損失,另一個則顯示驗證失敗。這兩起測試都差不多,但訓練損失最終會大幅降低驗證損失。

梯度下降

#fundamentals

盡量減少損失的數學技術。漸層逐步下降會調整權重偏誤,逐步找出最佳組合來盡可能減少損失。

梯度下降法是很明顯的,很比機器學習長。

真值

#fundamentals

實境秀

實際結果。

舉例來說,您可以考慮使用二元分類模型,預測第一年的學生是否會在 6 年內畢業。這個模型的真值是學生是否在六年內實際升級。

H

隱藏的圖層

#fundamentals

輸入層 (功能) 和輸出層 (預測) 之間的類神經網路中的層。每個隱藏層都包含一或多個神經元,舉例來說,下列類神經網路包含兩個隱藏的圖層,第一個圖層有三個神經元,第二層為兩個神經元:

四層。第一層是包含兩項功能的輸入層。第二個圖層是包含三個神經元的隱藏層。第三個圖層是包含兩個神經元的隱藏層。第四個層是輸出層。每個地圖項目包含三個邊緣,每個邊緣都指向第二個層的不同神經。第二個圖層中的每個神經線都含有兩個邊緣,每個邊緣會指向第三個層的不同神經元。第三層的每個神經元都包含一個邊緣,每個邊緣指向輸出層。

「深層類神經網路」包含多個隱藏的圖層。舉例來說,上圖是深層類神經網路,因為模型包含兩個隱藏的圖層。

超參數

#fundamentals

您或超參數調整服務的變數 在訓練模型的後續執行作業期間進行調整。舉例來說,學習率是超參數。您可以將一個學習率設為 0.01,再一個訓練工作階段。如果您認為 0.01 過高,可以將下個學習課程的學習率設為 0.003。

「參數」是模型在訓練期間學習的各種不同權重偏誤

I

獨立發布,相同分配 (即)

#fundamentals

從不改變的分佈中繪製的資料,以及每個值繪製的位置都不會影響先前繪製的值。i.i.d. 指的是機器學習的「理想氣體」,是相當實用的數學運算,但在現實世界中卻幾乎完全沒有。例如,網頁訪客的分佈情形可能是指在某短時間內 (亦即,短期間的) 不會有變化,而訪客的造訪期間通常不會同時受到其他造訪影響。然而,如果您延長該視窗的時間範圍,網頁訪客可能會出現季節性差異。

另請參閱非車站

推論

#fundamentals

在機器學習中,您可以將經過訓練的模型套用至未加上標籤的範例,藉此進行預測程序。

推論 在統計資料中略有不同。詳情請參閱 統計推論的維基百科文章

輸入層

#fundamentals

類神經網路圖層,其中含有地圖項目向量。也就是說,輸入層會提供訓練推論範例。舉例來說,下列類神經網路中的輸入層包含兩項功能:

四個圖層:輸入層、兩個隱藏的圖層和輸出層。

可解釋性

#fundamentals

能夠向人類解釋可理解的說法,或呈現機器學習模型的「模型」

舉例來說,大多數線性迴歸模型都是高度互通的。(您只需要查看每個特徵的訓練權重即可)。決策樹清楚也容易理解。但有些模型需要精細的視覺化資料才能解讀。

您可以使用學習口譯工具 (LIT) 來解讀機器學習模型。

疊代

#fundamentals

針對模型參數的單一更新,也就是模型的權重偏誤 (例如訓練)。批次大小決定了單一疊代作業中模型處理的範例數量。舉例來說,如果批次大小為 20,則模型會先調整 20 個範例,再調整參數。

訓練類神經網路時,單次疊代會涉及下列兩項:

  1. 符合單一批次評估結果的轉送結果。
  2. 反向傳遞 (反向傳播),根據損失和學習率調整模型的參數。

L

L0 正則化

#fundamentals

一種正規化類型,會影響模型中非零權重總數。舉例來說,如果模型的權重為 11 個非零,就會被視為 10 個非零的類似模型。

L0 正則化有時也稱為「L0-norm 正規化」

L1 減掉

#fundamentals

減量函式:計算實際標籤值和模型預測的值之間的差異。舉例來說,以下是將批次五項範例的 L1 損失:

實際值範例 模型的預測值 差異的絕對值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 減掉

L1 的損失對離群值 (而非L2 損失) 相對敏感。

Mean Absolute Error 是每個範例的平均 L1 損失率。

L1 正則化

#fundamentals

一種正規化類型,會以權重絕對值的總和,按比例調整權重。L1 正則化可以幫助,將不相關或幾乎不相關的特徵的權重減至完全 0。權重為 0 的 地圖項目會確實從模型中移除。

L2 正則化相反。

L2 減掉

#fundamentals

減量函式:計算實際標籤值和模型預測的值之間的差數。例如以下 5 個批次損失的 L2 計算方式:

實際值範例 模型的預測值 差異平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

由於團隊的關係,L2 的損失會增加離群值的影響。因此,相較於 L1 損失,L2 失真情形對預測結果失準。例如,上一個批次的 L1 損失為 8,而非 16。請注意,一個離群 16 日的 9 個離群值。

迴歸模型通常會使用 L2 損失作為損失函式。

Mean Squared Error是每個範例的平均 L2 損失。 四分之一損失減重 L2

L2 正則化

#fundamentals

一種正規化類型,以權重「權重」為單位減去權重L2 正則化可協助提高「離群值 (權重正值或負值) 接近 0,但「不完全」的權重。系統會將值近似 0 的特徵保留在模型中,但對模型預測的影響不大。

L2 正則化會一律改善線性模型的一般化功能。

L1 正則化相反。

標籤

#fundamentals

受監督的機器學習中,範例的「答案」或「結果」部分。

每個已加上標籤的範例都是由一或多項功能和一個標籤組成。例如,在垃圾內容偵測資料集中,標籤可能是「垃圾內容」或「非垃圾內容」。在下雨資料集中,標籤可能是在特定期間內下降的雨量。

已加上標籤的範例

#fundamentals

包含一或多個功能標籤的範例。例如,下表依據內部評估模型顯示三個有標籤的範例,每個模型包含三個特徵與一個標籤:

臥室數量 浴室數量 住宅年齡 房屋價格 (標籤)
3 2 15 $345,000 美元
2 1 72 $179,000 美元
4 2 34 $392,000 美元

監督式機器學習中,模型會根據標籤範例進行訓練,並對未加上標籤的範例進行預測。

對比標籤與未加上標籤的範例的對比度。

lambda

#fundamentals

正規化費率」的同義詞。

Lambda 是超載的字詞。我們將重點放在「正則化中的「字詞」定義。

圖層

#fundamentals

類神經網路」中的一組「neurons。常見的三種圖層類型如下:

舉例來說,下圖顯示了具有一個輸入層、兩個隱藏層和一個輸出層的類神經網路:

使用一個輸入層、兩個隱藏層和一個輸出層的類神經網路。輸入層包含兩項功能。第一個隱藏層包含三個神經元,第二個隱藏層則包含兩個神經元。輸出層是由單一節點組成。

TensorFlow 中,「層」也是 Python 函式,其中包含 Tensors 和設定選項,做為輸入並產生其他張量做為輸出。

學習率

#fundamentals

告訴梯度下降法的浮點數,此演算法可測量每次疊代的權重和偏誤程度。舉例來說,0.3 的學習率會調整權重,且偏誤是 0.1 的學習率。

學習率是重要的超參數,如果您設定的學習率過低,則訓練時間過長。如果您設定的學習率過高,則通常梯度下降會無法達到對話

線性模式

#fundamentals

模型,會為每個功能指派一個權重,用來建立預測結果。(線性模式也會納入偏誤)。相反地,深度模型的功能與預測結果之間的關係通常為非線性

相較於一般模型,線性模型更容易訓練,且可交錯。不過,不同的模型可以學習「功能」功能之間的複雜關係。

線性迴歸邏輯迴歸是線性模式的兩種類型。

線性

#fundamentals

兩個以上的變數之間的關係,只能用加法和乘法來表示。

線形的繪製結果是一個線條。

非線性相反。

線性迴歸

#fundamentals

一種機器學習模型類型,必須符合下列兩項條件:

  • 此模式為線性模式
  • 這項預測值是浮點值。(這是線性迴歸迴歸部分)。

透過邏輯迴歸進行線性線性迴歸。 此外,使用分類調整迴歸問題。

邏輯迴歸

#fundamentals

可預測機率的迴歸模型。邏輯迴歸模型具有下列特性:

  • 標籤為類別。「邏輯迴歸」一詞通常是指「二進位檔迴歸」,也就是對具有兩個可能值的標籤計算機率的模型。較不常見的變數是多項邏輯迴歸,針對具有兩個可能值的標籤計算可能性。
  • 訓練期間的損失函式為 Log Loss。(如果標籤包含超過兩個可能的值,可以同時放置多個 Log LossUnit 單位)。
  • 模型具有線性架構,而非深層類神經網路。不過,這個定義的其餘部分也適用於深度模型用於分類類別標籤的機率。

舉例來說,假設邏輯迴歸模型會計算輸入電子郵件的垃圾內容或非垃圾郵件的可能性。在推論期間,假設模型預測為 0.72。因此,模型正在估算:

  • 收到垃圾郵件的機率為 72%。
  • 20% 的電子郵件的機率不是垃圾郵件。

邏輯迴歸模型採用下列兩個步驟架構:

  1. 模型會套用輸入特徵的線性函式,以產生原始預測 (y)。
  2. 模型會使用該原始預測輸入 sigmoid 函式,將原始預測轉換為 0 到 1 之間的值 (不含 1 和 1)。

與任何迴歸模型一樣,邏輯迴歸模型會預測數字。不過,這個數字通常會成為二元分類模型的一部分,如下所示:

  • 如果預測數字大於分類門檻,二元分類模型會預測正類。
  • 如果預測數量低於分類門檻,則二元分類模型會預測負數。

對數損失

#fundamentals

二元邏輯迴歸中使用的loss 函式

對數

#fundamentals

部分事件的對數。

損失

#fundamentals

監督模型訓練期間,測量模型預測標籤之間的距離。

失去函式會計算損失。

損失曲線

#fundamentals

減損的圖表,代表訓練疊代的數量。以下為一般損失曲線:

以購物車方式呈現損失與訓練疊代的虛線圖,其中顯示初始疊代的流失率,接著呈現逐步下降的情形,並在最終疊代作業中呈現平緩變化。

損失曲線可協助您判斷模型對話過度適配的時機。

損失曲線會顯示以下各種損失:

另請參閱一般化曲線

減掉函式

#fundamentals

訓練或測試期間,計算一個批次的數學函式的數學函式。相較於產生預測模型的模型,損失函式會傳回較低預測率較低的模型。

訓練的目標通常是盡可能減少損失函式傳回的損失。

有許多不同類型的損失函式。針對您要建構的模型類型,選擇適當的損失函式。例如:

M

機器學習

#fundamentals

從輸入資料「訓練」模型的程式或系統。經過訓練的模型可以根據用於訓練模型的原分佈,繪製新的 (先前不可能) 的資料進行預測。

機器學習也是指與這些程式或系統相關的研究領域。

大班

#fundamentals

類別平衡資料集中較常見的標籤。舉例來說,假設資料集內含 99% 的排除標籤和 1% 的正面標籤,排除標籤就是大部分類別。

次要類別相反。

迷你批次

#fundamentals

在單一疊代中隨機處理的一組批次。迷你批次的批次大小通常介於 10 到 1,000 個範例之間。

舉例來說,假設整個訓練集 (完整批次) 含有 1,000 個範例。此外,假設您將每個迷你批次的批次大小設為 20。因此,每次疊代都會從 1,000 個隨機樣本中隨機產生 20 個損失,並據此調整權重偏誤

迷你批次的運算效率會比整個批次所有範例的損失更高。

少數類別

#fundamentals

類別平衡資料集中較不常見的標籤。舉例來說,假設某個資料集含有 99% 的排除標籤和 1% 的正面標籤,正面標籤即為次要類別。

主要類別相反。

模型

#fundamentals

一般來說,會處理輸入資料並傳回輸出的數學結構。詞組不同,模型是系統進行預測所需的參數和結構組合。在監督式機器學習中,模型接受範例做為輸入,並推斷預測做為輸出內容。在監督式機器學習中,模型的運作方式會稍有不同。例如:

  • 線性迴歸模型由一組權重偏誤組成。
  • 「類神經網路」模型包含:
    • 一組「隱藏的圖層,每個圖層包含一或多個神經元
    • 與每個神經元有關的權重和偏誤。
  • 「決策樹狀圖」模型包含:
    • 樹狀結構的形狀,也就是條件和離開的模式。
    • 條款及細則。

您可以儲存、還原模型或建立模型副本。

非監督式機器學習也會產生模型,這通常是一個函式,可將輸入範例對應至最適合的叢集

多類別分類

#fundamentals

在監督式學習中,分類問題是指資料集含有超過兩個 類別的標籤。 舉例來說,Iris 資料集的標籤必須是下列其中一個類別:

  • 約瑟夫
  • 艾里斯維吉尼卡
  • 鳶尾花

針對 Iris 資料集訓練的模型,此模型預測針對新範例的 Iris 類型進行了多類別分類。

相反地,為明確區分兩種類別之間的分類問題為二元分類模型。舉例來說,電子郵件模型預測「垃圾郵件」或「非垃圾郵件」是二元分類模型。

在分群問題中,多類別分類是指兩個以上叢集。

N

負課

#fundamentals

二元分類中,其中一個類別會被視為「正類」,另一個類別則是「負值」。正面類別是指模型正在測試的內容或事件,而排除類別是可能的。例如:

  • 醫療測試中的負類類別可能為「ttoror」。
  • 電子郵件分類項中的排除類別可能是「非垃圾郵件」。

正面類別相反。

輸出內容

#fundamentals

模型,其中包含至少一個隱藏層。「深層類神經網路」是一種類神經網路,包含多個隱藏層。舉例來說,下圖顯示深層類神經網路,其中包含兩個隱藏的圖層。

使用輸入層、兩個隱藏層和輸出層的類神經網路。

類神經網路中的每個神經元都會連線至下一個層中的所有節點。例如,在上圖中,請注意第 1 個隱藏層中的三個三個子線都各自連結到第二個隱藏層中的兩個兩個霓虹。

在電腦上實作的類神經網路有時也稱為「人工類神經網路」,可將其與大腦和其他神經系統中找到的類神經網路區分。

有些類神經網路會混合不同特徵與標籤之間非常複雜的非線性關係。

另請參閱卷積類神經網路循環類神經網路

尼龍

#fundamentals

在機器學習中,類神經網路「隱藏層」中的不同單位。每個神經元都會執行下列兩個步驟:

  1. 計算輸入值的「加權總和」,乘以相應權重。
  2. 將加權總和做為輸入內容傳送至啟用函式

第一個隱藏層中的神經元會接受輸入層中的特徵值輸入內容。除了第一個隱藏層以外,任何隱藏層中的神經元都會接受先前隱藏層中的神經元的輸入內容。舉例來說,第二個隱藏層中的神經元會接受第一個隱藏層中所含的輸入內容。

下圖醒目顯示了兩個神經元及其輸入內容。

使用輸入層、兩個隱藏層和輸出層的類神經網路。兩個神經元醒目顯示:第一個隱藏的圖層和第二個隱藏層中。第一個隱藏層中醒目顯示的神經元會接收輸入層中兩個地圖項目的輸入資料。在第二個隱藏層中,醒目顯示的神經元會收到第一個隱藏層中三個神經輸入的輸入內容。

類神經網路中的神經會模擬神經系統和神經系統其他部分的行為,

節點 (類神經網路)

#fundamentals

隱藏層中的 neuron

非線性

#fundamentals

兩個或多個變數之間的關係,不能單獨透過乘法和乘法來表示。線性關係可以用線條表示;非線性關係無法以線條表示。舉例來說,假設兩個模型是單一功能與單一標籤的關聯,左邊的模型是線性,而右側的模型為非線性:

2 支手掌聲。一個情節為一條線,這會是線性關係。
          另一個圖表是曲線,因此這是非線性的關係。

非妊娠

#fundamentals

用來變更一或多個維度值的功能,通常是時間。 例如,請看以下幾個非電池的範例:

  • 特定商店的泳裝數量因季節而異。
  • 在特定地區獲得的特定水果量相當於零,但短期內卻很大。
  • 因為氣候變遷,每年平均溫度會改變。

工作站相反。

正規化

#fundamentals

普遍來說,將變數實際值範圍轉換為標準值範圍的程序,例如:

  • -1 至 +1
  • 0 至 1
  • 正常分佈

舉例來說,假設特定功能的實際值範圍是 800 到 2,400,根據功能工程,您可以將實際值正規化為標準範圍,例如 -1 到 +1。

正規化是功能工程的常見工作。當特徵向量中的各個數值特徵的大致範圍大致相同時,模型訓練的速度通常會更快 (且會更好預測)。

數值資料

#fundamentals

以整數或實值數字表示的地圖項目。 例如,內部評估模型可能代表房屋大小 (以平方公尺或平方公尺為單位) 的大小。以特徵資料表示特徵,表示特徵值與標籤有「數學」關係。也就是說,房屋的平方公尺數可能會與房屋值有些數學關係。

並非所有整數資料都應以數字資料表示。例如,世界上某些部分的郵遞區號是整數;但是,整數郵遞區號不應以模型中數值資料的形式呈現。這是因為 20000 的郵遞區號不是郵遞區號的 2 個 (或半個) 是 10,000 的郵遞區號。此外,雖然不同的郵遞區號「會」對應至不同的房地產值,但我們無法假設郵遞區號 20000 的房地產價值是郵遞區號 10000 的兩倍。 郵遞區號應改為類別資料

數字特徵有時也稱為連續功能

O

離線

#fundamentals

靜態的同義詞。

離線推論

#fundamentals

產生多個預測模型,然後快取 (儲存) 預測模型的程序。這樣一來,應用程式就能從快取存取想要的預測資料,而不是重新執行模型。

舉例來說,假設模型每四小時產生一次當地天氣預報 (預測)。每次執行模型後,系統會快取所有當地天氣預報。天氣應用程式可以從快取中擷取預測結果。

離線推論也稱為靜態推論

線上推論相反。

1-hot 編碼

#fundamentals

將類別資料視為向量形式,在其中執行以下動作:

  • 一個元素設為 1。
  • 所有其他元素都設為 0。

One-hot 編碼通常用於代表一組可能可能的值字串或 ID。舉例來說,假設某個特定類別功能名為 Scandinavia,其中有五個可能的值:

  • 「丹麥」
  • 「瑞典」
  • 「挪威」
  • 「芬蘭」
  • 「冰島」

One-hot 編碼可能代表五個值,如下所示:

country 向量
「丹麥」 1 0 0 0 0
「瑞典」 0 1 0 0 0
「挪威」 0 0 1 0 0
「芬蘭」 0 0 0 1 0
「冰島」 0 0 0 0 1

多虧了一次性的編碼技術,模型可以根據這五個國家/地區的情況,學習不同的連線方式。

將特徵表示為「數值資料,是一次性程式碼的替代選項。以斯堪地那維亞國家/地區來說,不太值得使用。以下列數字代表:

  • 「丹麥」為 0
  • 「瑞典」為 1 號
  • 「挪威」為 2
  • 「芬蘭」為 3 年級
  • 「冰島」是 4 歲

使用數字編碼時,模型會以數學方式解讀原始數字,並會嘗試訓練這些數字。不過,冰島的建物不會像挪威的一半 (而且一半) 多出一些驚喜,因此會得出奇特的結論。

一對一

#fundamentals

由於 NN 類別有分類問題,因此這個包含多個 N 個二進位檔分類器的解數,每個結果都會有一個二進位分類器。舉例來說,假設某個模型將動物分類、蔬菜或礦物等類別進行分類,則單一式 vs.-all 解決方案提供下列三個二進位檔分類器:

  • 動物與動物的比較
  • 蔬菜和蔬菜
  • 礦產與礦產

線上

#fundamentals

動態」的同義詞。

線上推論

#fundamentals

視需求產生預測資料。例如,允許應用程式將輸入內容傳送至模型,然後提出預測要求。使用線上推論的系統透過執行模型 (並將預測結果傳回應用程式) 回應要求。

離線推論相反。

輸出層

#fundamentals

類神經網路的「最終」層。輸出層包含預測。

下圖顯示了含有輸入層、兩個隱藏層和輸出層的小型深層類神經網路:

使用一個輸入層、兩個隱藏層和一個輸出層的類神經網路。輸入層包含兩項功能。第一個隱藏層包含三個神經元,第二個隱藏層則包含兩個神經元。輸出層是由單一節點組成。

過度配戴

#fundamentals

建立模型符合訓練資料的模型,使其無法針對新的資料進行正確的預測。

正則化可降低過度磨損。此外,大型訓練和多元化的訓練集也能避免過度穿戴。

P

pandas

#fundamentals

numpy 為基礎的資料欄導向資料分析 API。 許多機器學習架構 (包括 TensorFlow) 均支援 pandas 資料結構做為輸入。詳情請參閱 pandas 說明文件

參數

#fundamentals

模型在訓練期間學習的權重偏誤。例如,在線性迴歸模型中,參數包括下列偏見 (b) 和所有權重 (w1w2 等) 的公式:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

反之,超參數 (或超參數轉換服務) 提供給模型的值。舉例來說,學習率是超參數。

正類

#fundamentals

您要測試的類別。

舉例來說,癌症模型中的正類類別可能是「tumor」。 電子郵件分類工具中的正面類別可能包括「垃圾郵件」。

負數類別相反。

後續處理

#fairness
#fundamentals

在模型執行「之後」調整模型的輸出內容。處理後可以使用強制執行公平性限制,而不必自行修改模型。

舉例來說,其中一個屬性可以設定該屬性所有值的真陽性,藉此維持某些屬性的後續處理二進位檔,

預測

#fundamentals

模型的輸出內容。例如:

  • 二元分類模型的預測為正類或負類類別。
  • 多類別分類模型的預測為一個類別。
  • 線性迴歸模型的預測是一個數字。

Proxy 標籤

#fundamentals

用於概略提供無法直接在資料集中使用的標籤。

例如,假設您訓練模型必須預測員工壓力水平。您的資料集含有大量預測功能,但不包含名為「Stress level」的標籤。選擇在工作時,您選擇「工作場所事故」做為壓力等級的 Proxy 標籤。畢竟,壓力不足的員工比不平靜的員工來得高。或在某些情況下,工作意外事故可能會意外升高並出現許多原因。

第二個範例是,您希望降雨嗎?是資料集的布林標籤,但資料集未包含雨林資料。如果有照片,你可以製作人在拿傘傘的圖片,做為是否下雨?的 Proxy 標籤。您的 Proxy 標籤是否合適?當然,但某些文化中的人在參加雨天時可能較早採取行動,避免民眾受天候影響。

Proxy 標籤通常不盡完美。請盡可能選擇實際標籤而非 Proxy 標籤。不過,如果缺少實際標籤,請務必審慎選取 Proxy 標籤,並選擇一個最低的 Proxy 標籤候選。

(右)

評估人員

#fundamentals

提供範例標籤。 「Annotator」是評分者的另一個名稱。

矩形線性單元 (ReLU)

#fundamentals

含有下列行為的啟用函式

  • 如果輸入值為負數或零,則輸出內容為 0。
  • 如果輸入正數,則輸出內容等於輸入內容。

例如:

  • 如果輸入是 -3,則輸出內容為 0。
  • 如果輸入是 +3,輸出結果就會是 3.0。

以下是 LLU 的示意圖:

由兩條線組成的購物車。第一行的常數 y 值為 0,在 x 軸沿著 -infinity,0 到 0,-0 一起執行。
第二行的起始值為 0,0。這條線的起點是 +1,因此在 0,0 到 +infinity,+infinity 之間執行。

ReLU 是非常熱門的啟用函式。儘管 UI 簡單,但 LLU 仍允許類神經網路學習功能標籤之間的非線性關係。

迴歸模型

#fundamentals

簡單來說,產生數值預測的模型。反之,「分類模型會產生類別預測結果。舉例來說,以下是所有迴歸模型:

  • 預測特定房屋價值的模型,例如「423,000 歐元」。
  • 可預測特定樹木預期壽命的模型,例如 23.2 年。
  • 這個模型可預測接下來六小時內,特定城市的雨量,例如 0.18 吋。

常見的迴歸模型類型如下:

  • 線性迴歸,可找出最適合標籤值的那一行。
  • 「邏輯迴歸」:系統會產生通常 0.0 到 1.0 之間的機率,也就是系統通常會對應至類別預測結果。

並非所有輸出數值預測的模型都是迴歸模型。在某些情況下,數值預測其實就是分類數字模型,其具有數字類別名稱。例如,預測數值型郵遞區號的模型是分類模型,而非迴歸模型。

正規化

#fundamentals

減少過度配適的機制。常見的正規化類型包括:

正規化也可以定義為模型複雜度的懲罰。

正規化率

#fundamentals

指定在訓練期間正規化的相對重要性。提高正規化率會降低過度配適,但可能會降低模型的預測效能。相反地,減少或省略正規化速率的過度增加。

動態

#fundamentals

矩形線性單位的縮寫。

已產生的增強型產生

#fundamentals

這種軟體架構通常用於大型語言模型 (LLM) 應用程式。使用再生來擴增的常見動機包括:

  • 提高模型所產生回應的真實準確率
  • 授予模型存取權,讓訓練受過
  • 變更模型使用的知識
  • 讓模型引用資料來源

舉例來說,假設化學應用程式會使用 PaLM API 產生與使用者查詢相關的摘要。當應用程式的後端收到查詢時,後端會先搜尋與使用者查詢相關的資料 (「擷取」資料),將與使用者查詢相關的相關化學品資料 (「擴增」) 建立關聯,並指示 LLM 根據附加的資料建立摘要。

ROC (接收者操作特徵) 曲線

#fundamentals

二元分類中的真陽率偽陽率的圖表。

ROC 曲線形狀表示二元分類模型能夠將正類類別與負類別分開的功能。舉例來說,二元分類模型會完全區別所有負類別與正類類別:

數字右側的 8 個正面範例,左側是 7 個負例。

上述模型的 ROC 曲線看起來如下:

ROC 曲線。X 軸為「偽陽率」,而 Y 軸為「正值率」。曲線有反轉的 L 形狀。曲線起點 (0.0,0.0) 且直至 (0.0,1.0)。然後,曲線是從 (0.0,1.0) 到 (1.0,1.0)。

相較之下,以下插圖顯示了無法區分負類別及原始類別的非可模型模型的邏輯迴歸值:

完全包含正面範例和負類類別的數值行。

這個模型的 ROC 曲線如下:

ROC 曲線,實際上是從 (0.0,0.0) 到 (1.0,1.0) 的直線。

然而,在現實世界中,大多數的二元分類模型會將某些正面及負面類別區分為一定程度,但通常不會完全正確。因此,一般 ROC 曲線落在兩個極端之間:

ROC 曲線。X 軸為「偽陽率」,而 Y 軸為「正值率」。ROC 曲線會概略搖晃,從西北到北方的指南針點。

ROC 曲線上點最接近 (0.0,1.0) 理論的理論上會找出理想分類門檻。不過,其他幾個實際問題都會影響偏好的分類門檻。例如,偽陰性的問題比偽陽性要造成重傷更嚴重。

名稱為 AUC 的數字指標會將 ROC 曲線匯總為單一浮點值。

根均平方錯誤 (RMSE)

#fundamentals

Me Square Squared 錯誤的平方根。

Sigmoid 函式

#fundamentals

數學函式,用於「將」輸入值限制為受限範圍,通常為 0 到 1 或 -1 至 +1。也就是說,您可以將任何數字 (兩百萬個、負值的等值) 傳遞給 Sigidid,且輸出內容仍在限制範圍內Sigmoid 啟用函式示意圖:

2 維曲線的 x 值,跨網域為 -infinity 至 +positive,而 y 值則涵蓋將近 0 至幾乎 1 的範圍。x 為 0 時,y 為 0.5。曲線的斜率始終為正值,而最高的坡度為 0,0.5,斜率則是 x 的絕對值時逐漸攀升。

Sigmoid 函式在機器學習上有多種用途,包括:

Soft Max

#fundamentals

決定多類別分類模型中每個可能類別機率的函式。機率實際上為 1.0。舉例來說,下表顯示 softmax 如何分配各種可能性:

圖片是... 機率
0.85
cat 0.13
0.2

Softmax 也稱為「Full softmax」

候選取樣相反。

稀疏功能

#language
#fundamentals

feature值,前面為零或空白。 舉例來說,含有一個 1 值和 0 百萬個值的特徵會遭到剖析。反之,密集功能中的值主要並非零或空白。

在機器學習中,出乎意料的特色是功能稀疏的功能。類別特徵通常是稀疏功能。舉例來說,在森林中,有 300 種的樹狀樹種,一個範例可能只識別了「楓樹」。或者,也可能在同一部影片庫中的數百萬部影片,只看到「Casablanca」。

在模型中,您通常會使用 one-hot 編碼來表示稀疏功能。如果一幅編碼的特性太大,則可將 嵌入層嵌入 hot-hot 編碼,藉此提高效率。

稀疏表示法

#language
#fundamentals

僅在稀疏功能中儲存非零元素的位置

例如,假設名為 species 的類別特徵會識別特定森林中的 36 個樹木物種。此外,假設每個範例都只識別出一個種類。

您可以使用單人向量來代表各個範例中的樹木種類。單一 向量 包含單一 1 (代表該範例中的特定樹木物種) 和 35 0 (表示此範例「不是」 35 棵樹)。因此,maple 的單向表示法可能會如下所示:

值為 0 到 23 的向量值,值為 0,位置 24 值為值 1,位置 25 到 35 則值為 0。

或者,稀疏表示法只會識別特定物種的位置。如果 maple 位於位置 24,則 maple 的稀疏表示法如下:

24

請注意,稀疏表示法比單次熱表示法更密集。

稀疏向量

#fundamentals

值大部分為零的向量。另請參閱稀疏功能稀疏度

平方減掉

#fundamentals

L2 損失的同義詞。

靜態

#fundamentals

只完成一次,而不是持續進行。 「靜態」和「離線」這兩個詞的同義詞。 以下是在機器學習中使用「靜態」和「離線」的常見用途:

  • 「靜態模型」 (或「離線模型」) 是只訓練一次,使用一段時間後。
  • 「靜態訓練」 (或「離線訓練」) 是訓練靜態模型的程序。
  • 「靜態推論」 (或「離線推論」) 是指一個模型同時產生一批預測結果的程序。

動態相反。

靜態推論

#fundamentals

表示離線推論的同義詞。

靜息

#fundamentals

指的是一或多個值沒有變更的特徵,且通常是時間。 例如,值在 2021 和 2023 年展覽的指標看起來相同。

在現實世界中,很少會出現特徵的特點。即便功能與同義詞 (例如海平面) 的同義詞會隨著時間改變。

非車站的對比。

斜體漸層下降 (SGD)

#fundamentals

梯度下降演算法,批次大小換句話說,SGD 會根據訓練集中隨機選擇的單一樣本進行訓練。

監督式機器學習

#fundamentals

透過功能和對應的標籤訓練模型。監督式學習是一種學習學科的方式,透過研究一系列問題及對應答案。確認問題與解答之間的對應關係後,學生就能針對相同主題 (從未見過) 問題提供解答。

非監督式機器學習進行比較。

綜合功能

#fundamentals

「輸入功能」未顯示在輸入功能中,但是由一或多個功能組成。建立合成功能的方法包括:

  • 將連續功能值區至範圍作業區。
  • 建立這項功能
  • 將 (或劃分) 一個特徵值乘以其他特徵值或自行特徵。舉例來說,如果 ab 是輸入特徵,以下提供合成功能的範例:
    • 阿布
    • 2
  • 將跨函式套用至特徵值。舉例來說,如果 c 是輸入功能,以下為合成特徵範例:
    • 傳送(c)
    • 座標(c)

單憑正規化縮放功能,不算是合成功能。

測試損失

#fundamentals

「指標」,用來表示模型的「損失」與「測試集」。建構模型時,您通常會盡量減少測試損失。這是因為低測試損失是比訓練損失或低驗證失敗的高品質信號。

如果測試損失和訓練遺失或驗證遺失率大幅降低,則可能表示您必須提高正規化率

訓練

#fundamentals

決定模型的理想參數 (權重和偏誤)。在訓練期間,系統會讀取範例,並逐步調整參數。訓練每個範例使用數次,從數十億次到數十億次。

訓練損失

#fundamentals

「指標」,代表特定訓練疊代法中模型損失。舉例來說,假設損失函式為 Mean Squared 錯誤,第 10 次疊代的訓練損失 (平均值) 為 2.2,而第 100 次疊代的訓練損失為 1.9。

曲線曲線」會降低訓練損失與疊代次數。損失曲線提供下列有關訓練的提示:

  • 斜率表示表示模型正在改善。
  • 向上斜坡代表模型越來越糟。
  • 表示斜率表示模型已達到融合狀態。

例如,以下列舉一些理想的曲線曲線

  • 初始疊代作業期間的陡坡較少,表示快速提升模型品質。
  • 逐步退限 (但仍然向下) 出現波動,直到訓練結束為止,這意味著在初始疊代期間,速度會稍微慢慢改善。
  • 訓練課程結束時的平面斜坡,代表了總結。

訓練損失與疊代的進行圖。損失曲線,從陡坡開始。斜率會逐漸平坦,直到斜率變成零。

雖然訓練損失很重要,但另請參閱一般化

訓練/應用偏差

#fundamentals

模型在訓練期間的成效,以及相同模型在提供期間的效能。

訓練集

#fundamentals

用於訓練模型資料集子集。

一般來說,資料集內的範例會分為三個不同的子集:

在理想情況下,資料集中的每個範例都只能屬於其中一個上述子集。例如,單一範例不應同時屬於訓練集和驗證集。

真偽 (TN)

#fundamentals

模型「正確」預測排除類別的範例。舉例來說,模型會推斷特定電子郵件「不是垃圾郵件」,且該電子郵件「不是」垃圾郵件。

真陽性 (TP)

#fundamentals

模型「正確」預測正類的範例。例如,模型會推測特定電子郵件為垃圾郵件,且該郵件確實為垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

ROC 曲線中的 Y 軸為正數。

U

欠款

#fundamentals

因為模型不足以擷取訓練資料的複雜度,產生「模型不佳的預測功能。許多問題都可能造成過重,包括:

沒有標籤的範例

#fundamentals

包含功能,但沒有標籤的範例。例如,下表顯示三個內部評估模型的未加上標籤範例,每個範例都有三個特徵,但沒有房屋價值:

臥室數量 浴室數量 住宅年齡
3 2 15
2 1 72
4 2 34

監督式機器學習中,模型會根據標籤範例進行訓練,並對未加上標籤的範例進行預測。

半監督非監督學習中,訓練期間會使用未加上標籤的範例。

已加上標籤的範例相反的無標籤範例。

非監督式機器學習

#clustering
#fundamentals

訓練模型找出資料集中的模式,通常是未加上標籤的資料集。

非監督式機器學習的常見用途,是將叢集叢集分組為類似的範例群組。例如,非監督式機器學習演算法可根據音樂的不同屬性將歌曲分組。產生的叢集可以成為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當實用標籤的不足或缺漏時,分群可協助您。舉例來說,在反濫用和詐欺等領域中,叢集可協助叢集進一步瞭解資料。

監督式機器學習相反。

V

validation

#fundamentals

模型品質的初始評估。 驗證程序會將模型預測結果的品質與驗證集進行比對。

由於驗證集與訓練集不同,因此驗證有助於防範過度調整

系統可能會根據第 1 階段的驗證集評估模型,並以測試集做為第二輪測試來評估模型。

驗證損失

#fundamentals

這個「指標」在訓練特定訓練期間,會在驗證集中呈現模型損失

另請參閱一般化曲線

驗證集

#fundamentals

這個資料集子集會針對已訓練的模型執行初始評估。一般而言,在多次評估測試集前,先對驗證集進行評估。

通常,資料集會將範例分割為下列三個不同的子集:

在理想情況下,資料集中的每個範例都只能屬於其中一個上述子集。例如,單一範例不應同時屬於訓練集和驗證集。

權重

#fundamentals

模型乘以其他值所得的值。「訓練是判斷模型理想權重的程序;「推論是指使用這些經驗權重進行預測的程序。

加權總和

#fundamentals

所有相關輸入值的總和乘以相對應的權重。舉例來說,假設相關輸入內容包含下列項目:

輸入值 輸入權重
2 -1.3
-1 0.6
3 0.4

因此,加權總和為:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是啟用函式的輸入引數。

Z

Z 分數正規化

#fundamentals

縮放技巧,將原始 feature 的值替換為浮點值,代表該地圖項目平均值的平均標準偏數。舉例來說,假設特徵為 800 且標準差值為 100,下表列出 Z 分數正規化如何將原始值對應至其 Z 分數:

原始值 Z 分數
800 0
950 +0.8
575 -2 月 25 日

接著,機器學習模型會以該特徵的 Z 分數進行訓練,而非原始值。