本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表

本詞彙表定義一般機器學習詞彙，以及 TensorFlow 的專屬詞彙。

A

模糊處理

一種用於評估功能或元件重要性的技巧，可將其從模型暫時移除。接著，您可以在不使用該功能或元件的情況下重新訓練模型，如果重新訓練模型的效能明顯降低，則已移除的特徵或元件可能很重要。

舉例來說，假設您針對 10 個特徵訓練分類模型，並在測試集中達到 88% 的精確度。如要查看第一個特徵的「重要性」，您可以僅使用九個其他功能重新訓練模型。如果重新訓練模型的成效明顯較差 (例如精確度為 55%)，則已移除的特徵可能很重要。相反地，如果重新訓練模型的執行成效相同，表示該特徵可能並不重要。

模糊處理也有助於判斷以下各方面的重要性：

大型元件，例如大型機器學習系統的整個子系統
處理程序或技術，例如資料預先處理步驟

在這兩種情況下，您都可以觀察在移除元件後，系統效能變化 (或者沒有變化)。

A/B 測試

比較兩種 (或多個) 技術：A 和 B 的統計方法。一般來說，A 是現有技術，B 是新技術。A/B 測試不僅能判斷哪項技術的成效較佳，也能判斷差異是否具有統計顯著性。

A/B 測試通常會比較兩種技術的單一指標；例如，如何比較兩種技術的模型準確率？不過，A/B 測試也可以比較任意數量的指標。

加速器方塊

#GoogleCloud

特殊硬體元件類別，用於執行深度學習演算法所需的關鍵運算。

與一般用途 CPU 相比，加速器晶片 (簡稱「加速器」) 可大幅提升訓練和推論工作的速度與效率。非常適合用來訓練類神經網路和需要大量運算的類似工作。

加速器晶片的例子包括：

Google 的 Tensor Processing Unit (TPU) 配備深度學習專用硬體。
NVIDIA GPU 的初衷是為圖形處理而設計，但主要是啟用平行處理，可以大幅加快處理速度。

精確度

#fundamentals

正確分類預測數量除以預測總數。也就是：

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如，如果模型做出 40 個正確預測和 10 個錯誤預測，其準確率就會是：

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類針對不同正確預測和錯誤預測類別提供具體名稱。因此，二元分類的準確率公式如下：

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中：

TP 是真陽性 (正確預測) 的數量。
TN 是真陰性 (正確預測) 的數量。
FP 是偽陽性 (預測不正確) 的數量。
FN 是偽陰性 (預測不正確) 的數量。

比較準確率與精確度和喚回度。

按一下圖示即可查看其他附註。

儘管某些情況相當實用，但對於其他情況來說，準確率卻極度誤導。值得注意的是，對於處理不平衡資料集的分類模型，準確率通常是個不佳的指標。

舉例來說，假設在特定副熱帶城市每一世紀只能下雪 25 天。自沒下雪的日子 (負類別) 有大量出現降雪的天數 (正類)，因此這個城市的雪資料集不平衡。假設有一個二元分類模型應預測每天是雪或無雪，但這只是為了預測每天「無下雪」。這個模型非常準確，但沒有預測能力。下表摘要列出一百個世紀的預測結果：

類別	編號
TP	0
TN	36500
FP	25
FN	0

因此，這個模型的準確率為：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

雖然 99.93% 的準確率似乎很高，但模型實際上並沒有預測能力。

在評估以不平衡資料集訓練而成的模型時，精確度和喚回度通常比「準確率」更實用。

應用實例

#rl

在強化學習中，代理程式是指在環境的狀態之間轉換的機制。代理程式會使用政策選擇動作。

活化函數

#fundamentals

此函式可讓類神經網路學習特徵和標籤之間的非線性 (複雜) 關係。

常見的活化函數包括：

ReLU

S 形比較

活化函數的點並非單線。例如，ReLU 活化函式的圖含兩條直線：

S 函數的圖表如下所示：

按一下圖示即可查看範例。

在類神經網路中，啟動函式會處理所有輸入內容的加權總和，神經元。如要計算加權總和，神經元會將相關值和權重的乘積相加。舉例來說，假設神經元的相關輸入內容包含以下項目：

輸入值輸入權重

2 1.3 號

-1 0.6

3 0.4

因此，加權總和是：
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
假設這個類神經網路的設計人員選擇 S 函數做為活化函式。在這種情況下，神經元會計算 -2.0 的 S 函數，大約為 0.12。因此，神經元會傳遞 0.12 (而非 -2.0) 到類神經網路中的下一層。下圖說明程序中的相關部分：

主動學習

一種「訓練」方法，演算法會「選擇」從中學習的部分資料。如果加上標籤的範例很少或取得昂貴的資源，主動學習技術就特別實用。主動學習演算法會選擇性尋找特定範圍的學習範例，而非盲目搜索各種有標籤樣本。

AdaGrad

複雜的梯度下降法演算法可重新調整每個參數的梯度，有效為每個參數提供獨立的學習率。如需完整說明，請參閱這份 AdaGrad 文件。

服務專員

#rl

在強化學習中，使用政策的實體，可在環境的狀態之間轉換，盡可能提高預期報酬。

更廣泛地說，服務專員是指能自主規劃並執行一系列行動來追尋目標的軟體，且能夠適應環境中的變化。舉例來說，以 LLM 為基礎的虛擬服務專員可能會使用大型語言模型生成計畫，而非套用強化學習政策。

聚合式分群法

#clustering

請參閱階層分群法。

異常偵測

找出離群值的程序。例如，如果特定功能的平均值為 100，標準差為 10，則異常偵測應將 200 的值標記為可疑值。

AR

綜合現實的縮寫。

公關曲線下的面積

請參閱 PR AUC (PR 曲線下的面積)。

ROC 曲線下的面積

請參閱 AUC (ROC 曲線下的面積)。

人工智慧

這類非人為機制能展示廣泛的問題來解決問題、激發創意和適應能力。舉例來說，如果程式示範一般智慧功能，就能在尚未發明的遊戲中翻譯文字、組合符號以及。

也就是

#fundamentals

可以解決複雜任務的非人為程式或「模型」model。舉例來說，翻譯文字的程式或模型可翻譯文字，或是能從放射邏輯圖片辨識疾病的程式或模型，同時都有人工智慧。

正式上來說，機器學習是人工智慧功能的子領域。然而近年來，部分機構已經開始交替使用「人工智慧」和「機器學習」這兩個詞彙。

注意力

#language

類神經網路中使用的機制，表示特定字詞或某個字詞的重要性。注意力會壓縮模型預測下一個符記/字詞所需的資訊量。典型的注意力機制可能包含一組輸入內容的「加權總和」，其中每個輸入的權重則是由類神經網路的另一個部分計算。

另請參閱自我注意和多頭自我注意力，這兩種是轉換器的構成元素。

屬性

#fairness

feature 的同義詞。

在機器學習公平性方面，屬性通常是指與個人相關的特徵

屬性取樣

#df

訓練「決策樹系」的策略，其中每個「決策樹」只會在學習條件時，只考量隨機一部分的潛在特徵。一般而言，每個節點都會對一部分的特徵分塊。相反地，如果在沒有屬性取樣的情況下訓練決策樹，則每個節點會將所有可能的功能列入考量。

AUC (ROC 曲線下的區域)

#fundamentals

介於 0.0 和 1.0 之間的數字，代表二元分類模型能夠將正面類別與負類別分開。AUC 越接近 1.0，模型越能區別類別。

例如，下圖顯示的分類器模型完全區分正類別 (綠色橢圓形) 與負類別 (紫色矩形)。這個不切實際的模型 AUC 為 1.0

相反地，下圖顯示分類器模型產生隨機結果的結果。這個模型的 AUC 為 0.5：

是，上述模型的 AUC 為 0.5，不是 0.0。

大多數模型都在兩極端之間。例如，下列模型有些將陽性與負數隔開，因此的 AUC 介於 0.5 和 1.0 之間：

AUC 會忽略您為分類門檻設定的任何值。而是會考慮「所有」可能的分類門檻。

點選圖示即可瞭解 AUC 和 ROC 曲線之間的關係。

AUC 代表 ROC 曲線下的區域。例如，模型的 ROC 曲線會與負數完全分開，如下所示：

AUC 是上圖中灰色區域的區域。在這種特殊情況下，區域只是灰色區域 (1.0) 的長度乘以灰色區域寬度 (1.0)。因此，1.0 和 1.0 的乘積會產生剛好 1.0 的 AUC，這是最高的 AUC 分數。

相反地，對於無法完全分隔類別的分類器，ROC 曲線如下所示。這個灰色區域的區域為 0.5。

較典型的 ROC 曲線大致如下：

手動計算這曲線下面積會困難重重，這也是程式通常會計算大部分 AUC 值的原因。

按一下圖示即可查看 AUC 的正式定義。

AUC 是分類器對於隨機選擇的正向樣本確實為正向的信心，而非隨機選擇的負數示例。

擴增實境

#image

這項技術會將電腦產生的圖片取代至使用者真實世界的檢視畫面，進而提供複合檢視畫面。

自動編碼器

#language

#image

學習從輸入內容擷取最重要的資訊的系統。自動編碼器是編碼器和解碼器的組合。自動編碼器必須遵循以下兩個步驟：

編碼器會將輸入內容對應至有損的較低維度 (中間) 格式。

解碼器會將較低維度的格式對應至原始較高維度輸入格式，藉此建構原始輸入內容的有損版本。

自動編碼器是藉由嘗試盡可能從編碼器中繼格式重建原始輸入內容，藉此進行端對端訓練。由於中繼格式小於原始格式 (相較下)，自動編碼器會強制瞭解輸入內容中的重要資訊，因此輸出內容不會與輸入內容完全一致。

例如：

如果輸入資料是圖形，非精確副本會與原始圖像類似，但會稍微修改。有些非精確的複本可能會移除原始圖像中的雜訊，或填補部分缺少的像素。

如果輸入資料是文字，自動編碼器會產生能模仿 (但與原始文字不同) 的新文字。

另請參閱變分自動編碼器。

自動化偏誤

#fairness

即使自動化決策系統發生錯誤，人類決策者也會優先採用自動化決策系統對非自動化作業產生的資訊。

AutoML

任何用於建構機器學習 模型的自動化程序。AutoML 可自動執行以下類型的工作：

搜尋最合適的模型。

調整超參數。

準備資料 (包括執行特徵工程)。

部署產生的模型。

AutoML 對數據資料學家來說很實用，因為可以節省開發機器學習管道的時間和精力，並提高預測準確率。這對非專家來說也很實用，因為他們能更容易理解複雜的機器學習工作。

自動迴歸模型

#language

#image

#生成式 AI

「模型」model，會根據自身先前的預測結果來推斷預測。舉例來說，自動迴歸語言模型會根據先前預測的權杖預測下一個「符記」。所有以轉換器為基礎的大型語言模型都會自動迴歸。

相比之下，GAN 式圖片模型通常不會自動迴歸，因為這類模型會在單一正向傳遞中產生圖像，不會重複執行。但是，某些圖像生成模型「會」自動迴歸，因為這類模型會按步驟產生圖片。

輔助損失

損失函式：搭配神經網路 模型的主要損失函式使用，可在權重進行早期疊代時協助加快訓練速度。

輔助損失函式能將有效的梯度推送到先前的層。這有助於解決消失的梯度問題，進而在訓練期間進行收斂。

平均精確度

這個指標會彙整特定序列結果的成效。平均精確度的計算方法是取得各項相關結果的「精確度」值平均值 (每筆結果都會出現在排名清單中，喚回度相對於之前的結果)。

另請參閱公關曲線下的面積。

軸對齊條件

#df

在「決策樹」中，條件是指只涉及單一功能的條件。例如，如果區域是特徵，則會是軸對齊的條件：

area > 200

與 斜體條件的對比。

B

反向傳播

#fundamentals

用來在類神經網路中實作梯度下降法的演算法。

訓練類神經網路涉及下列兩道循環中的許多「疊代作業」：

在向前傳遞期間，系統會處理範例的批次以產生預測。系統會將每項預測與每個標籤值進行比較。在這個範例中，預測和標籤值的差異為「loss」。系統會匯總所有範例的損失，以計算當前批次的總損失。

在反向傳遞 (反向傳播) 期間，系統會調整所有隱藏層中所有「神經元」的權重來減少損失。

類神經網路通常包含多個隱藏層的神經元。每個神經元都會以不同方式導致整體損失。反向傳播會決定是否要增加或減少特定神經元套用的權重。

學習率是調節係數，可控制每個反向傳遞的增減程度。較大的學習率會提高或降低每個權重，且比學習率小。

在微積分中，反向傳播會實作微積分的「鏈規則」。也就是說，反向傳播會計算每個參數的錯誤部分衍生。

多年前，機器學習從業人員必須撰寫程式碼來實作反向傳播。現代機器學習 API (例如 TensorFlow) 現在會為您實作反向傳播。太好了！

行李

#df

訓練一個集的方法，其中每個組成模型都會在透過替換方法取樣的隨機訓練範例進行訓練。舉例來說，「隨機樹系」是一組使用袋裝訓練的決策樹集合。

「行李」這個詞是「無」的簡稱。

一堆單字

#language

表示詞組或段落中的字詞 (不分順序)。舉例來說，詞袋代表以下三個詞組

狗跳躍

跳狗跳

狗在跳躍

每個字詞都會對應至「稀疏向量」中的索引，其中向量擁有詞彙中每個字詞的索引。例如，「dogJumps」這個詞組會對應至一個包含非零值的特徵向量，位於與「the」、「dog」和「jumps」這三個索引中對應的特徵向量。非零值可以是下列任一值：

1 代表字詞是否存在。

一個字詞出現在包包中的次數。例如，如果詞組是「The maroon dog is a maroon fur」，那麼「maroon」和「dog」都會以 2 表示，其他字詞則以 1 表示。

其他的值，例如包包中出現某字詞的次數的對數。

基準

「模型」model可做為參考點，用於比較其他模型 (通常是較複雜的模型) 的成效。舉例來說，邏輯迴歸模型可能是深層模型的最佳基準。

對於特定問題，基準可協助模型開發人員量化新模型必須達到的最低預期效能，新模型才能發揮作用。

Batch

#fundamentals

在單一訓練疊代作業中使用的範例組合。批次大小會決定批次中的樣本數。

如要瞭解批次與週期之間的關係，請參閱 epoch 說明。

批次推論

#TensorFlow

#GoogleCloud

針對多個未加上標籤的範例，分割成較小的子集 (「批次」) 進行「推論」預測的過程。

批次推論可以運用加速器晶片的平行處理功能。也就是說，多個加速器可以同時針對不同未加上標籤的範例批次推論預測結果，大幅增加每秒推論數量。

批次正規化

在隱藏的層中，標準化「啟用函式」的輸入或輸出內容。批次正規化具有下列優點：

保護離群值的權重，提高類神經網路的穩定性。

啟用較高學習率，加快訓練速度。

減少過度配適的情形。

批量

#fundamentals

批次中的範例數量。舉例來說，如果批量為 100，模型就會每次疊代處理 100 個樣本。

以下是常用的批量策略：

隨機梯度下降 (SGD)，批次大小為 1。

完整批次，其中批量為整個訓練集中的範例數量。舉例來說，如果訓練集包含數百萬個範例，則批次大小就會是百萬個範例。全批次通常是效率不佳的策略。

mini-batch 的批量，且批次大小通常介於 10 到 1000 之間。迷你批次通常是最有效率的策略。

貝葉斯類神經網路

一種機率「類神經網路」，說明權重和輸出的不確定性。標準類神經網路迴歸模型通常會「預測」純量值。舉例來說，標準模型預測的房價為 853,000。相較之下，貝葉斯類神經網路會預測值的分佈情形；例如，貝葉斯模型預測房屋價格為 853,000，標準差為 67,200。

貝葉斯類神經網路依賴貝葉定理來計算權重和預測的不確定性。當必須量化不確定的不確定性時 (例如在製藥相關模型中)，貝葉斯類神經網路就能派上用場。貝氏類神經網路也有助於避免過度配適。

貝式最佳化

一種用於最佳化運算成本高昂的目標函式的機率迴歸模型技術，其改為最佳化使用貝葉斯學習技術量化的代理值。由於貝葉斯最佳化作業的成本較高，因此通常用於最佳化成本高且僅包含少量參數的工作，例如選取「超參數」。

貝爾曼方程式

#rl

在強化學習中，最適合的 Q-function 滿足下列身分：

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法會套用這個身分，透過下列更新規則建立 Q-learning：

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了強化學習之外，Bellman 方程式還有動態程式設計應用。請參閱 Wikipedia 的 Bellman 方程式項目。

BERT (雙向編碼器表示法)

#language

文字表示法的模型架構。經過訓練的 BERT 模型可做為文字分類或其他機器學習工作的大型模型的一部分。

BERT 具備下列特性：

使用 Transformer 架構，因此依賴自我注意力。
使用轉換器的編碼器部分。編碼器的工作是產生良好的文字表示法，而不是執行分類等特定工作。
為「雙向性」。
針對非監督式訓練使用「遮蓋」功能。

BERT 的變化版本包括：

ALBERT，是 A Light BERT 的縮寫。
LaBSE。

如需 BERT 的總覽，請參閱「開放 BERT：自然語言處理最先進的預先訓練」。

偏見 (倫理/公平性)

#fairness

#fundamentals

1. 對某些事物、人物或群體的刻板印象、偏見或偏見。這些偏誤可能會影響資料的收集和解讀、系統設計，以及使用者與系統互動的方式。這類偏誤的形式包括：

自動化偏誤
確認偏誤
實驗者偏誤
團體歸因偏誤
隱性偏誤
團體內偏誤
外團體同質性偏誤

2. 取樣或報表程序產生的系統錯誤。這類偏誤的形式包括：

涵蓋範圍偏誤
非回應偏誤
參與偏誤
報表偏誤
取樣偏誤
選擇偏誤

請勿和機器學習模型的偏誤用語和預測偏誤混淆。

偏誤 (數學) 或偏誤用語

#fundamentals

與來源之間的攔截或偏移。偏誤是機器學習模型中的參數，會以下列任一項目符號表示：

b
W₀

例如，偏誤是下列公式中的 b：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線中，偏誤只是「y 截距」。例如，下圖中的線條偏誤為 2。

斜坡為 0.5 且偏誤 (y 截距) 為 2 的線條圖。

偏誤存在，因為並非所有模型都從原點 (0,0) 開始。舉例來說，假設某個遊樂園的入場費為 2 歐元，客戶每入住一小時會再加幣 0.5 歐元。因此，對應總費用的模型有 2 的偏誤，因為最低費用為 2 歐元。

偏誤請勿與倫理和公平性方面的偏誤或預測偏誤混淆。

雙向

#language

這個詞彙是用來描述系統評估文字「之前」和「後續」目標區段的文字。相較之下，單向系統只會評估「前方」文字目標區段的文字。

舉例來說，假設「遮蓋的語言模型」必須判斷下列問題中代表底線的字詞機率：

你有哪些 _____？

單向語言模型只能根據「What」、「is」和「the」這兩個字詞提供的內容來評估其機率。相反地，雙向語言模型也能從「with」和「您」獲得背景資訊，協助模型產生更好的預測結果。

雙向語言模型

#language

一種「語言模型」，會根據前面和以下文字，判斷摘錄文字在特定位置中出現特定符記的機率。

Bigram

#seq

#language

其中 N=2 的 N 語法。

二元分類

#fundamentals

這是一種分類工作，會預測兩個互斥類別的其中一種：

正向類別
負面類別

例如，下列兩個機器學習模型分別會執行二元分類：

判斷電子郵件是否為「垃圾郵件」 (正類別) 或「非垃圾郵件」 (排除類別) 的模型。
這個模型會評估醫療症狀，以判斷某人是否有特定疾病 (正類) 或沒有該疾病 (陰性類別)。

與多元分類的差異。

另請參閱邏輯迴歸和分類門檻。

二進位條件

#df

在決策樹中，條件只有兩個可能的結果，通常是 yes 或 no。舉例來說，以下是二進位條件：

temperature >= 100

與非二元條件對比。

特徵分塊

特徵分塊的同義詞。

BLEU (雙語評估研究)

#language

介於 0.0 和 1.0 (含) 之間的分數，表示兩種人類語言的翻譯品質 (例如英文和俄文之間)。BLEU 分數為 1.0 代表完美翻譯，BLEU 分數為 0.0 表示翻譯很糟糕。

增強

一種機器學習技術，可疊代將一組簡單且不準確的分類器 (稱為「弱」分類器)，透過模型目前分類錯誤的範例，將一組簡易分類器 (稱為「高強度」分類器) 合併為精確度較高的分類器。

定界框

#image

在圖片中，矩形周圍的 (x、y) 座標，例如下圖中的狗。

小狗坐在沙發上的相片。左上方座標為 (275、1271) 和右下方座標 (2954, 2761) 的綠色定界框，框住狗的主體

廣播

將矩陣數學運算中的運算元形狀擴展到與該運算相容的維度。例如，線性代數要求矩陣加總運算中的兩個運算元必須有相同的維度。因此，您無法在長度為 n 的向量中加入形狀矩陣 (m, n)。廣播功能可將長度為 n 的向量，以虛擬方式將長度 n 的向量延伸到形狀 (m, n) 的矩陣，方法是將相同的值複製到各欄。

例如，在下列定義下，線性代數禁止 A+B，因為 A 和 B 的維度不同：

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

不過，廣播功能可透過虛擬方式將 B 展開為以下作業 A+B：

 [[2, 2, 2],
  [2, 2, 2]]

因此，A+B 現在是有效的作業：

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

詳情請參閱以下在 NumPy 中播送的說明。

資料分組

#fundamentals

將單一「功能」轉換為多個稱為「值區」或「特徵分塊」的二進位特徵，通常以值範圍為依據。切斷的功能通常是「連續性功能」。

舉例來說，您可以將溫度範圍切割為離散值區，而非將溫度表示為單一連續浮點特徵，例如：

攝氏 <= 10 度會成為「冷」值區。
攝氏 11 到 24 度會成為「溫度」區間。
攝氏 25 度會成為「暖」值區。

模型會以相同的方式處理相同值區中的每個值。例如，13 和 22 值都位於溫度值區中，因此模型會以相同的方式處理這兩個值。

按一下圖示即可查看其他附註。

如果將溫度表示為連續特徵，則模型會將溫度視為單一特徵。如果您將溫度表示為三個值區，模型會將每個值區視為獨立的特徵。也就是說，模型可以學習每個值區與標籤之間的獨立關係。舉例來說，線性迴歸模型可以為每個值區學習獨立的權重。

增加值區數會增加模型必須學習的關係數，讓模型更複雜。例如，冷、溫度和暖值區基本上是模型用於訓練的三項不同特徵。如果您決定再新增兩個值區 (例如凍結和熱)，模型現在必須分別使用五種特徵進行訓練。

您要如何知道要建立多少值區？要為每個值區指定範圍為何？答案通常需要進行公平的實驗。

C

校正層

預測後調整，通常會考量預測偏誤。調整後的預測和機率應與觀察到的標籤集分佈相符。

生成候選字

#recsystems

推薦系統選擇的初始推薦組合。舉例來說，假設有一家提供 100,000 本書的書店。候選產生階段會建立規模較小的適用特定使用者書籍清單 (例如 500 本)。不過，要向使用者推薦一本書的次數，包含 500 本書籍實屬不多。推薦系統的後續階段 (例如得分和重新排名) 會將 500 個減少到規模較小、更實用的建議組合，

候選抽樣

訓練時間最佳化，使用 softmax 等方法計算所有「正面」標籤的機率，但僅對排除標籤的隨機樣本而計算。舉例來說，假設有一個標示為 beagle 和 dog 的樣本，候選取樣會計算預測機率及對應的損失字詞：

米格魯
狗
其餘排除類別的隨機子集 (例如 cat、lollipop、fence)。

這種概念是「負類別」可以透過較不頻繁的負向強化學習，只要陽性類別一律獲得適當的正向增強，這確實是觀察到的典型案例。

相較於計算「所有」負類別預測結果的訓練演算法，候選取樣的運算效率更高，特別是在負類別數量非常大時。

類別型資料

#fundamentals

特徵具有一組特定可能值。舉例來說，假設有一個類別特徵是 traffic-light-state，這個類別特徵只能含有下列其中一個可能值：

red
yellow
green

將 traffic-light-state 表示為類別特徵，模型就能瞭解 red、green 和 yellow 對驅動程式行為的影響。

類別特徵有時也稱為「獨立特徵」。

與數值資料比較。

因果語言模型

#language

單向語言模型的同義詞。

請參閱雙向語言模型，瞭解語言模型的不同方向方法。

群集中心

#clustering

由 k-means 或 k-median 演算法決定的叢集中心。舉例來說，如果 k 是 3，則 k-means 或 k-median 演算法會找到 3 個質心。

基於中心的分群法

#clustering

「叢集處理」演算法會將資料整理成非階層叢集。k-means 是最廣為使用的群集型叢集演算法。

與階層分群法演算法相比。

思維鏈提示

#language

#生成式 AI

一種「提示工程」技術，鼓勵大型語言模型 (LLM) 逐步說明原因。比如說，請思考下列提示請特別留意第二個句子

一輛車在 7 秒內每小時行駛 0 到 60 英里時，駕駛人會有幾公克？在答案中顯示所有相關計算。

LLM 可能會回覆：

展示一系列物理公式，並在適當位置插入值 0、60 和 7。
說明為何選擇這些公式，以及各種變數的意義。

思維鏈提示會強制 LLM 執行所有計算，進而產生更正確的答案。此外，思維鏈提示可讓使用者檢查 LLM 的步驟，以判斷答案是否合理。

對話

#language

#生成式 AI

透過機器學習系統來回對話的內容，通常是大型語言模型。先前在即時通訊中的互動 (您輸入的內容和大型語言模型的回應方式) 會成為對話後續部分的背景資訊。

「聊天機器人」是大型語言模型的應用程式。

檢查站

在特定訓練疊代中擷取模型參數狀態的資料。查核點可讓您匯出模型「權重」，或跨多個工作階段執行「訓練」。查核點也能讓訓練作業繼續完成先前的錯誤 (例如工作先佔情況)。

微調時，訓練新模型的起點是預先訓練模型的特定檢查點。

類別

#fundamentals

標籤所屬的類別。例如：

在偵測垃圾內容的「二元分類」模型中，這兩個類別可能是「垃圾內容」和「非垃圾內容」。
在識別狗品的多元分類模型中，類別可能是 poodle、beagle、pug 等等。

「分類模型」可預測類別。相較之下，「迴歸模型」可預測數字，而非類別。

分類模型

#fundamentals

預測為model的model。例如，以下是所有分類模型：

模型會預測輸入語句的語言 (法文西班牙文？義大利文？)
用來預測樹種 (Maple?橡木色？猴麵包樹？)。
能預測特定醫療狀況的陽性或陰性類別的模型。

相較之下，「迴歸模型」可預測數字，而非類別。

兩種常見的分類模型類型如下：

二元分類
多元分類

分類門檻

#fundamentals

在二元分類中，介於 0 和 1 之間的數字，可將邏輯迴歸模型的原始輸出內容轉換成正面類別或負類別的預測結果。請注意，分類門檻是由人類選擇的值，而非模型訓練選擇的值。

邏輯迴歸模型會輸出介於 0 至 1 之間的原始值。然後執行下列步驟：

如果這個原始值大於分類門檻，就會預測正類別。
如果此原始值小於分類門檻，則會預測負類別。

舉例來說，假設分類門檻為 0.8。如果原始值為 0.9，則模型會預測正類別。如果原始值為 0.7，則模型會預測負類別。

選擇分類門檻會影響偽陽性和偽陰性的數量。

按一下圖示即可查看其他附註。

隨著模型或資料集不斷演進，工程師有時也會改變分類門檻。當分類門檻變更時，正面類別預測可能會突然變成負類別，反之亦然。

舉例來說，假設有一個二元分類疾病預測模型，假設系統在第一年執行時：

特定病患的原始值為 0.95。
分類門檻為 0.94。

因此，系統會診斷正類。(病患氣體) 「喔不！我生病了！」)

一年後，現在值可能如下所示：

同一患者的原始值仍為 0.95，
分類門檻會變更為 0.97。

因此，系統現在會將該病患重新分類為負類別。(「祝你有美好的一天！我才不死。」)同樣的病患。不同的診斷結果不同。

不平衡資料集

#fundamentals

分類問題的資料集，其中每個類別的標籤總數各有不同。例如，假設有一個二元分類資料集的兩個標籤劃分如下：

1,000,000 個排除標籤
10 個正面標籤

負與正標籤的比率為 100,000 到 1，因此這會是級別不平衡的資料集。

反之，下列資料集並非級別不平衡，因為負標籤與陽性標籤的比例相對接近 1：

517 個排除標籤
483 個正面標籤

多類別資料集也可達到級別平衡。例如，下列多重類別分類資料集也出現不平衡，因為其中一個標籤的範例比其他標籤還多：

1,000,000 個包含「green」類別的標籤
200 個類別為「紫色」的標籤
350 個含有「orange」類別的標籤

另請參閱「熵」、「性質類別」和「少數類別」。

	胎兒 (預測)	非腫瘤 (預測)
真相 (真值)	18 (TP)	1 (芬蘭)
非仲裁 (真值)	6 (FP)	452 (田納西州)

	Setosa (預測)	Versicolor (預測)	維吉尼亞州 (預計)
Setosa (基準真相)	88	12	0
Versicolor (真值)	6	141	7
維吉尼亞州 (基準真相)	2	27	109

裁剪

#fundamentals

透過執行下列其中一項或兩項操作來處理離群值的技術：

將大於門檻上限的 feature 值減少到該門檻上限。

將低於最低門檻的特徵值提高到該最低門檻。

舉例來說，假設特定特徵小於 0.5% 的值不在 40 到 60 的範圍內。在這種情況下，您可以執行以下操作：

將超過 60 (最大門檻) 的所有值剪裁為 60 以上。

將低於 40 (最低門檻) 的所有值裁剪為 40。

離群值會損壞模型，有時也會導致權重在訓練期間溢位。部分離群值也可能會大幅扭曲指標，例如準確率。剪輯是限制損害的常見技術。

漸層裁剪功能會在訓練期間強制指定指定範圍內的梯度值。

Cloud TPU

#TensorFlow

#GoogleCloud

專門用於加快 Google Cloud 機器學習工作負載的特殊硬體加速器。

分群法

#clustering

將相關範例分組，特別是在非監督式學習期間。所有範例都分組後，人類可以選擇為各個叢集提供意義。

目前有許多分群演算法。例如，k-means 演算法叢集範例是以與質心的鄰近程度為基礎，如下圖所示：

之後，人工審查員便可查看這些叢集，例如將叢集 1 標示為「矮樹」並將叢集 2 標示為「全尺寸樹木」。

再舉一個例子，假設是根據範例與中心點距離的分群演算法，如下所示：

共同適應

當「神經元」完全依賴特定其他神經元的輸出內容來預測訓練資料模式時，不會完全仰賴網路的整體行為。如果驗證資料中沒有會導致共同調整的模式，那麼共通調整會導致過度配適。捨棄正規化可減少共同調整，因為捨棄可確保神經元無法只依賴其他特定神經元。

協同過濾

#recsystems

根據其他使用者的眾多興趣，進行「預測」。協同篩選經常在推薦系統中使用。

概念偏移

地圖項目和標籤之間的關係轉變。概念偏移會逐漸降低模型的品質。

在訓練期間，模型會學習特徵與訓練集內標籤之間的關係。如果訓練集中的標籤在實際情境中是良好的 Proxy，則模型應能進行真實世界的預測結果。然而，由於概念偏差，模型的預測結果通常會隨著時間降低。

比方說，假設使用二元分類模型來預測特定車款是否「增進燃料效率」。也就是說，功能可能包括：

車輛重量

引擎壓縮

傳輸類型

而標籤就是：

省油

省油效率

不過，「省油汽車」的概念不斷改變。2024 年，某個標示為「燃料效率」的車款幾乎確定在 2024 年被標示為「不燃油效率」。概念偏離的模型會隨著時間的推移而減少或較不實用的預測。

比較及與非期待性的對比。

按一下圖示即可查看其他附註。

為了補償概念偏移，請重新訓練模型，此速度會比概念偏離的「速率」更快。舉例來說，假設概念偏差每兩個月都會降低模型精確度，使得模型的精確度降低，每兩個月就要更頻繁地重新訓練模型。

狀況

#df

在「決策樹」中，任何評估運算式的節點。例如，決策樹的下列部分包含兩個條件：

條件也稱為分割或測試。

使用葉子的對比度。

另請參閱：

二進位條件

非二元條件。

軸對齊條件

斜角條件

探討

#language

hallucination 的同義詞。

「混淆」一詞在技術上來說可能比幻覺更準確。然而，幻覺變得很受歡迎。

設定

指派用於訓練模型的初始屬性值的程序，包括：

模型編寫的圖層

資料位置

超參數，例如：

學習率

疊代

最佳化工具

損失函式

在機器學習專案中，可以透過特殊的設定檔進行設定，或採用下列設定程式庫：

HParam

琴酒

小提

確認偏誤

#fairness

消費者傾向於搜尋、解讀、偏好和喚回資訊，確認他們現有的想法或假設。機器學習開發人員可能會在無意間收集資料或加上標籤，而以致於影響他們現有想法的結果。確認偏誤是一種隱性偏誤。

實驗者偏誤是一種確認偏誤的一種形式，在確認現有假設前，實驗者會繼續訓練模型。

混淆矩陣

#fundamentals

NxN 資料表彙整了分類模型做出的正確和不正確預測數量。例如，考慮以下二元分類模型的混淆矩陣：

胎兒 (預測) 非腫瘤 (預測)

真相 (真值) 18 (TP) 1 (芬蘭)

非仲裁 (真值) 6 (FP) 452 (田納西州)

上述混淆矩陣顯示如下：

在 19 個真值結果中，模型正確分類為 18 件，並誤歸為 1。

在 458 個基準真值（非腫瘤）的預測結果中，模型正確分類為 452 件，並誤歸類為 6。

多類別分類問題的混淆矩陣可協助您找出錯誤模式。舉例來說，請思考以下 3 級多類別分類模型的混淆矩陣，這些模型分別區分了三種不同的 iris 類型 (維吉尼亞州、維斯蒂彩色和 Setosa)。當真值為 Virginica 時，混淆矩陣顯示模型預測 Versicolor 的預測性遠高於 Setosa：

Setosa (預測) Versicolor (預測) 維吉尼亞州 (預計)

Setosa (基準真相) 88 12 0

Versicolor (真值) 6 141 7

維吉尼亞州 (基準真相) 2 27 109

再舉一個例子，混淆矩陣可能顯示，訓練辨識手寫數字的模型通常會錯誤預測 9 而非 4，或是錯誤預測出 1 而非 7。

混淆矩陣內含充足的資訊，可計算各種成效指標，包括精確度和喚回度。

選區剖析

#language

將句子分割為較小的文法結構 (即「組成」)。機器學習系統的後續部分 (例如自然語言理解模型) 能夠比原始語句更容易剖析族群。例如，請思考下列語句：

我的朋友養育兩隻貓，

組成剖析器可將這個句子分為以下兩個組成部分：

「我的朋友」是一個名詞片語。

領養兩隻貓是一種動詞片語。

這些組成項目可以進一步細分為較小的組成部分。例如：動詞語句

領養兩隻貓

可進一步細分為

adopted 為動詞。

「兩隻貓」是另一個名詞片語。

情境化語言嵌入

#language

#生成式 AI

一種嵌入，以人類母語人士來說，貼近「理解」字詞和詞組。情境化語言嵌入能理解複雜的語法、語意和背景資訊。

舉例來說，請考慮使用英文「cow」的嵌入項目。舊版嵌入 (例如 word2vec) 可以代表英文字詞，讓嵌入空間從「牛」到「鬥牛」的距離與「ewe」(女性羊毛) 和「ram」(男性綿羊) 與「女性」之間的距離類似。另外，如果能辨識英文使用者有時會使用 cow 這個字詞來表示牛或牛，則針對情境化語言嵌入能發揮更大的效用。

上下文窗口

#language

#生成式 AI

模型可在指定提示中處理的權杖數量。背景區間越大，模型就能使用更多資訊來提供一致且一致的提示回應。

持續特徵

#fundamentals

浮點特徵，具有無限可能的值，例如溫度或權重。

與獨立功能比較。

便利取樣

使用未經科學收集的資料集執行快速實驗。稍後，請務必切換至科學收集的資料集。

收斂

#fundamentals

當損失值在每次疊代時極少或完全不改變時，已達到狀態。舉例來說，下列損失曲線表示大約 700 次疊代的收斂：

如果額外訓練也無法改善模型，則模型「收斂」。

在「深度學習」中，損失值有時會在最後以遞減方式之前保持不變或幾乎不變。在持續的損失值長時間期間，您可能暫時會誤以為規則的收斂。

另請參閱「提前停止」一節。

凸函數

函式圖表上方的地區為「轉換集」。原型融合函式形狀如字母 U。例如，以下都是 Convex 函式：

相反地，下列函式並非 convex。請注意，圖表上方的地區不是凸面組合：

「嚴格凸面函式」只會有一個本機最低點，也是全域最小點。經典的 U 型函式是嚴格 convex 函式。不過，部分凸面函式 (例如直線) 不是 U 形。

點選圖示即可查看數學詳情。

許多常見的損失函式 (包括以下函式) 都是 convex 函式：

L₂ 流失

記錄檔遺失

L₁ 正則化

L₂ 正則化

我們保證有許多變化版本的梯度下降法，會找出接近嚴格凸面函式下限的資料點。同樣地，許多隨機梯度下降的變化版本都有很高的機率 (但不保證一定能) 找到接近嚴格凸面函式最低的點。

兩個凸面函式 (例如 L₂ 損失 + L₁ 正則化) 的總和是凸函數。

深層模型一律不是凸面函式。值得注意的是，專為凸顯最佳化設計的演算法通常能在深層網路上找到合理的解決方案，但這些解決方案不保證能達到全域下限。

凸面最佳化

使用梯度下降法等數學技術的過程，找出凸顯函式的最小值。在機器學習方面，大量的研究著重在設計各種問題，像是對話最佳化問題，以及更有效率地解決這些問題。

詳情請參閱 Boyd 和 Vandenberghe 的Convex 最佳化。

凸集合

歐幾里德空間的子集，因此子集中任兩個點之間繪製的線條仍完全位於子集中。例如，以下兩個形狀是凸面組合：

相對地，下列兩種形狀並非凸面組合：

卷積

#image

在數學中，隨意說話就是結合兩種函式。在機器學習中，卷積會混合使用「卷積篩選器」和輸入矩陣來訓練「權重」。

機器學習中的「卷積」通常是指卷積運算或卷積層這種簡單寫法。

如果沒有捲積，機器學習演算法必須學習大型「張量」中每個儲存格的權重。例如，使用 2K x 2K 圖像的機器學習演算法訓練會被強制找到 400 萬張不同的權重。多虧了卷積，機器學習演算法只須尋找「卷積篩選器」中每個儲存格的權重，大幅減少訓練模型所需的記憶體。套用卷積篩選器時，此篩選器會在所有儲存格間複製，使每個儲存格乘以篩選器。

卷積濾波器

#image

「卷積運算」中的兩位演員之一。(另一名演員是輸入矩陣的配量)。卷積篩選器是與輸入矩陣具有相同「排名」的矩陣，但形狀較小。舉例來說，如果指定 28x28 的輸入矩陣，篩選器可以是小於 28x28 的任何 2D 矩陣。

在攝影操控中，卷積篩選器中的所有儲存格通常會設為 1 和 0 的常數模式。在機器學習中，卷積篩選器通常會以隨機數字種子，然後是網路「訓練」理想的值。

卷積層

#image

深層類神經網路層，其中卷積篩選器會沿著輸入矩陣傳遞。例如，考慮使用以下 3x3 卷積濾波器：

下方動畫展示了卷積層，包含 9 個涉及 5x5 輸入矩陣的捲積運算。請注意，每個卷積運算分別用於輸入矩陣的不同 3x3 配量。產生的 3x3 矩陣 (右圖) 由 9 個卷積運算的結果組成：

卷積類神經網路

#image

「類神經網路」中，至少要有一個層是「卷積層」。典型的捲積類神經網路是由下列層的組合組成：

卷積層

集區層

稠密層

卷積類神經網路在圖片辨識等特定類型的問題中奏效。

卷積運算

#image

下列兩步驟數學運算：

「卷積篩選器」的元素元素乘法和輸入矩陣配量。(輸入矩陣的切塊排名和大小與卷積篩選器相同)。

產生的產品矩陣中所有值的總和。

以下列 5x5 輸入矩陣為例：

現在，請設想以下 2x2 卷積濾波器：

每個卷積運算都包含輸入矩陣的單一 2x2 配量。舉例來說，假設您在輸入矩陣左上角使用 2x2 切片。因此，這個切片的捲積運算如下所示：

「卷積層」包含一系列卷積運算，每個運算作業皆針對輸入矩陣的不同部分執行。

費用

loss 的同義詞。

共同訓練

半監督式學習在符合下列所有條件時特別實用：

資料集中未加上標籤的範例與已加上標籤的範例的比率偏高。

這是分類問題 (二進位或多重類別)。

「資料集」包含兩組不同的預測特徵，彼此之間互不相同且互補。

共同訓練基本上能將獨立信號增強為更強的信號。舉例來說，假設使用分類模型，將個別二手車歸類為「佳」或「不佳」。一組預測功能可能會著重於車輛的匯總特性，例如的年份、廠牌和型號；另一組預測功能可能會著重於前一名車主的駕駛記錄和車輛的維修記錄。

Blum 和 Mitchell 的聯合訓練週邊文件是「結合已加上標籤和未加上標籤的資料與共同訓練」。

反事實公平性

#fairness

一種公平性指標，用於檢查分類器是否為一個和第一位使用者產生相同的結果，但對於一或多個敏感屬性則不同。如要在模型中顯示潛在偏誤來源，其中一個方法是針對反事實公平性評估分類器。

如要深入瞭解反事實的公平性，請參閱「When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness」。

涵蓋率偏誤

#fairness

請參閱選擇偏誤。

衝刺風潮

#language

意思不清楚的句子或詞組。當機爆炸在自然語言理解方面是嚴重的問題。舉例來說，紅色膠帶的舉起摩天大廣告這樣無疑是毀壞事，因為 NLU 模型可能會解讀標題文字，或以文字方式解讀標題。

按一下圖示即可查看其他附註。

簡單說明一下，這個神秘的標題：

紅膠帶可能為下列任一項：

黏著劑

過多官僚體系

「Holds Up」可能代表下列任一情況：

結構支援

延遲入帳

評論

#rl

Deep Q-Network 的同義詞。

交叉熵

將「Log Loss」一般化為多類別分類問題的一般化。交叉熵會量化兩個機率分佈之間的差異。另請參閱複雜度。

交叉驗證

透過測試從「訓練集」model中記錄的一或多個非重疊資料子集來測試模型，預估「模型」model將新資料一般化程度高低的機制。

累積分佈函式 (CDF)

此函式可定義取樣頻率小於或等於目標值的頻率。例如持續分佈值的常態分佈。 CDF 則告訴您，大約 50% 的樣本應小於或等於平均值，而大約 84% 的樣本應小於或等於平均值的一個標準差。

D

資料分析

考慮樣本、測量和視覺化，藉此取得資料。初次接收資料集時，在建構第一個model之前，資料分析功能特別有用。此外，瞭解實驗及偵錯系統的問題也相當重要。

資料擴增

#image

透過轉換現有的範例以建立更多範例，來手動增加「訓練」範例的範圍和數量。舉例來說，假設圖片是您的其中一個特徵，但資料集所含的圖片範例不足，模型無法學習實用關聯。在理想情況下，您應將足夠的「已加上標籤」圖片新增至資料集，這樣模型才能正確訓練。如果無法提供，資料擴增功能可能會旋轉、延展及反映每張圖片，以產生多個原始相片的多個變化版本，進而產生足夠的標籤資料以進行良好的訓練。

DataFrame

#fundamentals

一種熱門的 pandas 資料類型，用於表示記憶體中的資料集。

DataFrame 類似於表格或試算表。DataFrame 的每一欄都有名稱 (標頭)，且每個資料列都由一組專屬編號來識別。

DataFrame 中每個資料欄的結構都與 2D 陣列類似，不同之處在於每個欄都能指派專屬資料類型。

另請參閱官方 pandas.DataFrame 參考資料頁面。

資料平行處理

擴充訓練或推論的方式，可將整個模型複製到多部裝置，然後將部分輸入資料傳送至每部裝置。資料平行處理可以在非常大的批次大小上進行訓練和推論；不過，資料平行處理需要模型夠小，才能搭配所有裝置使用。

資料平行處理通常能加快訓練和推論速度。

另請參閱模型平行處理一文。

資料集或資料集

#fundamentals

原始資料的集合，通常 (但非全部) 都採用下列其中一種格式：

試算表

檔案為 CSV (逗號分隔值) 格式

Dataset API (tf.data)

#TensorFlow

一種高階 TensorFlow API，用於讀取資料並將其轉換為機器學習演算法所需的形式。tf.data.Dataset 物件代表元素序列，其中每個元素都包含一或多個 Tensor。tf.data.Iterator 物件可讓您存取 Dataset 的元素。

如要進一步瞭解 Dataset API，請參閱 TensorFlow 程式設計人員指南中的 tf.data：建構 TensorFlow 輸入管道。

決策邊界

在二元類別或多元分類問題中，模型學到的類別分隔符。舉例來說，在下圖中代表二元分類問題，決策界線就是橘色類別與藍色類別之間的前端：

Declaration Forest

#df

以多個決策樹建立的模型。決策樹系會匯總其決策樹的預測結果進行預測。熱門的決策樹包括隨機樹系和梯度增強樹狀結構。

決策門檻

分類門檻的同義詞。

決策樹狀圖

#df

監督式學習模型，由一組階層式的conditions和conditions所組成。例如，以下為決策樹：

解碼器

#language

一般來說，任何機器學習系統可從經處理、稠密或內部表示法轉換為更原始、稀疏或外部表示法。

解碼器通常是較大型模型的元件，而且通常會與編碼器配對。

在「sequence-to-sequence」中，解碼器會從編碼器產生的內部狀態開始預測下一個序列。

如要瞭解 Transformer 架構中的解碼器定義，請參閱轉換器。

深度模型

#fundamentals

「類神經網路」包含多個隱藏層。

深層模型又稱為「深層類神經網路」。

與廣角模型的對比度。

便相當熱門的

深度模型的同義詞。

深度 Q-網路 (DQN)

#rl

在 Q-learning 中，能預測 Q 函式的深度類神經網路。

「Critic」是「Deep Q-Network」的同義詞。

客層對等

#fairness

如果模型的分類結果不受特定機密屬性影響，則符合「公平性」指標。

舉例來說，如果 Lilliputians 和 Brobdingnagians 都適用於古盧布杜布勒伊大學，當 Lilliputians 承認的比例是否與允許的布丁納吉斯百分比相同時，無論其中一個群組的平均合格程度是否比另一個群組來得多，都會達到客層相似度。

相較於等值機率和機會相等，後者可讓分類結果匯總取決於敏感屬性，但不允許特定指定的真值標籤使用敏感屬性的分類結果。請參閱「使用智慧型機器學習技術攻擊歧視」一文，取得在針對受眾特徵對等性最佳化時，透過圖表瞭解權衡利弊的方法。

雜訊

#language

常見的自監督學習做法：

您會在資料集中手動新增雜訊。

「模型」model會嘗試移除雜訊。

去除雜訊有助於從未加上標籤的範例中學習。原始的資料集會做為目標或標籤，而雜訊資料做為輸入內容。

部分「遮蓋的語言模型」會使用去除雜訊，方法如下：

系統會遮蓋部分符記，為無標籤的句子手動添加雜訊。

模型會嘗試預測原始符記。

稠密特徵

#fundamentals

大多數或所有值都為非零的功能，通常是浮點值的 Tensor。舉例來說，下列 10 元素的 Tensor 較為密集，因為其中 9 個值為非零：

8 3 7 5 2 4 0 4 9 6

與稀疏功能的對比。

稠密層

全連接層的同義詞。

深度

#fundamentals

類神經網路中的下列項目總和：

隱藏圖層的數量

輸出層的數量，通常為 1

嵌入層的數量

例如，有五個隱藏層和一個輸出層的類神經網路深度為 6。

請注意，「輸入層」不會影響深度。

深度可分裂卷積類神經網路 (sepCNN)

#image

以 Inception 為基礎的卷積類神經網路架構，但 Inception 模組會以深度可分離的捲積取代。也稱為 Xception。

深度可分卷 (也稱為可分割卷積) 會將標準 3D 卷積轉化為兩個更可提高運算效率的獨立卷積運算：第一是深度卷積，深度為 1 (n × n × 1)，其後長度為 1 × × × 1 (兩倍)。

詳情請參閱「Xception: Deep Learning with Depthwise Separable Conolution」。

衍生標籤

Proxy 標籤的同義詞。

裝置

#TensorFlow

#GoogleCloud

過載的字詞具有以下兩個可能定義：

可執行 TensorFlow 工作階段的硬體類別，包括 CPU、GPU 和 TPU。

利用加速器晶片 (GPU 或 TPU) 訓練機器學習模型時，這是系統實際操控張量和嵌入的部分。裝置是透過加速器晶片運作。相反地，「主機」通常在 CPU 上執行。

差異化隱私

在機器學習中，去識別化方法可以保護模型訓練集中包含的任何機密資料 (例如個人個人資訊)。這個方法可確保「模型」model不會學習或記住特定個別使用者的資訊。方法是在模型訓練期間取樣及加入雜訊，模糊處理個別資料點，以降低揭露敏感訓練資料的風險。

此外，在機器學習以外，也會使用差異化隱私。舉例來說，在計算不同客層的產品使用統計資料時，數據資料學家有時會使用差異化隱私來保護個人隱私。

維度縮減

降低用於表示特徵向量中特定特徵的維度數量 (通常是轉換為嵌入向量)。

尺寸

超載字詞具有下列任一定義：

Tensor 中的座標層級數量。舉例來說：

純量的維度為零，例如 ["Hello"]。

向量包含一個維度，例如 [3, 5, 7, 11]。

矩陣有兩個維度，例如 [[2, 4, 18], [5, 7, 14]]。

您可以在單一維度向量中使用一個座標指定不重複的特定儲存格；因此您需要兩個座標，才能在二維矩陣中明確指定特定儲存格。

特徵向量中的項目數量。

嵌入層中的元素數量。

直接提示

#language

#生成式 AI

零樣本提示的同義詞。

離散特徵

#fundamentals

具有一組有限可能值的功能。例如，其值可能僅為「animal」、「vegetable」或「mineral」的特徵是離散 (或類別) 特徵。

對比連續功能。

判別式模型

模型model，可從一或多個特徵model中預測標籤。更正式的說法，判別模型會以特徵和「權重」定義輸出的條件機率，也就是：

p(output | features, weights)

舉例來說，模型可以預測電子郵件是否為特徵的垃圾郵件，而權重則屬於判別模式。

大多數監督式學習模型 (包括分類和迴歸模型) 都是判別式模型。

與生成式模型的差異。

鑑別器

判斷例子為真實或造假的系統。

或者，生成對抗網路中的子系統可以判斷產生器產生的範例是真實還是假造。

不同影響

#fairness

對不同族群影響族群的民眾做出決定不成比例。這通常是指演算法的決策程序損害或受益於其他子群組的情況。

舉例來說，假設某個演算法判定 Lilliputian 的申請小型房屋貸款資格，且地址中含有特定郵遞區號，他們就更有可能歸類為「不符合資格」。如果與 Little-Endian Lilliputians 相比， Big-Endian Lilliputians 更可能透過這個郵遞區號傳送郵件地址，那麼這個演算法可能會造成不同的影響。

與不同的治療不同之處在於，後者著重於將子團體特徵是明確輸入到演算法決策程序時所產生的差異。

獨立治療

#fairness

將拍攝目標的敏感屬性納入演算法決策流程，讓不同的子群體能以不同方式處理。

舉例來說，假設使用演算法來判斷 Lilliputian 的貸款申請資料，判定他們是否符合小房貸款資格。如果演算法使用 Lilliputian 的聯盟做為 Big-Endian 或 Little-Endian 做為輸入內容，則會沿著該維度進行不同的處理方式。

與差異影響的情形不同，後者著重於演算法決策對子群組造成的重大影響，無論這些子群組是否為模型的輸入內容。

警告： 由於機密屬性幾乎總是與資料可能的其他特徵相關聯，因此明確移除敏感屬性資訊並不保證子群組一定可以一視同仁。舉例來說，從仍包含郵遞區號做為地圖項目的訓練資料集中移除敏感受眾特徵屬性，可能會解決子群組的不同處理方式，但仍然可能獨立存在，因為郵遞區號可能可做為其他客層資訊的 Proxy。

蒸餾

#生成式 AI

將一個模型model (稱為「老師」model) 大小縮減為較小模型 (稱為「學生」model) 的程序，讓模型盡可能忠實模擬原始模型的預測結果。精煉很有用，因為相較於較大的模型 (教師)，較小的模型有兩項主要優勢：

推論速度更快

降低記憶體和能源用量

但學生的預測結果通常不如老師的預測結果。

精煉作業會訓練學生模型，根據學生與教師模型的預測結果之間的差異，盡可能降低損失函式。

使用下列術語比較及對照蒸餾：

微調

以提示為基礎的學習方式

發布

特定功能或標籤值不同值的頻率和範圍。分佈情形會擷取特定值的可能性。

下圖顯示兩種不同分佈的直方圖：

左邊是權力法分佈圖，比較有財富之權和持有財富的人數。

在右側，這是正常分佈的高度，與擁有這個高度的人員數目相較。

瞭解各項特徵和標籤的分佈情形，可協助您決定如何正規化值及偵測離群值。

「out of 分佈」一詞是指資料集內未顯示或很少出現的值。例如，如果資料集包含貓的圖片，則土星的圖片會被視為不分佈。

潛水分群法

#clustering

請參閱階層分群法。

降低取樣

#image

過載的字詞可能為下列任一值：

減少特徵中的資訊量，以更有效率地訓練模型。舉例來說，在訓練圖片辨識模型之前，請將高解析度圖片的取樣率降低為低解析度的格式。

對代表比例過高的過度比例類別範例進行訓練，以改善代表性弱類別的模型訓練成效。例如，在不平衡資料集中，模型往往會深入瞭解主要類別，但卻無法充分瞭解少數類別。降低取樣有助於平衡多數類別和少數類別的訓練量。

失明

#rl

Deep Q-Network 的縮寫，

丟棄正則化

一種正則化形式，在訓練類神經網路中非常實用。捨棄正規化作業可針對單一梯度步驟，從網路層中隨機選取固定數量的單位。捨棄的單位越多，正則化越強。這類似於訓練網路，模擬規模龐大的小型網路「組合」。詳情請參閱「Dropout：輕鬆防止類神經網路過度配適的簡單方法」一文。

動態

#fundamentals

某些操作頻繁或持續執行。「動態」和「線上」是機器學習技術的同義詞。以下是「動態」和「線上」在機器學習中的常見用途：

「動態模型」 (或「線上模型」) 是指經常或持續訓練的模型。

「動態訓練」 (或「線上訓練」) 是頻繁或持續訓練的程序。

「動態推論」 (或「線上推論」) 是視需求產生預測的程序。

動態模型

#fundamentals

經常 (甚至持續) 重新訓練的「模型」model。動態模型是一種「終身學習者」，可持續適應不斷變化的資料。動態模型又稱為「線上模型」。

與靜態模型的對比。

E

Eager Execution

#TensorFlow

立即執行operations的 TensorFlow 程式設計環境。相反地，圖表執行中呼叫的作業必須等到明確評估之後，才會執行。Eager 執行是命令式介面，與大多數程式設計語言中的程式碼類似。加速執行程式通常比圖形執行程式更容易偵錯。

提早中止訓練

#fundamentals

正規化的方法，包括在訓練損失完成之前結束訓練。在提早停止訓練時，當驗證資料集的損失開始增加時，您刻意停止訓練模型，也就是當一般化效能下降時。

按一下圖示即可查看其他附註。

提早中止訓練聽起來可能不符合直覺。畢竟，如果要求模型在損失仍降低的情況下停止訓練，也許看起來像是要求廚師在甜點完全烘焙前停止烹飪。但是，訓練模型的時間過長會導致過度配適。也就是說，如果模型的訓練時間過長，模型可能會調整訓練資料，讓模型無法針對新範例進行良好的預測。

地球移動器的距離 (EMD)

評估兩個分佈的相對相似度。地球移動器的距離越低，分佈就越相似。

編輯距離

#language

兩個文字字串彼此相似程度的測量結果。在機器學習中，編輯距離是很實用的做法，因為它很容易運算，而且能有效比較兩個已知相近的字串，或找出與特定字串相似的字串。

編輯距離有多種定義，每項定義都使用不同的字串運算。舉例來說， Levenshtein 距離會將刪除、插入和替代作業納入考量的最少。

例如，「Heart」和「darts」這兩個字詞之間的 Levenshtein 距離是 3，因為下列 3 次編輯是使一個字詞變成另一個字詞的最少變更：

Heart → deart (以「d」取代「h」)

deart → dart (刪除「e」)

飛鏢 → 飛鏢 (輸入「s」)

假設符號

一種有效率的標記法，用於說明如何合併兩個張量。這些張量會將一個張量的元素乘以其他張量的元素，然後再加總乘積。假設標記法使用符號來識別每個張量的軸，這些相同的符號會重新安排以指定新產生的張量的形狀。

NumPy 提供常見的 Einsum 實作，

嵌入層

#language

#fundamentals

一種特殊「隱藏層」，可使用高維度「類別」特徵訓練，逐步學習較低維度的嵌入向量。嵌入層可提高類神經網路的訓練效率，遠高於只針對高維度類別特徵進行訓練。

舉例來說，Google 地球目前大約支援 73,000 種樹木。假設樹木物種是模型中的「特徵」，因此模型的輸入層包含長度為 73,000 個元素的「one-hot 向量」。例如，也許 baobab 應表示如下：

73,000 元素的陣列太長。如未將嵌入層新增至模型，訓練可能會耗費大量時間，因為系統會將 72,999 個零乘以 0。您可以選擇包含 12 個維度的嵌入層因此，嵌入層會逐漸學習每個樹木物種的新嵌入向量。

在某些情況下，「雜湊」是與嵌入層合理的替代方案。

嵌入空間

#language

對應至較高維度向量空間的 DD 向量空間。在理想情況下，嵌入空間所含的結構可以產生有意義的數學結果。舉例來說，在理想的嵌入空間中，加法及減去嵌入可以解決字詞類比工作。

兩個嵌入的內積是彼此相似度的測量結果。

嵌入向量

#language

大致來說，這是從任何 隱藏層擷取的浮點數陣列，用於描述隱藏層的輸入內容。通常，嵌入向量是嵌入層中訓練的浮點數陣列。舉例來說，假設嵌入層必須取得地球上 73,000 種樹木品種的嵌入向量。也許下列陣列是猴子樹的嵌入向量：

嵌入向量並非隨機數字。嵌入層會透過訓練判定這些值，類似於類神經網路在訓練期間學習其他權重的方式。陣列的每個元素都是樹狀結構中某些特性的評分。哪個元素代表哪種樹種的特性？這對人類來說相當困難

在嵌入向量的數學上，相似的項目具有相似的浮點數集合。例如，類似樹木種類的浮點數，與不同的樹種還相似。紅木和紅杉是相關的樹種，因此與紅木和椰子棕櫚樹的浮點數會有更相似的一組浮點數。每次重新訓練模型時，嵌入向量中的數字都會改變，即使以相同的輸入內容重新訓練模型也一樣。

經驗累積分佈函式 (eCDF 或 EDF)

以真實資料集內實際測量結果為基礎的累積分佈函式。x 軸沿途任何點的函式值是資料集中小於或等於指定值的觀察比例。

經驗風險最小化 (ERM)

選擇可將訓練集上損失的函式降到最低的函式。與結構風險最小化相反。

編碼器

#language

一般來說，任何機器學習系統都會從原始、稀疏或外部表示法轉換為較經過處理、更密集或較內部表示法，

編碼器通常是較大型模型的元件，而且通常會與解碼器配對。部分轉換器將編碼器與解碼器配對，但其他轉換器只會使用編碼器或解碼器。

部分系統會使用編碼器的輸出內容做為分類或迴歸網路的輸入內容。

在「sequence-to-sequence」中，編碼器會接收輸入序列，並傳回內部狀態 (向量)。接著，解碼器會使用內部狀態預測下一個序列。

如要瞭解 Transformer 架構中的編碼器定義，請參閱轉換器一文。

集成

一組獨立訓練的模型，其預測結果會經過平均或匯總。在許多情況下，組合產生的預測結果比單一模型好。例如，「隨機樹系」是由多個決策樹建構而成。請注意，並非所有「決策樹系」都是組合式。

熵

#df

資訊理論中說明瞭無法預測的可能性分佈情形。此外，熵也定義為每個範例包含的資訊量。在隨機變數的所有值都相等的情況下，分佈具有最高的熵。

包含兩個可能值「0」和「1」的集合熵 (例如「二元分類」問題中的標籤) 具有以下公式：

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中：

H 是熵。

p 是「1」範例的分數。

q 是「0」範例的分數。請注意，q = (1 - p)

log 通常是記錄₂。在這個例子中，熵單位有點像

舉例來說，假設：

100 個範例包含值「1」

300 例包含「0」這個值

因此，熵值為：

p = 0.25

q = 0.75

H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 每個範例 0.81 位元

如為完全平衡的資料集 (例如 200「0」和 200「1」)，每個範例的熵皆為 1.0 位元。當組合更加不平衡時，其熵會趨向於 0.0。

在「決策樹」中，熵可協助建立「資訊取得」，協助「分割器」在分類決策樹成長期間選取「條件」。

比較熵：

原味無害

cross-entropy 損失函式

熵通常稱為善農的熵。

環境

#rl

在強化學習中，含有代理程式的世界，可讓代理程式觀察世界的狀態。舉例來說，可呈現的世界可能是西洋棋之類的遊戲，或是迷宮之類的實體世界。代理程式對環境套用動作時，環境會在狀態之間轉換。

單集節目

#rl

在強化學習中，代理程式會進行每次重複嘗試來學習環境。

Epoch 紀元時間

#fundamentals

整個訓練集的完整訓練傳輸量，使得每個範例都處理過一次。

週期代表 N/批次大小訓練疊代，其中 N 是範例總數。

舉例來說，假設：

資料集包含 1,000 個範例。

批量為 50 個範例。

因此，在單一週期內，必須疊代 20 次：

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Epsilon 貪婪政策

#rl

在強化學習中，這種政策遵循具有 Epsilon 機率或貪婪政策的隨機政策。例如，如果 Epsilon 為 0.9，則政策遵循 90% 的隨機政策，且 10% 的時間會採用貪婪政策。

在連續的集數中，演算法會降低 Epsilon 的值，以便從隨機政策轉移至遵循貪婪政策。藉由改變政策，代理程式會先隨機探索環境，然後完全利用隨機探索的結果。

機會平等

#fairness

一種公平性指標，用於評估模型是否在敏感屬性的所有值中都同樣地預測所需結果。換句話說，如果模型的理想結果為「正面類別」，目標便是所有群組的真陽率都相同。

	晉級	不合格
已允許	45	3
已遭拒	45	7
總計	90	10
符合個人資格的學生百分比：45/90 = 50% 不合格學生遭拒的百分比：7/10 = 70% 承認學生所承受的學生總百分比：(45+3)/100 = 48%

	晉級	不合格
已允許	5	9
已遭拒	5	81
總計	10	90
符合個人資格的學生佔 5/10 百分比：5/10 = 50% 不合格學生遭拒的百分比：81/90 = 90% 布朗那加學生錄取 (5+9)/100 = 14%

	晉級	不合格
已允許	45	2
已遭拒	45	8
總計	90	10
符合個人資格的學生百分比：45/90 = 50% 不合格學生遭拒的百分比：8/10 = 80% 承認學生所承受的學生總百分比：(45+2)/100 = 47%

	晉級	不合格
已允許	5	18
已遭拒	5	72
總計	10	90
符合個人資格的學生佔 5/10 百分比：5/10 = 50% 不合格學生遭拒的百分比：72/90 = 80% 布蘭德納州學生錄取 (5+18)/100 = 23%

功能	標籤
Temperature	濕度	氣壓	測驗分數
15	47	998	不錯
19	34	1020	極佳
18	92	1012	不佳

Temperature	濕度	氣壓
12	62	1014
21	47	1017
19	41	1021

功能	標籤
Temperature	濕度	氣壓	測驗分數
15	47	998	92
19	34	1020	84
18	92	1012	87

單一提示的組成部分	附註
`指定國家/地區的官方貨幣為何？`	您希望 LLM 回答的問題。
`法國：EUR`	我們來看個個例子
`英國：GBP`	另一個例子
`印度：`	實際查詢。

機會平等與「等化機率」相關，也就是要求所有群組的「真陽率」和「偽陽率」都相同。

假設古盧布杜布勒布大學 (Glubbdubdrib University) 承認了利利普特人和兄弟弟姊妹參與一項高強度的數學計畫。利利普特人的中學提供完善的數學課程，絕大多數學生都符合大學學程的資格。布丁納金斯的中學學校完全不提供數學課程，因此合格的學生人數較少。不論學生是利利普特人還是布魯金納格人，都可能無視其認定的國籍 (利利普特人或布羅本那格) 偏好使用「允許」標籤，但符合這類員工的可能性，就符合提供機會的公平性。

舉例來說，假設有 100 位 Lilliputians 和 100 Brobdingnagians 適用於古盧布爾布里伊大學 (Glubbdubdrib University)，並決定報名決策的做法如下：

表 1. 利利普特人 (90% 符合資格)

晉級不合格

已允許 45 3

已遭拒 45 7

總計 90 10

符合個人資格的學生百分比：45/90 = 50%
不合格學生遭拒的百分比：7/10 = 70%
承認學生所承受的學生總百分比：(45+3)/100 = 48%

表 2. 英國境內的申請者 (10% 符合資格)：

晉級不合格

已允許 5 9

已遭拒 5 81

總計 10 90

符合個人資格的學生佔 5/10 百分比：5/10 = 50%
不合格學生遭拒的百分比：81/90 = 90%
布朗那加學生錄取 (5+9)/100 = 14%

上述範例滿足了對合格學生接受機會的平等條件，因為符合資格的 Lilliputians 和 Brobdingnagians 都有 50% 的機率會獲得允許。

儘管享有機會平等，但下列兩項公平性指標不符合要求：

客層對等性：利利普特人和兄弟姊妹以不同的費率入學。在利利普特人 (Lilliputian) 學生中，有 48% 符合投保資格，但位於布丁那加文的學生只佔 14%。

等號相同的機率：雖然符合資格的 Lilliputian 和 Brobdingnagian 學生的入主機會相同，但不合格的 Lilliputians 和 Brobdingnagians 兩者皆有額外的限制，無法滿足相同的拒絕機率。不符資格的 Lilliputian 的拒絕率為 70%，不符資格的 Brobdingnagian 則拒絕率為 90%。

如要進一步瞭解機會平等的討論內容，請參閱「Equality ofOpportunity in Supervised Learning」。另請參閱「使用聰明的機器學習技術攻擊歧視」一節，透過圖表探索在針對機會平等進行最佳化時如何權衡利弊。

等值勝率

#fairness

評估模型是否針對敏感屬性的所有值，並根據正面類別和負類別 (而不只是一個類別) 來預測相關結果的公平性指標。換句話說，所有群組的真陽率和偽陰性應都相同。

相等的機率與機會平等相關，後者只會影響單一類別的錯誤率 (陽性或負數)。

舉例來說，假設格魯布杜布勒大學 (Glubbdubdrib University) 同時承認了利普特斯人和布魯本丁那吉人推動精密的數學計畫。Lilliputian's 中學的中學提供完善的數學課程，絕大多數學生都符合大學學程的資格。因此，大本營的中學學校完全不提供數學課程，因此符合資格的學生就少了很多。只要申請者是利其普及人，無論申請人是賴義達人還是兄弟弟姊妹，只要符合資格，就能取得本計畫參與資格的機會。如果不符合資格，則有可能遭拒絕。

假設有 100 位利普斯托德大學和 100 名兄弟姊妹申請加入古盧布德里大學大學，假設入場權決定方式如下：

表 3. 利利普特人 (90% 符合資格)

晉級不合格

已允許 45 2

已遭拒 45 8

總計 90 10

符合個人資格的學生百分比：45/90 = 50%
不合格學生遭拒的百分比：8/10 = 80%
承認學生所承受的學生總百分比：(45+2)/100 = 47%

表 4. 英國境內的申請者 (10% 符合資格)：

晉級不合格

已允許 5 18

已遭拒 5 72

總計 10 90

符合個人資格的學生佔 5/10 百分比：5/10 = 50%
不合格學生遭拒的百分比：72/90 = 80%
布蘭德納州學生錄取 (5+18)/100 = 23%

等分差不多是因為合格的 Lilliputian 和 Brobdingnagian 學生擁有 50% 的獲勝機會，而不合格的 Lilliputian 和 Brobdingnagian 則有 80% 的機會遭拒絕。

注意： 雖然這樣做可提供同等的勝率，但客層相似度不符合需求。Lilliputian 和 Brobdingnagian 的學生接受不同費率的古盧布達布里伊大學 (Glubbdubdrib University)；47% 的利比特人 (Lilliputian) 學生獲得 47% 的自由參加資格，Brobdingnagian 學生的 23% 可報名。
在「Equality of Opportunity in Supervised Learning」中，等化機率有正式定義，如下所示：「predictor Intro s 符合受保護屬性 A 和結果 Y 表示受保護屬性 A 及結果 Y 各自獨立且有條件的 Y 條件。」

注意： 與更加放鬆的商機平等指標對比，相反的等化機率。

Estimator

#TensorFlow

已淘汰的 TensorFlow API。使用 tf.keras 而非 Estimator。

評估版

評估機器學習模型預測品質的程序。在開發模型時，您通常會將評估指標套用於「訓練集」，以及驗證集和「測試集」。您也可以使用評估指標來比較不同的模型。

例子

#fundamentals

「features」(功能) 其中一列的值，可能為標籤。監督式學習中的範例分為兩種一般類別：

已加上標籤的範例包含一或多個地圖項目和一個標籤，已加上標籤的範例會在訓練期間使用。

「未加上標籤的範例」包含一或多個地圖項目，但沒有標籤。未加上標籤的範例會在推論期間使用。

例如，假設您正在訓練模型，判斷天氣狀況對學生測驗分數的影響。以下是三個加上標籤的範例：

功能標籤

Temperature 濕度氣壓測驗分數

15 47 998 不錯

19 34 1020 極佳

18 92 1012 不佳

以下提供三個未加上標籤的範例：

Temperature 濕度氣壓

12 62 1014

21 47 1017

19 41 1021

例如，資料集的資料列通常是原始來源。也就是說，範例通常由資料集中的部分資料欄組成。此外，範例中的功能也可以包含合成特徵，例如交錯組合特徵。

體驗重播

#rl

在強化學習中，DQN 技術是用來減少訓練資料中的時效關聯。代理程式會將狀態轉換儲存在重播緩衝區中，然後對重播緩衝區進行轉換取樣，以建立訓練資料。

實驗者偏誤

#fairness

請參閱「確認偏誤」一節。

爆炸漸層問題

#seq

在深層類神經網路 (尤其是「循環類神經網路」) 中，「梯度」的傾向變化幅度較大 (高)。陡降梯通常會導致深層類神經網路中每個節點的「權重」大幅更新。

出現爆炸梯度問題的模型會變得困難或無法訓練。漸層裁剪可緩解這個問題。

與消失漸層問題相比。

F

F₁ 鍵

仰賴精確度和喚回度的「綜覽」指標。公式如下：

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

舉例來說，假設有以下項目：

精確度 = 0.6

喚回度 = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

如果精確度和喚回度相近 (如上述範例所示)，F₁ 接近其平均值。如果精確度和喚回度有顯著差異，F₁ 會接近較低的值。例如：

精確度 = 0.9

喚回度 = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性限制

#fairness

對演算法套用限制，確保符合一或多項公平性定義。公平性限制的例子包括：

後續處理模型輸出內容。

修改損失函式，以違反違反公平性指標的處分。

直接將數學限制條件加到最佳化問題。

公平性指標

#fairness

可量化的「公平性」數學定義。一些常用的公平性指標包括：

等值勝率

預測一致性

反事實公平性

客層一致

許多公平性指標互斥，請參閱公平性指標不相容一節。

偽陰性 (FN)

#fundamentals

模型錯誤預測「負面類別」的例子。例如，模型預測特定電子郵件「不是垃圾郵件」(即排除類別)，但該電子郵件「確實是垃圾郵件」。

偽陰率

模型錯誤預測負類別的實際陽性範例比例。以下公式計算偽陰性率：

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

偽陽性 (FP)

#fundamentals

模型錯誤預測「正面類別」的例子。例如，模型預測特定電子郵件為「垃圾郵件」 (陽性類別)，但該電子郵件「並非垃圾郵件」。

偽陽率 (FPR)

#fundamentals

模型正確預測正類時的實際負例比例。以下公式計算偽陽率：

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率是指 ROC 曲線中的 X 軸。

功能

#fundamentals

機器學習模型的輸入變數。「範例」由一或多項特徵組成。例如，假設您正在訓練模型，判斷天氣狀況對學生測驗分數的影響。下表列出三個範例，每個範例都包含三個特徵和一個標籤：

功能標籤

Temperature 濕度氣壓測驗分數

15 47 998 92

19 34 1020 84

18 92 1012 87

與標籤的對比度。

交錯組合特徵

#fundamentals

由「交叉」類別或「值區化」特徵形成的合成特徵。

比方說，假設「情緒預測」模型以下列四個值區之一呈現溫度：

freezing

chilly

temperate

warm

並且以下列三個區間之一表示風速：

still

light

windy

在沒有交叉特徵的情況下，線性模型會在前七個不同的值區中分別訓練。舉例來說，模型會在訓練時使用 freezing，不受訓練的影響 (例如 windy)。

或者，您也可以建立兩個不同溫度和風速的特徵這項綜合特徵會有以下 12 個可能的值：

freezing-still

freezing-light

freezing-windy

chilly-still

chilly-light

chilly-windy

temperate-still

temperate-light

temperate-windy

warm-still

warm-light

warm-windy

多虧了特徵交叉，模型就能夠學習 freezing-windy 天到 freezing-still 天的心情差異。

如果您透過兩個特徵建立合成特徵，且每個特徵的值區都含有許多不同的值區，則產生的特徵交錯組合就會有大量的可能組合。舉例來說，如果一個特徵有 1,000 個值區，另一個特徵有 2,000 個值區，則交叉特徵會達到 2,000,000 個值區。

基本上，十字是笛卡兒乘積。

特徵交集最常搭配線性模型使用，而且很少用於類神經網路。

特徵工程

#fundamentals

#TensorFlow

這項程序包含下列步驟：

判斷哪些「特徵」在訓練模型時可能會有幫助。

將資料集的原始資料轉換為這些特徵的有效版本。

舉例來說，您可能會判定 temperature 可能是有用的功能。接著，您可以嘗試特徵分塊，讓模型從不同的 temperature 範圍學習到最適切的內容。

特徵工程有時稱為特徵擷取或特徵化。

按一下圖示即可查看 TensorFlow 的其他附註。

在 TensorFlow 中，特徵工程通常是指將原始記錄檔項目轉換為 tf.Example 通訊協定緩衝區。另請參閱 tf.Transform。

擷取特徵

具有下列其中一項定義的過載字詞：

擷取由非監督式或預先訓練模型計算的中間特徵表示法 (例如類神經網路中的隱藏層值)，以用於其他模型做為輸入內容。

特徵工程的同義詞。

特徵重要性

#df

變數重要性的同義詞。

特徵集

#fundamentals

用來訓練機器學習模型的「特徵」群組。舉例來說，郵遞區號、屬性大小和屬性條件，可能會針對預測房屋價格的模型產生簡單的特徵集。

特徵規格

#TensorFlow

說明從 tf.Example 通訊協定緩衝區中擷取 features 資料所需的資訊。由於 tf.Example 通訊協定緩衝區只是資料的容器，您必須指定以下項目：

要擷取的資料 (也就是特徵的鍵)

資料類型 (例如浮點或 int)

長度 (固定或可變動)

特徵向量

#fundamentals

feature 值陣列，其構成一個範例。特徵向量是在訓練期間和推論期間的輸入。例如，對於具有兩個獨立特徵的模型，其特徵向量可能為：

[0.92, 0.56]

每個範例會為特徵向量提供不同的值，因此下一個範例的特徵向量可能如下所示：

[0.73, 0.49]

特徵工程可決定特徵向量中的地圖項目表示方式。例如，二元類別特徵可能有五個可能的值，可能以 one-hot 編碼表示。在本例中，特定範例的特徵向量在第三個位置包含 4 個零和 1.0 值，如下所示：

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子，假設您的模型包含三個特徵：

二進位類別特徵，其中有 5 個可能的值，以 one-hot 編碼表示；例如：[0.0, 1.0, 0.0, 0.0, 0.0]

另一個二進位類別特徵，以 one-hot 編碼表示的三個可能值；例如：[0.0, 0.0, 1.0]

浮點功能；例如：8.3。

在本例中，每個範例的特徵向量會以「九」值表示。以上述清單中的範例值來說，特徵向量會是：

0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3

特徵化

從輸入來源 (例如文件或影片) 擷取「地圖項目」，並將特徵對應至特徵向量的程序。

部分機器學習專家會使用特徵化，做為特徵工程或特徵擷取的同義詞。

聯合學習

分散式機器學習方法，使用智慧型手機等裝置上去中心化的範例訓練機器學習「模型」。在聯合學習中，部分裝置會從中央協調的伺服器下載目前模型。裝置會使用裝置上儲存的範例來改善模型。接著，裝置會將模型改善項目 (但不包括訓練範例) 上傳到協調伺服器，並在其中與其他更新匯總，進而產生更完善的全域模型。匯總之後，裝置所計算的模型更新就不再需要且可以捨棄。

由於訓練範例不會上傳，因此聯合學習會遵循聚焦資料收集和資料最小化原則的隱私權原則。

如要進一步瞭解聯合學習，請參閱這個教學課程。

回饋循環

#fundamentals

在機器學習中，模型的預測結果會影響同一模型或其他模型的訓練資料。舉例來說，推薦電影的模型會影響使用者看到的電影，而這隨後會影響後續的電影推薦模型。

前饋類神經網路 (FFN)

不含循環或遞迴連線的類神經網路。舉例來說，傳統的深層類神經網路就是前饋類神經網路。與循環類神經網路相反。

少量樣本學習

一種機器學習方法，通常用於物件分類，專門用來從少量訓練樣本訓練有效的分類器。

另請參閱單樣本學習和零樣本學習。

少量樣本提示

#language

#生成式 AI

包含多個 (「少數」) 的提示範例，示範大型語言模型的回應方式。舉例來說，下列冗長的提示包含兩個範例，顯示大型語言模型如何回答查詢。

單一提示的組成部分附註

指定國家/地區的官方貨幣為何？ 您希望 LLM 回答的問題。

法國：EUR 我們來看個個例子

英國：GBP 另一個例子

印度： 實際查詢。

少量樣本提示通常會產生比零樣本提示和單樣本提示更符合需求的結果。不過，少量樣本提示需要較長的提示

少量樣本提示是指適用於提示導向學習的一種少量樣本學習。

小提琴

#language

以 Python 優先的設定程式庫，可在不入侵程式碼或基礎架構的情況下設定函式和類別的值。以 Pax 和其他機器學習程式碼集為例，這些函式和類別代表模型和訓練 超參數。

Fiddle 假設機器學習程式碼集通常會分為以下類別：

程式庫程式碼，可定義圖層和最佳化器。

資料集「黏附」程式碼，用於呼叫程式庫並將所有項目串連在一起。

Fiddle 會以未評估且可變動的形式擷取黏合程式碼的呼叫結構。

微調

#language

#image

#生成式 AI

也就是對預先訓練模型執行的第二項工作專屬訓練票證，用於修正特定用途的參數。例如，某些「大型語言模型」的完整訓練序列如下：

預先訓練：使用龐大的「一般」資料集 (例如所有英文 Wikipedia 頁面) 來訓練大型語言模型。

微調：訓練預先訓練模型，執行「特定」工作，例如回應醫療查詢。微調通常會包含數百或數千個聚焦特定任務的範例。

再舉一個例子，大型圖片模型的完整訓練序列如下：

預先訓練：使用龐大的「一般」圖片資料集 (例如 Wikimedia 常用項目中的所有圖片) 訓練大型圖片模型。

微調：訓練預先訓練模型，執行「特定」工作，例如產生虎鯨的圖片。

微調功能可以將下列策略組合搭配運用：

修改所有預先訓練模型的現有參數。這有時也稱為「完整微調」。

只修改預先訓練模型現有「部分」的參數 (通常是最接近「輸出層」的層)，同時保持其他現有參數不變 (通常來說，最靠近「輸入層」的層)。請參閱「具參數運用效率的調整」一節。

新增更多圖層，通常是在最接近輸出層的現有層之上。

微調是遷移學習的形式，因此，微調可能會使用不同的損失函式或模型類型，而不是用來訓練預先訓練模型的模型類型。舉例來說，您可以微調預先訓練的大型圖片模型，產生迴歸模型，以便傳回輸入圖像中的鳥類數。

下列詞彙的比較及對比：

蒸餾

以提示為基礎的學習方式

亞麻色

#language

高效能的開放原始碼程式庫，用於以 JAX 為基礎建構的深度學習技術。Flax 提供用於訓練 類神經網路的功能，以及評估其效能的方法。

亞麻色

#language

開放原始碼 Transformer 程式庫，以 Flax 為基礎建構而成，主要專為自然語言處理和多模態研究而設計。

忘記大門

#seq

「Long-Term Memory」儲存格的一部分，會調節儲存格中的資訊流動。請決定要捨棄儲存格狀態中哪些資訊，讓閘門維持背景資訊。

完整 softmax

softmax 的同義詞。

與候選抽樣比較。

全連接層

隱藏層，其中每個節點都會連結到後續隱藏層中的「每個」節點。

完全連接的圖層又稱為密集層。

函式轉換

將函式做為輸入並傳回轉換後函式做為輸出的函式。JAX 使用函式轉換。

G

GAN

生成對抗網路的縮寫。

一般化

#fundamentals

「模型」的能力，可對之前看不到的新資料進行正確的預測。可進行一般化的模型與過度配適的模型相反。

按一下圖示即可查看其他附註。

您將根據訓練集中的範例訓練模型。因此，模型會學習訓練集中的資料特性。一般化基本上會詢問模型是否能針對「不在」訓練集的範例，進行良好的預測。

為了鼓勵一般化，正則化可協助模型訓練在訓練集內資料完全相同之處。

一般化曲線

#fundamentals

顯示「訓練損失」和「驗證損失」的數量，做為「疊代」數量的函式。

一般化曲線可協助您偵測可能的過度配適。舉例來說，下列一般化曲線表明過度配適，因為驗證損失最終會遠高於訓練損失。

一般線性模型

以高斯雜訊為依據的最小平方迴歸模型，以及其他類型雜訊 (例如波松雜訊) 的模型。一般化線性模型的範例包括：

邏輯迴歸

多類別迴歸

最小平方迴歸

您可以透過 convex 最佳化取得一般線性模型的參數。

一般線性模型具有下列屬性：

最佳最小平方迴歸模型的平均預測值等於訓練資料的平均標籤。

最佳邏輯迴歸模型預測的平均機率等於訓練資料中的平均標籤。

一般化線性模型的威力受到其特徵限制。與深度模型不同，通用線性模型無法「學習新功能」。

生成對抗網路 (GAN)

一種建立新資料的系統，產生器會在當中建立資料，而鑑別器會判定建立的資料是否有效。

生成式 AI

#language

#image

#生成式 AI

沒有正式定義的新興轉換欄位。不過，多數專家都同意生成式 AI 模型可建立符合下列所有條件的內容：

複雜

連貫性

原始圖片

舉例來說，生成式 AI 模型可建立精細的論文或圖片

某些早期技術 (包括 LSTM 和 RNN) 也可能產生原創且一致的內容。有些專家認為這些早期技術是生成式 AI，有些專家認為，真正的生成式 AI 需要比早期技術可以產生的更複雜，

與預測式機器學習相反。

生成式模型

具體來說，模型可以執行下列作業之一：

根據訓練資料集建立 (產生) 新範例。舉例來說，生成式模型可能會在用詩詞資料集訓練後建立詩詞。生成對抗網路的「產生器」部分可歸類為這個類別。

判斷新樣本來自訓練集，或是從建立訓練集的機制建立的可能性。舉例來說，在以英文語句組成的資料集進行訓練後，生成式模型可能會判斷新輸入內容為有效英文語句的機率。

生成式模型理論上可區分資料集中的範例或特定特徵的分佈情形。也就是：

p(examples)

非監督式學習模型皆為生成式模型

與判別模型相比。

產生器

生成對抗網路中的子系統，可建立新的範例。

與歧視模型相反。

奇異無敵

#df

與 entropy 的指標類似。分割器會使用源自 gini 不完美或熵的值，組合用於分類決策樹的條件。資訊獲利是源自熵。針對自 gini 不完美性所衍生的指標，並沒有普遍接受的對等詞彙；但是，這個未命名的指標就跟資訊增加一樣重要。

原住民也稱為「gini index」，或簡稱「gini」。

按一下圖示即可查看有關小粒原狀的數學詳細資料。

吉尼不等行為是指將同一分佈情形所擷取的新資料分類錯誤的機率。針對包含兩個可能值「0」和「1」的組合，此資料集的不質性是利用以下公式計算而得：二元分類問題中的標籤：

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

其中：

I 是危險的程度。

p 是「1」範例的分數。

q 是「0」範例的分數。請注意，q = 1-p

例如，請思考下列資料集：

100 個標籤 (資料集中 0.25 個) 包含值「1」

300 個標籤 (資料集中 0.75 個) 包含值「0」

因此，Gin 的不完美之處如下：

p = 0.25

q = 0.75

I = 1 - (0.25² + 0.75²) = 0.375

因此，來自相同資料集的隨機標籤有 37.5% 的機率被分類錯誤，而正確分類的可能性為 62.5%。

完美平衡的標籤 (例如 200「0」和 200「1」) 的 gini 效果並非 0.5。高度「不平衡」標籤的吉尼誤差會接近 0.0。

黃金資料集

一組手動收錄的資料，用於擷取真值。團隊可以使用一或多個黃金資料集來評估模型品質。

有些黃金資料集會擷取不同的基準真相。例如，圖片分類的黃金資料集可能會擷取光照條件和圖片解析度。

GPT (生成式預先訓練 Transformer)

#language

由 OpenAI 開發的大型語言模型系列。這是以 Transformer 為基礎的大型語言模型系列。

GPT 變化版本可適用於多種模式，包括：

圖像生成 (例如 ImageGPT)

生成文字轉圖片 (例如 DALL-E)

gradient

部分導數的向量與所有自變數。在機器學習中，梯度是模型函數部分導數的向量最陡坡方向的漸層點。

梯度累積

一種反向傳播技術，可更新參數每個週期一次，而非每次疊代一次。處理每個迷你批次後，梯度累積只會更新梯度的執行總數。接著，系統處理該週期中的最後一個迷你批次後，最後會根據所有梯度變更的總數更新參數。

如果批次大小與訓練可用的記憶體量相比非常龐大，依據梯度累計資料會很實用。當記憶體有問題時，自然傾向於縮減批次大小。不過，在一般反向傳播中減少批次大小，會增加參數更新的次數。梯度累積功能可讓模型避免記憶體問題，但仍能有效率地訓練。

梯度提升 (決策) 樹 (GBT)

#df

一種決策樹系，其中：

訓練需要使用梯度增強。

弱模型是一種決策樹。

梯度提升

#df

一種訓練演算法，其中經過微調的模型經過訓練，可反覆提升高強度模型的品質 (減少損失)。舉例來說，弱的模型可以是線性或小型的決策樹模型。高強度模型會成為先前訓練所有低強度模型的總和。

在最簡單的梯度增強中，每次疊代時，都會訓練出弱的模型，藉此預測高強度模型的損失梯度。接著，減去預測的漸層，即可更新強大模型的輸出內容，類似「梯度下降法」。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中：

$F_{0}$ 是初始的強大模式。

$F_{i+1}$ 是下一個功能強大的模型，

$F_{i}$ 是目前強大的模型。

$\xi$ 是介於 0.0 和 1.0 之間的值，稱為「縮減」，類似梯度下降法中的學習率。

$f_{i}$ 是經過訓練的弱模型，可用來預測 $F_{i}$ 的損失梯度。

現代化的梯度增強變化版本也包括運算中損失的第二個衍生字 (海斯安)。

決策樹常做為梯度增強中的弱模型使用。請參閱梯度增強 (決策) 樹狀結構。

漸層裁剪

#seq

使用梯度下降法來訓練模型時，可人為限制 (縮小) 漸層的最大值，藉此降低爆炸梯度問題的常用機制。

梯度下降法

#fundamentals

盡可能減少損失的數學技巧。梯度下降法會反覆調整「權重」和「偏誤」，並逐步找出最佳組合，盡可能減少損失。

梯度下降法比機器學習更舊，比機器學習更舊。

圖表

#TensorFlow

TensorFlow 的運算規格圖形中的節點代表作業。邊緣會指示並代表將運算結果 (Tensor) 做為運算元傳遞至其他運算。使用 TensorBoard 以視覺化方式呈現圖表。

Graph Execution

#TensorFlow

程式首次建構圖表，然後執行該圖形的所有或部分內容的 TensorFlow 程式設計環境。圖表執行是 TensorFlow 1.x 的預設執行模式。

與執行式執行相比。

貪婪政策

#rl

在強化學習中，政策一律會自動選擇預期最高的退貨動作。

基準真相

#fundamentals

。

實際發生的情形。

例如，假設有一個二元分類模型，此模型可預測一名學生會在六年內畢業。這個模型的真值是學生是否在六年內實際畢業。

按一下圖示即可查看其他附註。

我們會依據真值評估模型品質。但真值不一定完全正確舉例來說，您可以考慮以下示例，瞭解真值中可能存在的瑕疵：

在畢業範例中，我們「確定」每位學生的畢業記錄一律正確無誤嗎？大學的記錄保存工作完美嗎？

假設標籤是工具 (例如氣壓計) 測量的浮點值。我們如何確保每種工具都進行相同的校正，或每次讀數都是在相同情況下取得？

如果標籤涉及人為判斷，如何才能確保每位評分者以相同的方式評估事件？為提高一致性，「專家」有時會介入評估人員。

團體歸因偏誤

#fairness

假設個人對某個人而言也是如此，對該組中的所有人也是如此。如果使用便利的取樣功能收集資料，可能會加大群組歸因偏誤的影響。在無代表性的樣本中，屬性可能會無法反映實際情況。

另請參閱外部團體同質性偏誤和群組內偏誤。

H

幻覺

#language

產生的生成式 AI 模型看似合理，但輸出的內容卻與事實不符，意圖為真實世界做出判讀。舉例來說，生成式 AI 模型聲稱歐巴馬在 1865 年去世了。

雜湊

在機器學習中，一種針對類別型資料進行分組的機制，尤其是類別數量龐大時，實際上出現在資料集中的類別數量相對較小。

舉例來說，地球是大約 73,000 種樹種的家園。您可以在 73,000 個不同的類別值區中，分別代表 73,000 種樹木。或者，如果資料集中只有 200 種樹種，您可以使用雜湊功能將樹種分成約 500 個值區。

一個值區可以包含多個樹種。舉例來說，雜湊可以將「baobab」和「紅色 Maple」(兩個在主體上不相異的規格) 放到同一個值區中。無論如何，雜湊仍是將大型類別集對應至所選值區數的好方法。雜湊功能會以確定性的方式將值分組，藉此將含有大量可能值的類別特徵轉換為數量較少的值。

經驗法則

以簡單快速的方式解決問題。例如：「採用經驗法則，我們達到 86% 的準確率。改用深層類神經網路後，準確率高達 98%。」

隱藏層

#fundamentals

輸入層 (特徵) 和輸出層 (預測) 之間的「神經網路」層。每個隱藏層都含有一或多個「神經元」。舉例來說，下列類神經網路包含兩個隱藏層，第一個包含三個神經元，第二個包含兩個神經元：

「深層類神經網路」包含多個隱藏層。舉例來說，上圖是深層類神經網路，因為模型含有兩個隱藏層。

階層分群

#clustering

一種建立叢集樹狀結構的「叢集處理」演算法。階層分群法非常適合階層式資料，例如植物分類。階層分群演算法分為兩種類型：

聚合式分群法會先將每個範例指派至其專屬叢集，並反覆合併最近的叢集，以建立階層式樹狀結構。

多元分群法會先將所有範例分成一個叢集，然後反覆將叢集分割為階層式樹狀結構。

與群集型分群法的對比。

轉軸損失

這個損失函式系列用於分類，目的是盡可能從每個訓練範例中找出決策界線，以便將範例與邊界之間的邊界最大化。KSVM 使用轉軸損失或相關函式，例如方形轉軸損失。以二元分類來說，轉軸損失函式的定義如下：

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 為實際標籤 (-1 或 +1)，而 y' 是分類器模型的原始輸出內容：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此，轉軸損失與 (y * y') 的走勢圖如下所示：

歷史偏見

#fairness

世界上已存在的一種偏誤，且已將其轉為資料集。這些偏誤往往會反映現有的文化刻板印象、客層不平等和針對特定社會族群的偏見。

舉例來說，考慮使用分類模型來預測貸款申請者是否預設貸款申請金額，這個模型是根據當地銀行在兩個不同社區提供的 1980 年代歷史貸款預設資料訓練而成。假如社群 A 的過往申請人貸款預借金額的可能性高出社群 B 的申請者的六倍，模型可能會學到過去的偏誤，導致模型在社群 A 中貸款的可能性較低，即使過去導致該社區的預設費率不再相關也是如此。

保留資料

訓練期間刻意不使用 (「保留」) 的範例。 驗證資料集和測試資料集是保留資料的範例。保留資料有助於評估模型對資料進行一般化的能力，但不包括訓練時用於訓練的資料。保留集的損失比訓練集的損失更準確地預估了未知資料集的損失。

主辦方

#TensorFlow

#GoogleCloud

利用加速器晶片 (GPU 或 TPU) 訓練機器學習模型時，系統是由系統負責控管以下項目的部分：

程式碼的整體流程。

輸入管道的擷取及轉換。

主機一般是在 CPU 上執行，而非在加速晶片上執行；裝置會操控加速器晶片上的張量。

超參數

#fundamentals

您或超參數調整服務會在模型連續執行期間調整。舉例來說，「學習率」是超參數。您可以在一次訓練課程之前，將學習率設為 0.01。如果您發現 0.01 過高，可以為下一個訓練課程將學習率設為 0.003。

相反地，「參數」是指模型在訓練期間學習的各種權重和偏誤。

超平面

將空格分隔成兩個子空格的界線。舉例來說，線是有兩個維度的超平面，而平面是三個維度的超平面圖。通常在機器學習中，超平面是分隔高維度空間的界線。核心支援向量機器會使用超平面將正類別與負類別隔開，且通常在極高維度中。

I

i.i.d.

獨立且均勻分佈的縮寫，

圖片辨識

#image

分類圖片中物件、圖案或概念的程序。圖片辨識也稱為「圖片分類」。

詳情請參閱「機器學習實務：圖片分類」。

不平衡資料集

class-imbalanced 資料集的同義詞。

隱性偏誤

#fairness

根據一種心智模型和記憶自動建立關聯或假設隱性偏誤可能會影響下列事項：

資料的收集和分類方式。

機器學習系統的設計與開發方式。

舉例來說，工程師在建立用來識別婚禮相片的分類器時，可能會將相片中的白色洋裝視為地圖項目。然而，只有特定年代和屬於某些文化的白洋裝才有客製化。

另請參閱「確認偏誤」。

插補

短形式的值計算。

公平性指標不相容

#fairness

某些公平性的概念互不相容，無法同時滿足。因此，沒有任何一個通用指標可用來量化公平性可套用至所有機器學習問題。

雖然這可能令人感到不快，但對公平性指標不相容，並不表示公平性工作所費不貲。相反的，這意味著必須針對特定機器學習問題，定義公平性，以防止其特定用途受到危害。

如要進一步瞭解這個主題，請參閱「對於公平性 (不可能的)」。

情境學習

#language

#生成式 AI

少量樣本提示的同義詞。

獨立且均勻分佈 (i.i.d)

#fundamentals

從不變的分佈情形取得的資料，且繪製的每個值都不取決於先前繪製的值。i.i.d. 是機器學習的「理想氣體」，是一種實用的數學結構，但在現實生活中幾乎完全找不到。例如，網頁訪客的分佈情形可能在短時間內以 i.d.d. 表示，也就是說，在該段短暫的時間內，分佈不會改變，而且一位使用者的造訪通常與另一個人的造訪無關。然而，如果您延長該時間範圍，網頁訪客可能會出現季節性差異。

另請參閱非期待性。

個人公平性

#fairness

檢查類似個人是否屬於類似分類的公平性指標。舉例來說，Brabdingnagian Academy 可能想確保兩名成績相同和標準化測驗成績相同的學生都能獲得入學權，以滿足個別公平性的需求。

請注意，個別公平性完全取決於定義「相似度」(在本範例中為成績與測驗分數) 的方式。如果您發現相似度指標缺少重要資訊 (例如學生課程的嚴格標準)，則可能會發生新的公平性問題。

如要深入瞭解個別公平性，請參閱「透過感知公平性」。

推論

#fundamentals

在機器學習中，將經過訓練的模型套用至未加上標籤的範例以進行預測的程序。

在統計資料中，「推論」的含意略有不同。詳情請參閱 Wikipedia 統計推論文章。

推論路徑

#df

在「決策樹」中，在推論期間，特定範例會從「根」到其他條件，以分葉終止。舉例來說，下列決策樹狀圖中，粗箭頭代表具有下列特徵值的範例的推論路徑：

x = 7

y = 12

z = -3

下圖中的推論路徑會先經歷三個條件，然後才到達葉子 (Zeta)。

三個粗箭頭顯示推論路徑。

獲取資訊

#df

在「決策樹系」中，節點的熵與其子項節點熵量的加權 (按樣本數) 之間的差異。節點的熵是該節點中範例的熵。

以以下熵值為例：

父項節點的熵 = 0.6

具有 16 個相關範例的單一子節點熵 = 0.2

含有 24 個相關範例 = 0.1 的另一個子節點

因此，其中 40% 的範例位於一個子節點，60% 則位於另一個子節點內。因此：

子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此，資訊吸收的價值是：

資訊增益 = 父項節點的熵 - 子節點的加權熵總和

資訊增益 = 0.6 - 0.14 = 0.46

大多數「分割器」都希望建立能最大化資訊獲取的條件。

團體內偏誤

#fairness

展現特定群組或自己特徵的部分性。如果測試人員或評分者包含機器學習開發人員的朋友、家人或同事，則群組內偏誤可能會導致產品測試或資料集失效。

群組內偏誤是「團體歸因偏誤」的一種形式。另請參閱外部團體同質性偏誤。

輸入產生器

將資料載入「類神經網路」的機制。

您可以將輸入產生器視為一個元件，負責將原始資料處理成張量，然後疊代以產生訓練、評估和推論的批次作業。

輸入層

#fundamentals

存放特徵向量的類神經網路的層。也就是說，輸入層提供訓練或推論的範例。例如，下列類神經網路的輸入層包含兩個功能：

設定條件

#df

在「決策樹」中，可測試一組項目中某個項目的條件。舉例來說，以下是插邊條件：

house-style in [tudor, colonial, cape]

在推論期間，如果房屋樣式特徵的值為 tudor、colonial 或 cape，則這項條件會評估為「是」。如果房屋風格特徵的值與其他值不同 (例如 ranch)，則這個條件評估為「否」。

與測試 one-hot 編碼功能的條件相比，設定條件通常會使決策樹更有效率。

執行個體

example 的同義詞。

指導微調

#生成式 AI

這是一種微調形式，可改善生成式 AI 模型依循指示的能力。如要調整指示，使用一系列指示提示訓練模型，通常涵蓋各種工作。這樣一來，經過調整的指令調整模型就會針對各種任務，對零樣本提示產生有用的回應。

比較各項目：

高效參數調整

提示調整

可解釋性

#fundamentals

能向真人說明或呈現機器學習「模型」推理的能力。

例如，大多數線性迴歸模型都很高可解釋。(您只需查看每個特徵的訓練權重)。決策樹也具有高度可解釋性。但有些模型需要複雜的視覺化呈現才能可解釋。

您可以使用學習可解釋性工具 (LIT) 來解讀機器學習模型。

資料標註者協議

評估人員在執行工作時的同意頻率。如果評分者不同意，工作指示可能需要改善。有時也稱為「跨註解者協議」或「跨費率器可靠性」。另請參閱 Cohen 的 kappa，這是最熱門的跨心率評估評估方法之一。

聯集 (IoU) 交集

#image

兩組集合的交集除以聯集。在機器學習圖片偵測工作中，IoU 是用來測量模型預測定界框在真值定界框方面的準確率。在本例中，兩個方塊的 IoU 是重疊區域與總面積之間的比率，值範圍從 0 (不重疊預測定界框和真值定界框) 到 1 (預測定界框和真值定界框的座標相同)。

例如，如下圖所示：

紫色的定界框 (模型預測畫中夜表位置的座標界限) 以紫色外框。

真值定界框 (畫作中夜間資料表實際所在位置的座標) 會以綠色框住。

此處的預測與真值定界框的交集 (左下方) 為 1，而用於預測和真值的定界框聯集 (右下方) 為 7，因此 IoU 為 $\frac{1}{7}$。

IoU

聯集和聯集的縮寫。

項目矩陣

#recsystems

在建議系統中，這是由矩陣分解產生的嵌入向量矩陣，其中包含各項目的潛在信號。項目矩陣的每一列都含有所有項目的單一潛在特徵值。以電影推薦系統為例，項目矩陣中的每個資料欄都代表一部電影。潛在信號可能代表類型，或可能難以理解，涉及類型、星星、電影年齡或其他因素之間的複雜互動。

範例的實際值	模型的預測值	Delta 的絕對值
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
	8 = 損失 ₁

範例的實際值	模型的預測值	差異遷移廣場
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
	16 = 損失₂

臥室數量	浴室數量	房屋年齡	房屋價格 (標籤)
3	2	15	$345,000 美元
2	1	72	$179,000 美元
4	2	34	$392,000 美元

項目矩陣的欄數與要分解的目標矩陣相同。舉例來說，假設電影推薦系統可評估 1 萬部電影標題，項目矩陣就會有 10,000 個資料欄。

items

#recsystems

在建議系統中，系統建議的實體。舉例來說，影片是影片商店推薦的項目，書籍則是書店推薦的商品。

疊代

#fundamentals

在訓練期間更新模型參數 (模型的權重和偏誤) 的單次更新。批次大小會決定模型在單一疊代中處理的範例數量。舉例來說，如果批量為 20，則模型會先處理 20 個範例，再調整參數。

訓練類神經網路時，單一疊代作業涉及下列兩項傳遞：

評估單一批次損失的前向傳遞。

反向傳遞 (反向傳播)，用於根據損失和學習率調整模型的參數。

J

JAX

陣列運算程式庫，結合 XLA (加速線性代數) 與自動差異化功能，適合高效能數字運算。JAX 提供簡單且強大的 API，可透過可組合項轉換編寫加速數值程式碼。JAX 提供以下功能：

grad (自動差異化)

jit (及時編譯)

vmap (自動向量化或批次處理)

pmap (平行處理)

JAX 是一種語言，用於表達和撰寫數字代碼類似但範圍更大的轉換作業，並編譯至 Python 的 NumPy 程式庫。(事實上，JAX 底下的 .numpy 程式庫是功能相等，但完全重新編寫的 Python NumPy 程式庫版本)。

JAX 特別適合用於加速許多機器學習工作，方法是將模型和資料轉換為適用於 GPU 和 TPU 加速晶片的平行處理格式。

Flax、Optax、Pax 等許多程式庫都是以 JAX 基礎架構建構而成。

K

Keras

這個熱門的 Python 機器學習 API。Keras 會在幾種深度學習架構上執行，包括 TensorFlow，這些架構是以 tf.keras 的形式提供。

核心支援向量機 (KSVM)

將輸入資料向量對應至較高維度空間，藉此將「正面」和「負類別」之間的利潤最大化。舉例來說，假設有一個分類問題，輸入資料集具有數百個特徵。為了盡可能提高正向與負類別之間的邊界，KSVM 可以在內部將這些特徵對應到百萬維度空間。KSVM 會使用稱為「轉軸損失」的損失函式。

關鍵點

#image

圖片中特定地圖項目的座標。舉例來說，在區分花種的圖片辨識模型中，關鍵點可能是每個花瓣、莖和護腳等。

k-fold Cross 驗證

一種演算法，可預測模型對新資料「一般化」的能力。k-fold 中的 k 是指您將資料集樣本分為的相等群組數，也就是訓練和測試模型 k 次數。在每次的訓練和測試程序中，不同的群組為測試集，而所有其他群組都會成為訓練集。經過 K 輪的訓練和測試後，您將計算所選測試指標的平均值和標準差。

舉例來說，假設資料集包含 120 個範例。此外，您決定將 k 設為 4。因此，重新排列範例後，會將資料集分為四個等分的 30 個範例群組，並執行四個訓練/測試輪次：

舉例來說，均方誤差 (MSE) 是線性迴歸模型最有意義的指標。因此，您可以找出四輪中 MSE 的平均值和標準差。

k-means

#clustering

一種熱門的「分群法」演算法，可將非監督式學習中的範例分組。k-means 演算法基本上可以執行下列作業：

疊代決定最佳的 k 中心點 (稱為「集心」)。

將每個範例指派給最接近的群集中心。那些最靠近相同質心的範例都屬於同一個群組。

k-means 演算法會挑選質心位置，將每個範例的距離累計「平方」降到最低。

例如，請思考以下圖中狗的身高到狗寬度的圖：

如果 k=3，則 k-means 演算法會決定三個質心。每個範例都被分配到最接近的群集中心，產生三個群組：

假設製造商想決定小型、中型和大型毛衣的理想尺寸。三個群集中心可識別叢集中每隻狗的平均高度和平均寬度。因此，製造商應該將毛衣大小放在這三個核心肌群上。請注意，叢集的群集通常「不是」叢集中的一個範例。

上圖以 k-means 為例，範例只有兩個特徵 (高度和寬度)。請注意，k-means 可將多個特徵的範例分組。

K 中位數

#clustering

與 k-means 密切相關的分群演算法。兩者的實際差異如下：

以 k-means 來說，質心是由降低集群候選者及其各樣本之間距離的平方總和，從而得出。

在 K-中位數中，群眾特徵的判斷依據，是盡可能降低群集候選者與其各樣本之間的距離總和。

請注意，距離的定義也不同：

k-means 依賴子中心和範例之間的歐幾里德距離。(在兩個維度中，歐幾里德距離意味著使用畢氏定理來計算假定。)例如 (2,2) 與 (5,-2) 之間的 k-means 距離：

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median 依賴於群集中心之間的曼哈頓距離。這個距離是每個維度的絕對差異值總和。例如 (2,2) 和 (5,-2) 之間的 k-median 距離：

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ 正則化

#fundamentals

這是一種正則化類型，系統會針對模型中非零權重的「總數」懲罰。例如，相較於擁有 10 個非零權重的類似模型，如果模型的權重為 11 個，則受到懲罰。

L₀ 正則化有時稱為 L0 正規化。

按一下圖示即可查看其他附註。

在大型模型中，L₀ 正則化通常不是實際的做法，因為 L₀ 正則化會讓訓練變為 convex 最佳化問題。

L₁ 損失

#fundamentals

損失函式，用於計算實際標籤值與模型預測值之間的差異的絕對值。比方說，以下是五個範例批次的 L₁ 損失計算：

範例的實際值模型的預測值 Delta 的絕對值

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = 損失 ₁

與 L₂ 損失相比，L₁ 遺失對離群值的敏感度較低。

平均絕對錯誤是指每個範例的平均 L₁ 損失。

按一下圖示即可查看正式數學。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$
其中：

$n$ 是範例的數量。

$y$ 是標籤的實際值。

模型預測 $y$ 的值為 $\hat{y}$。

L₁ 正則化

#fundamentals

一種正則，會根據權重絕對值的總和懲罰權重。L₁ 正則化有助於將不相關或幾乎不相關特徵的權重提升至剛好 0。權重為 0 的特徵會從模型中有效移除。

與 L₂ 正則化對比。

L₂ 損失

#fundamentals

損失函式，用於計算實際標籤值與模型預測值之間的差異平方。比方說，以下是五個範例的批次損失 L₂ 損失計算：

範例的實際值模型的預測值差異遷移廣場

7 6 1

5 4 1

8 11 9

4 6 4

9 8 1

16 = 損失₂

由於具有正方形，L₂ 損失會增強離群值的影響。也就是說，相較於 L₁ 的損失，L₂ 損失對不良預測的回應更為強烈。舉例來說，上述批次的 L₁ 損失會是 8，而不是 16。請注意，16 的 9 個離群值會歸 9 個。

迴歸模型通常會使用 L₂ 損失做為損失函式。

Mean Squared Error 是每個範例的平均 L₂ 損失。「平方損失」是 L₂ 損失的另一個名稱。

按一下圖示即可查看正式數學。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$
其中：

$n$ 是範例的數量。

$y$ 是標籤的實際值。

模型預測 $y$ 的值為 $\hat{y}$。

L₂ 正則化

#fundamentals

這是一種正則化，會依據權重的正方形總和，按比例計算權重。L₂ 正則化可協助使「離群值」權重 (高值或低負值的值) 提升至接近 0 但「不大到 0」。值非常接近 0 的特徵會保留在模型中，但不會影響模型的預測結果。

L₂ 正則化一律會改善線性模型的一般化作業。

與 L₁ 正則化對比。

標籤

#fundamentals

在監督式機器學習中，範例的「答案」或「結果」部分。

每個已加上標籤的範例都含有一或多個地圖項目和一個標籤。舉例來說，在垃圾內容偵測資料集中，標籤可能為「垃圾內容」或「非垃圾內容」。在雨滴資料集中，標籤可能是特定期間下降的降雨量。

有標籤樣本

#fundamentals

包含一或多個地圖項目和標籤的範例。舉例來說，下表顯示房屋估值模型的三個已加上標籤範例，每個示例都有三個特徵和一個標籤：

臥室數量浴室數量房屋年齡房屋價格 (標籤)

3 2 15 $345,000 美元

2 1 72 $179,000 美元

4 2 34 $392,000 美元

在監督式機器學習中，模型會根據加上標籤的範例進行訓練，並針對未加上標籤的範例進行預測。

對比有未加上標籤的範例的對比標籤。

標籤外洩

模型設計瑕疵，「特徵」是標籤的 Proxy。舉例來說，假設有一個二元分類模型來預測潛在客戶是否會購買特定產品。假設模型的其中一項特徵是名為 SpokeToCustomerAgent 的布林值。再假設，只有在潛在客戶實際購買產品「之後」，才分配到客戶代理。在訓練期間，模型將快速瞭解 SpokeToCustomerAgent 和標籤之間的關聯。

lambda

#fundamentals

正規化率的同義詞。

Lambda 是一個超載的字詞。本文將著重說明正規化中字詞的定義。

LaMDA (對話應用程式的語言模型)

#language

這是以轉換器為基礎的大型語言模型。由 Google 開發，使用大型對話資料集訓練而成，可產生逼真的對話回應。

LaMDA：我們的突破性對話技術提供了總覽。

地標

#image

鍵點的同義詞。

語言模型

#language

一種「模型」model，用於估算在較長的符記序列中，某個model或符記序列的機率。

按一下圖示即可查看其他附註。

雖然直觀，許多評估文字的模型並非語言模型。舉例來說，文字分類模型和情緒分析模型不是語言模型。

大型語言模型

#language

沒有嚴格定義的非正式字詞，通常是指具有大量參數的語言模型。某些大型語言模型包含超過 1,000 億個參數。

按一下圖示即可查看其他附註。

您可能會好奇，當「語言模型」變得夠大，進而構成「大型語言模型」。目前，我們沒有協議界定參數的數量。

目前大多數的大型語言模型 (例如 GPT) 都是以 Transformer 架構為基礎。

潛在空間

#language

嵌入空間的同義詞。

圖層

#fundamentals

類神經網路中的一組「神經元」。有三種常見的圖層類型如下：

「輸入層」：提供所有「特徵」的值。

一或多個「隱藏層」，用於找出地圖項目和標籤之間的非線性關係。

提供預測的輸出層。

例如，下圖顯示一個具有一個輸入層、兩個隱藏層和一個輸出層的類神經網路：

在 TensorFlow 中，層屬於 Python 函式，可將 Tensor 和設定選項做為輸入內容，並產生其他張量做為輸出內容。

圖層 API (tf.layers)

#TensorFlow

這個 TensorFlow API，可將「深」類神經網路做為層組合來建構。Layers API 可讓您建構不同類型的圖層，例如：

tf.layers.Dense：完整連結層。

卷積層的 tf.layers.Conv2D。

Layers API 遵循 Keras 層 API 慣例。也就是說，除了不同的前置字串，Layers API 中所有函式的名稱和簽名，與 Keras 層 API 中的對應項目相同。

葉子

#df

決策樹中的任何端點。有別於條件，分葉不會執行測試。事實上，葉子是可能的預測結果。分葉也是推論路徑的終端機節點。

例如，下列決策樹含有三個葉子：

學習技術可解釋性工具 (LIT)

一種視覺化、互動式模型理解與資料視覺化工具。

您可以使用開放原始碼 LIT 來解讀模型，或以視覺化方式呈現文字、圖片和表格資料。

學習率

#fundamentals

這個浮點數告知「梯度下降法」演算法在每次疊代時，調整權重和偏誤的程度。舉例來說，如果學習率為 0.3，則權重和偏誤的調整效果會比學習率 0.1 高出三倍。

學習率是重要的超參數。如果您設定的學習率過低，訓練時間就會太長。如果您設定的學習率過高，梯度下降法通常無法順利達到「收斂」。

按一下圖示即可查看更多數學說明。

在每次疊代時，梯度下降法演算法會按梯度乘以學習率。最終產生的產品稱為漸層步驟。

最小平方迴歸

透過將 L₂ 損失次數降到最低訓練的線性迴歸模型。

線性

#fundamentals

兩個或多個變數之間的關係，這些變數僅可透過加法和乘法來表示。

線性關係圖是以線條表示。

與非線性對比。

線性模型

#fundamentals

一種model，會為每個model指派一個權重，以進行model。(線性模型也包含偏誤)。相較之下，「深層模型」中特徵與預測的關係通常為「非線性」。

線性模型通常訓練容易，且比深度模型更可解釋。但是，深度模型可以學習特徵「之間的」複雜關係。

線性迴歸和邏輯迴歸是兩種線性模型。

按一下圖示即可查看計算結果。

線性模式遵循以下公式：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$
其中：

y' 為原始預測結果(在特定類型的線性模型中，這項原始預測會進一步修改。例如，請參閱邏輯迴歸)。

b 是偏見。

w 是「權重」，因此 w₁ 是第一個特徵的權重，₂ 是第二個特徵的權重，依此類推。

x 是特徵，因此 x₁ 是第一個特徵的值，x₂ 則是第二個特徵的值，依此類推。

舉例來說，假設三個特徵的線性模型將學習以下偏誤和權重：

b = 7

W₁ = -2.5

w₂ = -1.2

w₃ = 1.4

因此，在提供三個特徵 (x₁、x₂ 和 x₃) 的情況下，線性模型會使用下列方程式產生各項預測結果：
y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)
假設某個特定範例包含以下值：

x₁ = 4

x₂ = -10

x₃ = 5

將這些值填入公式後，系統就會在此範例中產生預測結果：
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5) y' = 16

線性模型不僅包含僅使用線性方程式進行預測的模型，也包含更廣泛的模型組合，只使用線性方程式做為進行預測的公式元件之一。舉例來說，邏輯迴歸會後處理原始預測 (y')，以產生介於 0 和 1 之間的最終預測值 (不含 0 和 1)。

線性迴歸

#fundamentals

這種機器學習模型符合下列兩種條件：

模型為線性模型。

預測結果為浮點值。(這就是線性迴歸的迴歸部分)。

使用邏輯迴歸的對比線性迴歸。此外，使用分類時則適合使用迴歸。

LIT

學習可解釋性工具 (LIT) 的縮寫，舊稱為語言可解釋性工具。

LLM

#language

大型語言模型的縮寫。

邏輯迴歸

#fundamentals

用來預測機率的迴歸模型。邏輯迴歸模型具有下列特性：

這個標籤為類別。邏輯迴歸通常是指「二元邏輯迴歸」，也就是計算具有兩個可能值標籤的機率模型。較不常見的變體「多項式邏輯迴歸」則會針對具有超過兩個可能值的標籤計算機率。

訓練時的損失函式為記錄損失。 (如果標籤具有超過兩個可能值，則可平行放置多個記錄遺失單元)。

模型採用線性架構，而非深層類神經網路。不過，本定義的其餘部分也適用於預測類別標籤機率的深層模型。

舉例來說，您可以使用邏輯迴歸模型，計算輸入電子郵件為垃圾郵件或非垃圾郵件的機率。假設模型在推論期間預測為 0.72，因此，模型正在估算：

電子郵件被歸類為垃圾郵件的機率為 72%。

電子郵件非垃圾郵件的機率為 28%。

邏輯迴歸模型採用下列兩步驟架構：

模型會套用輸入特徵的線性函數，產生原始預測結果 (y)。

模型會將原始預測當做 sigmoid 函式的輸入內容，以便將原始預測結果轉換為 0 到 1 之間的值 (不含 0 和 1)。

如同任何迴歸模型，邏輯迴歸模型可預測數字。但是，這個數字通常會成為二元分類模型的一部分，如下所示：

如果預測數字大於分類門檻，二元分類模型會預測正類。

如果預測數字小於分類門檻，二元分類模型會預測負類別。

Logits

分類模型產生的原始 (非正規化) 預測向量，通常接著會傳遞至正規化函式。如果模型正在解決多元分類問題，Logits 通常會變成 softmax 函式的輸入內容。接著，softmax 函式會產生 (正規化) 機率向量，每個可能類別都有一個值。

對數損失

#fundamentals

用於二元邏輯迴歸的損失函式。

按一下圖示即可查看計算結果。

以下公式可計算對數損失：

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$
其中：

$(x,y)\in D$ 是包含許多有標籤樣本的資料集，也就是 $(x,y)$ 配對。

$y$ 是加上標籤的範例中的標籤。由於這是邏輯迴歸，因此 $y$ 的每個值都必須是 0 或 1。

根據 $x$中的特徵集， $y'$ 是預測值 (介於 0 到 1 之間，不含 0 到 1)。

對數勝算比

#fundamentals

部分事件機率的對數。

按一下圖示即可查看計算結果。

如果事件是二元機率，則「機率」是指成功機率 (p) 與失敗機率 (1-p) 的比率。舉例來說，假設特定事件的成功機率為 90%，失敗機率為 10%。在這種情況下，機率的計算方式如下：

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

對數等於是勝數的對數。按照慣例，「對數」是指自然對數，但對數實際上可以是大於 1 的任何底數。依照慣例，我們範例中的記錄機率為：

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

對數機率函式是 sigmoid 函式的相反詞。

長短期記憶 (LSTM)

#seq

循環類神經網路中的一種儲存格，用於處理應用程式中的一系列資料，例如手寫辨識、機器翻譯和圖片說明文字。LSTM 可根據 RNN 中前一個儲存格中的新輸入和背景資訊，在內部記憶體狀態中保留記錄，以解決長時間資料序列導致 RNN 產生的梯度問題。

LoRA

#language

#生成式 AI

低階適應性的縮寫。

損失

#fundamentals

在受監督模型的訓練期間，會測量模型的預測與標籤之間的距離。

損失函式會計算損失。

損失集結網站

一種機器學習演算法，可以結合多個模型的「預測」，並使用這些預測結果進行單一預測，進而改善模型的效能。因此，遺失匯總器可以降低預測的變異數，並提升預測的準確率。

損失曲線

#fundamentals

以「loss」(損失) 表示訓練疊代數量的函式。下圖顯示典型的損失曲線：

損失曲線可協助您判斷模型在「融合」或「過度配適」的時機。

損失曲線可繪製以下所有類型的損失：

訓練損失

驗證損失

測試損失

另請參閱一般化曲線。

損失函式

#fundamentals

在訓練或測試期間，這是可計算範例批次損失的數學函式。相較於產生錯誤預測的模型，損失函式會傳回預測良好模型的損失較低。

	卡薩布蘭加	費城的故事	黑豹	神力女超人	啦啦隊
使用者 1	5.0	3.0	0.0	2.0	0.0
使用者 2	4.0	0.0	0.0	1.0	5.0
使用者 3	3.0	1.0	4.0	5.0	0.0

範例的實際值	模型的預測值	損失 (實際與預測之間的差異)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
	8 = 損失 ₁

訓練的目的通常是盡量降低損失函式傳回的損失。

損失函式有很多種。針對您要建構的模型類型挑選合適的損失函式。例如：

L₂ 損失 (或 均方平方誤差) 是線性迴歸的損失函式。

Log Loss 是邏輯迴歸的損失函式。

損失表面

體重與損失的圖表。梯度下降法：用於找出損失表面達到本地最小值的權重。

低階適應性 (LoRA)

#language

#生成式 AI

一種用於執行可有效調整參數的演算法，可以微調部分大型語言模型參數的部分。LoRA 優點如下：

微調速度比需要微調模型「所有」參數的技術更快。

降低微調模型中的推論運算成本。

透過 LoRA 調整的模型會維持或提升預測品質。

LoRA 支援單一模型的多個專屬版本。

LSTM

#seq

長短期記憶的縮寫。

M

機器學習

#fundamentals

從輸入資料「訓練」模型的程式或系統。經過訓練的模型可根據用於訓練模型的分佈情形，從新的 (未曾見過) 的新資料產生實用的預測結果。

機器學習也是指研究這些程式或系統的研究領域

多數類別

#fundamentals

「class-imbalanced 資料集」中較常見的標籤。例如，假設資料集包含 99% 的負標籤和 1% 的正標籤，負標籤是多數類別。

與少數類別的對比。

馬可夫決策程序 (MDP)

#rl

代表決策模型的圖表，其中經過決策 (或「動作」) 在假設 馬可夫屬性保有的情況下，瀏覽一系列的狀態。在強化學習中，這些狀態之間的轉換會傳回數值獎勵。

馬可夫屬性

#rl

某些環境的屬性，狀態轉換完全是由目前「狀態」和代理程式的「動作」中隱含的資訊決定。

遮蓋的語言模型

#language

一種「語言模型」，可預測候選符記在序列中填入空白的可能性。舉例來說，遮蓋的語言模型可以計算候選字詞的機率，取代下句中的底線：

帽子的 ____ 回來了。

文獻使用字串「MASK」，而不是底線。例如：

帽子的「MASK」回歸。

大多數新型遮蓋的語言模型都是雙向遮蓋語言。

matplotlib

開放原始碼 Python 2D 繪圖程式庫。matchartlib 以視覺化方式呈現機器學習的不同面向。

矩陣分解

#recsystems

在數學中，一種找出中點積近似目標矩陣的矩陣的機制。

在推薦系統中，目標矩陣通常會保留使用者對項目的評分。例如，電影推薦系統的目標矩陣可能如下所示，其中正整數是使用者評分，0 表示使用者未對電影評分：

卡薩布蘭加費城的故事黑豹神力女超人啦啦隊

使用者 1 5.0 3.0 0.0 2.0 0.0

使用者 2 4.0 0.0 0.0 1.0 5.0

使用者 3 3.0 1.0 4.0 5.0 0.0

電影推薦系統的目標是預測未分級電影的使用者評分。舉例來說，使用者 1 喜歡「黑豹」嗎？

推薦系統的一種方法是使用矩陣分解，產生下列兩個矩陣：

使用者矩陣，形狀為使用者人數 X 的嵌入維度數量。

項目矩陣，形狀為嵌入維度 X 項目數。

舉例來說，針對三名使用者和五個項目使用矩陣分解，就能產生下列使用者矩陣和項目矩陣：

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

使用者矩陣和項目矩陣的內積會產生建議矩陣，此矩陣不僅包含原始的使用者評分，還會針對每位使用者未看過的電影進行預測。舉例來說，假設使用者 1 的「Casablanca」評分為 5.0。與建議矩陣中該儲存格相對應的內積應該約在 5.0 左右，如下所示：

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是，使用者 1 是否喜歡「黑豹」？採用對應至第一列和第三欄的內積，會產生 4.3 的預測評分：

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩陣分解通常會產生使用者矩陣和項目矩陣，兩者相輔相成，會比目標矩陣更簡潔。

平均絕對錯誤 (MAE)

使用 L₁ 損失時，每個範例的平均損失。計算平均絕對誤差的方法如下：

計算批次的 L₁ 損失。

將 L₁ 損失除以批次中的樣本數量。

按一下圖示即可查看正式數學。

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 是範例的數量。

$y$ 是標籤的實際值。

模型預測 $y$ 的值為 $\hat{y}$。

舉例來說，您可以考慮計算以下五個例子中的 L₁ 損失：

範例的實際值模型的預測值損失 (實際與預測之間的差異)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = 損失 ₁

因此，L₁ 損失為 8，樣本數為 5。因此，平均絕對誤差為：

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

出現平均平方錯誤和根均方誤差的對比平均絕對錯誤。

實際值	模型的預測結果	損失	平方損失
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
	16 = 損失₂

平均平方錯誤 (MSE)

使用 L₂ 損失時，每個範例的平均損失。按照以下方式計算均方誤差：

計算批次的 L₂ 損失。

將 L₂ 損失除以批次中的樣本數量。

按一下圖示即可查看正式數學。

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ 其中：

$n$ 是範例的數量。

$y$ 是標籤的實際值。

$\hat{y}$ 是模型的 $y$ 預測。

例如，假設下列五個例子中的損失結果：

實際值模型的預測結果損失平方損失

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = 損失₂

因此，均方誤差為：

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

平均平方誤差是熱門的訓練最佳化工具，尤其是線性迴歸。

以平均絕對誤差和根平均平方錯誤的對比錯誤。

TensorFlow Playground 會使用平均平方誤差計算損失值。

按一下圖示即可查看離群值的詳細資訊。

離群值可大幅影響「均方誤差」。例如，損失 1 是平方損失為 1，但損失 3 代表平方損失 9。在上表中，範例會損失約 56% 的「平均平方錯誤」，而每個範例都會損失 1 個帳戶，但「平均平方誤差」僅佔 6%。

離群值不會影響平均絕對誤差，就如同平均平方誤差。舉例來說，損失 3 個帳戶最多只占平均絕對誤差的 38%。

裁剪是防止極端離群值破壞模型預測能力的方法。

網格

#TensorFlow

#GoogleCloud

在機器學習平行程式設計中，「指派資料和模型」至 TPU 晶片的詞彙，以及定義這些值的資料分割或複製方式。

網格是超載的詞彙，可能代表下列其中一項：

TPU 晶片的實體配置。

一種抽象邏輯結構，用於將資料和模型對應至 TPU 晶片。

不論是哪一種情況，網格都會指定為「形狀」。

中繼學習

#language

是機器學習技術的分支，可探索或改善機器學習演算法。中繼資料學習系統也可以用於訓練模型，以便從少量資料或先前工作中獲得的經驗，快速學習新工作。中繼學習演算法通常會嘗試達到以下目標：

改善或學習手動工程的功能 (例如初始化器或最佳化器)。

提高資料效率和運算效率。

提升一般化。

中繼學習與少量樣本學習有關。

指標

#TensorFlow

您重視的統計資料。

「目標」是機器學習系統會嘗試最佳化的指標。

Metrics API (tf.metrics)

用於評估模型的 TensorFlow API。舉例來說，tf.metrics.accuracy 會決定模型預測比對標籤的頻率。

迷你批次

#fundamentals

透過單一疊代處理的少量批次子集。迷你批次的「批次大小」通常介於 10 至 1,000 個範例之間。

舉例來說，假設整個訓練集 (完整批次) 包含 1,000 個範例。此外，假設您將每個迷你批次的「批次大小」設為 20。因此，每次疊代都會根據 1,000 個樣本中的 20 個隨機判定的損失，然後據此調整「權重」和「偏誤」。

相較於完整批次中所有樣本的損失，迷你批次計算損失的效率會更高。

迷你批次隨機梯度下降法

採用迷你批次的梯度下降法演算法。換句話說，迷你批次隨機梯度下降法會根據訓練資料的一小部分子集來估算梯度。一般隨機梯度下降法使用大小為 1 的迷你批次。

最小損失

生成對抗網路的損失函式，以產生資料與實際資料之間的交叉熵為基礎。

N	這類 N 元語法的名稱	示例
2	Biram 或 2 公克	去、吃午餐、吃晚餐
3	三角形或 3 公克	丟了太多葉子、三個盲滑鼠、鈴鐺
4	4 公克	公園裡的步道、風吹灰塵、男孩放著扁豆

country	向量
「丹麥」	1	0	0	0	0
「瑞典」	0	1	0	0	0
「挪威」	0	0	1	0	0
「芬蘭」	0	0	0	1	0
「冰島」	0	0	0	0	1

單一提示的組成部分	附註
`指定國家/地區的官方貨幣為何？`	您希望 LLM 回答的問題。
`法國：EUR`	我們來看個個例子
`印度：`	實際查詢。

「最低損失」在第一份文件中用於說明生成對抗網路。

少數類別

#fundamentals

不平衡資料集中的較不常見的標籤。舉例來說，假設資料集包含 99% 負標籤和 1% 陽性標籤，正面標籤是少數類別。

與主要類別的對比。

按一下圖示即可查看其他附註。

具有百萬個範例的訓練集聽起來令人驚豔。然而，如果少數類別的表示方式不足，即使是非常大型的訓練集，也可能不足。請著重介紹資料集中的樣本總數，並進一步瞭解少數類別中的範例數量。

如果資料集所包含的少數類別範例不足，請考慮使用向下取樣 (第二條目中的定義) 來補充少數類別。

機器學習

機器學習的縮寫，

MNIST

#image

由 LeCun、Cortes 和 Burge 編譯的公開領域資料集，內含 60,000 張圖片，每張圖片顯示了人類從 0 到 9 手動寫出特定數字的方式。每張圖片都會儲存為 28x28 整數陣列，其中每個整數都是介於 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集，通常用於測試新的機器學習方法。詳情請參閱手寫數字的 MNIST 資料庫。

形態

#language

概略資料類別。例如數字、文字、圖片、影片和音訊是五種不同的形式

model

#fundamentals

一般而言，任何處理輸入資料並傳回輸出內容的數學結構。詞組不同，模型是指系統進行預測所需的一組參數和結構。在監督式機器學習中，模型會使用範例做為輸入內容，並推論「預測結果」做為輸出內容。在監督式機器學習中模型略有不同例如：

線性迴歸模型包含一組權重和偏誤。

「類神經網路」模型包含：

一組隱藏層，每個圖層都包含一或多個神經元。

與各個神經元相關聯的權重和偏誤。

「決策樹」模型包含：

樹狀結構的形狀，也就是條件和葉子相互連接的模式。

條件和葉子。

您可以儲存、還原或複製模型。

非監督式機器學習也會產生模型，通常是可將輸入範例對應至最適當叢集的函式。

點選這個圖示，即可比較代數和程式設計函式與機器學習模型。

代數函式如下：

f(x, y) = 3x -5xy + y² + 17

上述函式會將輸入值 (x 和 y) 對應至輸出內容。

同樣地，類似下列的程式設計函式也是模型：

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

呼叫端會將引數傳遞給上述的 Python 函式，而 Python 函式會產生輸出 (透過 return 陳述式)。

雖然深層類神經網路的數學結構與代數或程式設計函式大不相同，但深層類神經網路仍會接受輸入內容 (例如一個範例) 並傳回輸出內容 (預測)。

真人程式設計師手動編寫程式設計函式。相反地，機器學習模型會在自動化訓練期間逐漸學習最佳參數。

模型容量

模型可學習的問題複雜度。模型可學習的問題越複雜，模型的容量就越高。模型的容量通常會隨著模型參數的數量而增加。如需分類器容量的實際定義，請參閱「VC 維度」。

系列模型

#生成式 AI

為特定推論查詢選擇理想model的系統。

假設一組模型，從非常大 (大量參數) 到小 (參數較少) 不等。相較於小型模型，極大型模型在推論時會耗用更多運算資源。不過，相較於小型模型，非常大型的模型通常能推論出更複雜的要求。串聯模型會決定推論查詢的複雜度，然後挑選適當的模型來執行推論。串聯模型的主要動機在於降低推論成本，方法是一般選取較小的模型，且只針對較複雜的查詢選擇較大的模型。

假設有一個小型模型在手機上執行，而該模型的較大版本於遠端伺服器上執行。良好的模型串聯功能可讓較小的模型處理簡單的要求，並僅呼叫遠端模型來處理複雜的要求，進而降低成本和延遲時間。

另請參閱模型路由器。

模型平行處理

#language

可將一個model的不同部分放置在不同的model上，進行大規模訓練或推論的一種方式。模型平行處理會啟用過大模型，而無法在單一裝置上顯示。

如要實作模型平行處理，系統通常會執行以下操作：

將模型分割為更小的部分。

將這些較小部分的訓練分散於多個處理器上。每個處理器都會訓練自己的模型部分。

合併結果以建立單一模型。

模型平行處理會降低訓練速度。

另請參閱資料平行處理。

模型路由器

#生成式 AI

用來決定model中model的理想model的演算法。模型路由器本身通常是機器學習模型，以循序漸進的方式學習如何根據輸入內容挑選最佳模型。不過，模型路由器有時可能是比較簡單的非機器學習演算法。

模型訓練

決定最佳model的程序。

累積熱度

複雜的梯度下降演算法，其中學習步驟不僅取決於目前步驟的導數，還取決於後到步驟前的步驟的導數。時效性涉及計算一段時間內的梯度移動平均值，類似物理趨勢。時時刻刻有時無法讓您學到困在當地 Minima 中的學習

多元分類

#fundamentals

在監督式學習中，「分類」問題，因為其中資料集包含超過兩個 類別的標籤。例如，Iris 資料集中的標籤必須是以下三個類別之一：

伊里斯馬索薩

伊利斯.維吉尼卡 (Iris virginica)

虹彩

以 Iris 資料集訓練而成的模型，會依據新的範例預測 Iris 類型，藉此執行多類別分類。

相對的，僅用來區分兩個類別的分類問題為「二元分類模型」。例如，預測「垃圾郵件」或「非垃圾郵件」的電子郵件模型就是二元分類模型。

在分群問題中，多類別分類是指超過兩個叢集。

多類別邏輯迴歸

在多元分類問題中使用邏輯迴歸。

多頭自我注意力

#language

自註意的擴充，可對輸入序列中的每個位置多次套用自我注意力機制。

Transformer 導入多頭自我注意力機制。

多模態模型

#language

輸入和/或輸出包含多個「形態」的模型。舉例來說，假設某個模型將圖片和文字說明文字 (兩種模式) 視為「特徵」，並會輸出分數來指出文字說明文字的正確程度。因此，這個模型的輸入內容屬於多模態，且輸出內容為單模。

多項式分類

多元分類的同義詞。

多項式迴歸

多類別邏輯迴歸的同義詞。

多工處理

一種機器學習技術，單一「模型」model經過訓練，可用於執行多項「工作」model。

如要建立多工模型，您必須根據個別工作適合的資料進行訓練。這可讓模型學習如何在工作之間共用資訊，協助模型更有效地學習。

由多項工作訓練的模型通常已提升一般化能力，且在處理不同類型的資料時也更具優勢。

N

NaN 陷阱

如果模型中的一個數字在訓練期間變成 NaN，導致模型中的許多或所有其他數字最終變成 NaN。

NaN 是「N」「N」的縮寫，

自然語言理解

#language

根據使用者輸入或說話的內容判斷使用者的意圖。舉例來說，搜尋引擎會使用自然語言理解技術，根據使用者的輸入或說話內容判斷要搜尋的內容。

負類

#fundamentals

在「二元分類」中，一個類別具有「陽性」，另一個類別則是「負面」。正類別是指模型正在測試的內容或事件，而負類別則是其他可能性。例如：

醫療檢測中的陰性類別可能為「非腫瘤」。

電子郵件分類器中的排除類別可能為「非垃圾郵件」。

與正向類別的對比。

負取樣

候選抽樣的同義詞。

類神經架構搜尋 (NAS)

自動設計類神經網路架構的技術。NAS 演算法可減少訓練類神經網路所需的時間和資源。

NAS 一般會使用：

搜尋空間，這是一組可能的架構。

健身功能，衡量特定架構在特定工作上的執行成效。

NAS 演算法通常會從少量的可能架構開始，並在演算法進一步瞭解哪種架構的效果時，會逐漸擴大搜尋空間。健身函式通常是以訓練集上的架構效能為基礎，且演算法通常是以強化學習技術進行訓練。

NAS 演算法經過實證，在各種任務中找出高效能架構，包括圖片分類、文字分類和機器翻譯。

輸出內容

#fundamentals

model包含至少一個model。「深層類神經網路」是一種類神經網路，其中包含多個隱藏層。例如，下圖顯示包含兩個隱藏層的深層類神經網路。

類神經網路中的每個神經元都會連線至下一層中的所有節點。例如，在上圖中，請注意第一個隱藏層中的三個神經元，分別連結至第二層隱藏層中的兩個神經元。

在電腦上實作的類神經網路有時也稱為「人工類神經網路」，用於區分這類網路與腦部和其他神經系統中找到的類神經網路。

部分類神經網路可能會模擬不同特徵和標籤之間的極複雜非線性關係。

另請參閱卷積類神經網路和循環類神經網路的相關說明。

神經元

#fundamentals

在機器學習中，是類神經網路「隱藏層」中的不同單位。每個神經元都會執行下列兩個步驟：

計算輸入值的「加權總和」，乘以相應權重。

將加權總和以輸入內容的形式傳送至啟用函式。

第一個隱藏層中的神經元，可接受來自「輸入層」的特徵值輸入。神經元中的神經元會在第一個隱藏層之後，接受來自先前隱藏層中神經元的輸入內容。例如，第二個隱藏層中的神經元會接受來自第一個隱藏層的神經元的輸入內容。

下圖醒目顯示兩個神經元及其輸入內容。

類神經網路中的神經元會模仿神經元在大腦和其他神經系統部分的行為。

N 克

#seq

#language

N 個字詞的排序序列。例如，「truly madly」是 2 公克由於順序相關，因此「必須真正」與「完全瘋狂」不同的 2 元語法。

N 這類 N 元語法的名稱示例

2 Biram 或 2 公克 去、吃午餐、吃晚餐

3 三角形或 3 公克 丟了太多葉子、三個盲滑鼠、鈴鐺

4 4 公克 公園裡的步道、風吹灰塵、男孩放著扁豆

許多自然語言理解模型仰賴 N 元語法預測使用者會輸入或說的下一個字詞。例如，假設使用者輸入「three blind」。以三元為基礎的 NLU 模型可能會預測使用者接下來會類型為 mice。

與「詞袋」的 N 語法對比，字詞組合未排序。

自然語言理解

#language

自然語言理解的縮寫。

節點 (決策樹)

#df

在「決策樹」中，任何「條件」或「分葉」。

節點 (類神經網路)

#fundamentals

隱藏層中的神經元。

節點 (TensorFlow 圖形)

#TensorFlow

TensorFlow 圖表中的運算。

雜訊

普遍來說，任何遮蔽資料集信號的內容。您可以透過多種方式在資料中導入雜訊。例如：

評估人員在加上標籤時會出錯。

人類和工具記錄錯誤或省略特徵值。

非二元條件

#df

條件包含超過兩個可能結果。舉例來說，下列非二進位條件包含三個可能的結果：

非線性

#fundamentals

兩個以上的變數之間的關係，這些變數無法僅透過加法和乘法表示。線性關係可用線表示；「非線性」關係無法用線表示。舉例來說，假設有兩個模型，每個模型都與單一特徵相關聯。左側模型為線性，但右側模型為非線性：

非回應偏誤

#fairness

請參閱選擇偏誤。

非穩定性

#fundamentals

這類特徵的值會隨著一或多個維度改變，通常是時間。例如，請考慮下列非持久性的例子：

特定商店的泳裝數量會因季節而異。

在特定地區，特定區域的採集數量在大部分時期為零，但這個飲水量在短期內會很大。

每年平均溫度因氣候變遷而持續改變。

與stationarity 相反。

正規化

#fundamentals

大致來說，這個程序會將變數的實際值範圍轉換為標準值範圍，例如：

-1 到 +1

0 至 1

常態分佈

舉例來說，假設某項特徵的值實際範圍是 800 到 2,400，做為特徵工程的一部分，您可以將實際值正規化為標準範圍，例如 -1 至 +1。

正規化是特徵工程的常見工作。如果「特徵向量」中的每個數值特徵大致相同範圍，模型的訓練速度就會更快 (並產生更好的預測結果)。

新奇偵測

判斷新 (小說) 範例是否來自與「訓練集」相同的發行版本的程序。換句話說，在訓練集上完成訓練後，新的偵測作業可判斷新範例 (在推論期間或額外訓練期間) 是否為「異常值」。

與離群值偵測比較。

數值資料

#fundamentals

特徵以整數或實值數字表示。舉例來說，房屋估值模型可能以數值資料形式呈現房屋大小 (單位為平方英尺或平方公尺)。以數值資料表示特徵，代表特徵值與標籤具有數學關係。也就是說，房屋的平方公尺可能與房屋價值有某些數學關係。

並非所有整數資料都應以數字資料表示。舉例來說，世界上某些地區的郵遞區號為整數；然而，在模型中，整數郵遞區號不應以數字資料表示。這是因為 20000 的郵遞區號並非以郵遞區號為 10000 的兩倍 (或半數) 為前提。此外，雖然不同的郵遞區號「確實」與不同的實際房地產值相關聯，但我們不可假設郵遞區號 20000 的房地產值是房地產價值的兩倍，位於郵遞區號 10000 時則無法比此值是房地產值的兩倍。郵遞區號應改以類別資料表示。

數值特徵有時也稱為「連續特徵」。

NumPy

開放原始碼數學程式庫可在 Python 中提供高效率的陣列作業。pandas 以 NumPy 為基礎。

O

目標

演算法嘗試最佳化的指標。

目標函式

模型要進行最佳化的數學公式或指標。舉例來說，線性迴歸的目標函式通常是平均平方損失。因此，訓練線性迴歸模型時，訓練的目標是盡可能減少平均平方損失。

在某些情況下，目標是將目標函式「最大化」。舉例來說，如果目標函式是準確率，目標就是盡可能提高準確率。

另請參閱「loss」。

斜體條件

#df

在「決策樹」中，條件是指包含多個功能的條件。舉例來說，如果高度和寬度都是特徵，則以下為傾斜條件：

height > width

與 軸對齊條件的對比。

離線

#fundamentals

static 的同義詞。

離線推論

#fundamentals

模型產生批次「預測」，然後快取 (儲存) 這些預測結果的程序。這樣一來，應用程式就可以從快取存取推測的預測結果，而不必重新執行模型。

舉例來說，假設某個模型每四小時產生一次當地天氣預報 (預測)。每個模型都執行後，系統會快取所有當地天氣預報。天氣應用程式會從快取擷取預測結果

離線推論也稱為「靜態推論」。

與線上推論的差異。

one-hot 編碼

#fundamentals

以向量表示類別資料，方法如下：

1 個元素設為 1，

所有其他元素則設為 0。

one-hot 編碼通常用於表示具有一系列可能值的字串或 ID。例如，假設名為 Scandinavia 的特定類別特徵具有五個可能的值：

「丹麥」

「瑞典」

「挪威」

「芬蘭」

「冰島」

one-hot 編碼可代表這五個值，如下所示：

country 向量

「丹麥」 1 0 0 0 0

「瑞典」 0 1 0 0 0

「挪威」 0 0 1 0 0

「芬蘭」 0 0 0 1 0

「冰島」 0 0 0 0 1

透過 one-hot 編碼，模型能根據這五個國家/地區學習不同的連線。

以「數字資料」表示特徵是 one-hot 編碼的替代方案。很抱歉，以數字表示斯堪地那維亞國家/地區並不是個好選擇。例如，請考慮採用以下數字表示法：

「丹麥」為 0

「瑞典」設為 1

「挪威」是 2 比數

「芬蘭」成為 3 號星

「冰島」滿 4

使用數字編碼時，模型會以數學方式解譯原始數字，並嘗試利用這些數字進行訓練。不過，冰島實際上卻不像挪威的兩倍 (甚至只有一半)，因此模型可能會得出一些奇怪的結論。

單樣本學習

一種機器學習方法，通常用於物件分類，專門用來從單一訓練範例學習有效的分類器。

另請參閱少量樣本學習和零樣本學習。

單樣本提示

#language

#生成式 AI

包含一個範例的提示，說明大型語言模型應如何回應。舉例來說，下列提示包含一個範例，顯示大型語言模型應如何回答查詢。

單一提示的組成部分附註

指定國家/地區的官方貨幣為何？ 您希望 LLM 回答的問題。

法國：EUR 我們來看個個例子

印度： 實際查詢。

比較並對照下列字詞：單樣本提示：

零樣本提示

少量樣本提示

一對多

#fundamentals

以 N 類別的分類問題來說，一個解決方案包含 N 個不同的「二進位分類器」(每個可能結果都有一個二進位分類器)。舉例來說，假設某個模型將樣本分類為動物、蔬菜或礦物，則一對所有解決方案會提供下列三種不同的二元分類器：

動物之對不是動物

蔬菜與非蔬菜

礦物與非礦物

線上

#fundamentals

動態的同義詞。

線上推論

#fundamentals

根據需要產生預測。例如，假設應用程式將輸入內容傳送至模型，並發出預測要求。使用線上推論的系統透過執行模型 (並將預測結果傳回應用程式) 來回應要求。

與離線推論比較。

作業 (op)

#TensorFlow

在 TensorFlow 中，任何建立、操控或刪除 Tensor 的程序。例如，矩陣乘法就是將兩張 Tensor 做為輸入，然後產生一個 Tensor 做為輸出。

Optax

JAX 的梯度處理和最佳化程式庫。Optax 提供的建構模塊能夠以自訂方式重組，最佳化深層類神經網路等參數性模型，藉此提升研究效率。其他目標包括：

提供可讀取、經過完整測試且高效率的核心元件實作方式。

將低階食材結合自訂最佳化工具 (或其他梯度處理元件)，即可提高效率。

讓任何人都能輕鬆貢獻內容，加快採用新構想的速度。

最佳化工具

梯度下降法演算法的特定實作。常用的最佳化工具包括：

AdaGrad 代表 ADAptive GRADient 下降法。

Adam，這是「ADAptive with Momentum」。

外團體同質性偏誤

#fairness

在比較態度、價值、個性特徵和其他特性時，將外群組成員視為與群組成員相似。「In-group」(內群組) 是指您經常互動的使用者，「out-group」是指您不常互動的使用者。如果您透過要求使用者提供外部群組屬性來建立資料集，這些屬性可能會比參與者為群組中的參與者的屬性來經過細微差異和刻板印象。

舉例來說，利利普特人可能會詳細描述其他利普特人的住房，指出其建築風格、窗戶、門和大小各有細微差異。然而，相同的 Lilliputians 可能只需宣告布科丁那根都住在相同的房子中。

外部團體的同質性偏誤是一種團體歸因偏誤。

另請參閱群組內偏誤。

離群值偵測

識別訓練集中的離群值的程序。

與創新偵測功能的差異。

成效突出的影片

偏離大多數其他值。在機器學習中，以下任一項目皆為離群值：

輸入資料值與平均值相差約 3 個標準差。

採用高絕對值的「權重」。

預測值與實際值間的距離相對遠。

舉例來說，假設 widget-price 是特定模型的特徵，假設 widget-price 為 7 歐元，標準差為 1 歐元。因此，如果範例的 widget-price 為 12 歐元或 2 歐元，就會視為離群值，因為每筆價格都與平均值相差五個標準差。

異常值通常是因為錯字或其他輸入錯誤所致。而在其他情況下，離群值則不會出錯；畢竟，偏離平均值的五標準差值很少，但並不可能。

離群值通常會導致模型訓練發生問題。Clipping 是管理離群值的方法之一。

自帶式評估 (OOB 評估)

#df

評估每個決策樹品質的機制，以找出該決策樹狀結構的範例訓練期間使用範例。例如，在下圖中，請注意系統對每個決策樹進行了約三分之二的訓練，然後根據樣本中三分之三進行評估。

現成評估是 交叉驗證機制的運算效率和保守估計。在交叉驗證中，系統會針對每個交叉驗證週期訓練一個模型 (例如，以 10 倍的交叉驗證來訓練 10 個模型)。評估 OOB 時，系統會訓練單一模型。由於「計算」會在訓練期間保留每個樹狀結構的部分資料，因此 OOB 評估可以使用該資料估算交叉驗證。

輸出層

#fundamentals

類神經網路的「最終」層。輸出層包含預測結果。

下圖顯示一個小型深層類神經網路，內含輸入層、兩個隱藏層和輸出層：

過度配適

#fundamentals

建立與model相符的model，使模型無法針對新資料做出正確的預測。

正規化可減少過度配適的情況。提供多種訓練集的訓練，也有助於減少過度配適。

按一下圖示即可查看其他附註。

過度配適就好比只關注自己喜愛的老師所提供的建議。您或許會在該老師的課程中取得成功，但或許會對該老師的想法「過度配適」，在其他課程中則表現不佳。遵循由老師共同的建議，可讓您根據各種新情境做出更適宜的調整。

過度取樣

在不平衡資料集中重複使用少數類別的範例，建立更平衡的訓練集。

舉例來說，假設有一個二元分類問題，也就是主要類別與少數類別的比例為 5,000:1。如果資料集含有百萬個樣本，則資料集只包含約 200 個少數類別的範例，這可能太少無法有效訓練。為了克服這種缺陷，您可能會多次過度取樣 (重複使用) 這 200 個範例，或許也能產生足夠的範例來進行實用訓練。

過度取樣時，您必須留意超額過度配適的問題。

與低取樣的情形比較。

P

完備的資料

更有效率的資料儲存方法。

包裝資料儲存庫會以壓縮格式儲存資料，或以其他方式讓資料存取更有效率。已封裝的資料可盡量減少存取資料所需的記憶體和運算量，進而加快訓練速度及提高模型推論效率。

封包通常與其他技術搭配使用，例如資料擴增和正規化，可進一步提升模型的效能。

pandas

#fundamentals

以 numpy 為基礎建構而成的資料欄導向資料分析 API。許多機器學習架構 (包括 TensorFlow) 都支援 pandas 資料結構做為輸入內容。詳情請參閱 pandas 說明文件。

參數

#fundamentals

模型在訓練期間學習的權重和偏誤。舉例來說，在線性迴歸模型中，參數是由下列公式組成的偏誤 (b) 和所有權重 (w₁、w₂ 等)：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相反地，「超參數」是指您 (或超參數調整服務) 提供給模型的值。舉例來說，「學習率」是超參數。

高效參數調整

#language

#生成式 AI

相較於完整微調作業，一組技術可以微調大型預先訓練的語言模型 (PLM)。具參數效率的調整作業通常微調過的參數，通常比完全微調作業少，但通常產生的大型語言模型可做為執行完整微調作業 (也可以幾乎是如此) 建構的大型語言模型。

比較具參數運用效率的調整方法：

調整操作說明

提示調整

具參數運用效率的調整方法，也稱為「具參數運用效率的微調」。

參數伺服器 (PS)

#TensorFlow

在分散式設定中追蹤模型「參數」的工作。

參數更新

訓練期間調整模型參數的作業，通常是在梯度下降的單一疊代中。

偏導數

除了其中一個變數之外，所有變數都視為常數的導數。例如，與 x 相關的部分衍生 f(x, y) 是 f 的導數視為單獨的 x 函式 (也就是保留 y 常數)。與 x 相關的 f 部分導數只著重 x 的變化方式，並忽略方程式中的所有其他變數。

參與偏誤

#fairness

非回應偏誤的同義詞。請參閱選擇偏誤。

分區策略

將變數分配給各個參數伺服器的演算法。

阿帕

專為訓練大規模類神經網路 模型而設計的程式設計架構，這些模型涵蓋多個 TPU 加速晶片 配量或 Pod。

Pax 是以 JAX 為基礎建構的 Flax 之基礎。

感知

一種系統 (硬體或軟體) 會接收一或多個輸入值、針對輸入的加權總和執行函式，然後計算單一輸出值。在機器學習中，函式通常是非線性，例如 ReLU、sigmoid 或 tanh。例如，下列 Perceptron 依賴 sigmoid 函式處理三個輸入值：

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下圖中，感知體會採用三個輸入，每個輸入內容在進入感知前都會經過權重修改：

感知是類神經網路中的「神經元」。

公演

超載字詞，含下列含義：

軟體工程界的標準意義。也就是這個軟體的執行速度以及效率

機器學習的意義。此處的效能回答了下列問題：這個model的正確程度為何？也就是說，這個模型的預測結果品質如何？

排列變數重要性

#df

變數重要性的類型，會在校正特徵值「之後」評估模型的預測錯誤增加情形。排序變數重要性是與模型無關的指標。

複雜性

一種衡量model完成工作的能力。舉例來說，假設您的工作是讀出使用者在手機鍵盤上輸入字詞的前幾個字母，以及提供可能的自動完成字詞清單，永久性 (P) 是指您需要提供多少猜測次數，才能在清單中包含使用者嘗試輸入的實際字詞。

複雜性與交叉熵相關，如下所示：

$$P= 2^{-\text{cross entropy}}$$

管道

採用機器學習演算法的基礎架構。管道包括收集資料、將資料放入訓練資料檔案、訓練一或多個模型，以及將模型匯出至實際工作環境。

管道

#language

一種模型平行處理形式，模型的處理程序會分為多個連續階段，每個階段會在不同裝置上執行。當某個階段正在處理一個批次時，前一個階段可以處理下一個批次。

另請參閱階段訓練。

便捷

JAX 函式，可分割程式碼，以便在多個加速器晶片中執行。使用者將函式傳送至 pjit，此方法會傳回具有同等語意，但會編譯為可跨多部裝置 (例如 GPU 或 TPU 核心) 執行的 XLA 運算。

使用者可透過 pjit 使用 SPMD 分區器進行資料分割運算，而不必重新編寫。

截至 2023 年 3 月，pjit 已與 jit 合併。詳情請參閱分散式陣列和自動平行處理。

PLM

#language

#生成式 AI

預先訓練的語言模型的縮寫。

圖片圖

一個 JAX 函式，可在具有不同輸入值的多層基礎硬體裝置 (CPU、GPU 或 TPU) 上執行輸入函數副本。pmap 依附於 SPMD。

policy

#rl

在強化學習中，「代理程式」的機率從「狀態」到「動作」。

集區

#image

將較早的卷積層建立的矩陣 (或矩陣) 降為較小的矩陣。集區通常包含整個集區區域的最高值或平均值。舉例來說，假設有下列 3x3 矩陣：

集區運算就像卷積運算一樣，會將矩陣分成多個切片，然後將卷積運算滑動為「Strides」。舉例來說，假設集區運算將卷積矩陣分割為 1x1 步的 2x2 配量。如下圖所示，系統進行了四項集區作業。假設每個集區運算都會選出該片段中四個最大值：

集區有助於強制執行輸入矩陣中的翻譯變異數。

視覺應用程式集區的正式名稱為「空間集區」。時間序列應用程式通常稱為「臨時集區」。更正式的說法就是，彙整作業通常稱為「向下取樣」或「降低取樣」。

位置編碼

#language

一種技巧：可將符記的「位置」相關資訊加入符記的嵌入中。Transformer 模型會使用位置編碼進一步瞭解序列不同部分之間的關係。

位置編碼的常見實作方式為使用 Sinusoidal 函式。(具體來說，正弦函數的頻率和振幅是由序列中的符記位置決定)。這項技術可讓 Transformer 模型根據位置來學習序列的不同部分。

正類

#fundamentals

您要測試的類別。

舉例來說，癌症模型的正類可能為「tumor」。電子郵件分類器中的正類別可能是「垃圾郵件」。

與負面類別比較。

按一下圖示即可查看其他附註。

「正面類別」一詞容易讓人混淆，因為許多測試的「正面」結果通常是不理想的結果。舉例來說，許多醫學檢測的正類都對應至腫瘤或疾病。一般來說，會希望醫生告訴你測試結果是負面的。」無論如何，正類都是測試要尋找的事件。

當然，您要同時測試正負與負類別。

後續處理

#fairness

#fundamentals

在執行模型「之後」調整模型的輸出內容。後續處理可用於強制執行公平性限制，無須自行修改模型。

例如，您可能會透過設定分類門檻，將某些屬性的商機相等套用至該屬性的所有值，藉此將後續處理套用至二元分類器。

PR AUC (PR 曲線下的區域)

內插精確度和喚回度曲線下的面積，是針對分類門檻的不同值繪製 (喚回度、精確度) 點，視計算方式而定，PR AUC 可能等於模型的平均精確度。

普拉西斯

Pax 核心高效能機器學習程式庫。普拉克斯經常稱為「圖層程式庫」。

Praxis 不僅包含圖層類別的定義，而且大部分支援元件，包括：

資料輸入

設定程式庫 (HParam 和 Fiddle)

最佳化工具

Praxis 提供 Model 類別的定義。

precision

回答下列問題的分類模型指標：

當模型預測出「陽性類別」時，預測結果的正確百分比是多少？

公式如下：

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中：

真陽性代表模型「正確」預測出正類。

偽陽性代表模型錯誤預測為正類。

舉例來說，假設某個模型做出了 200 次正向的預測，在 200 次正向預測中：

其中 150 人為真陽性。

其中 50 則為偽陽性。

在這種情況下：

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

與準確率和喚回度相比。

精確度與喚回度曲線

不同分類門檻時的精確度與喚回度曲線。

預測

#fundamentals

模型的輸出內容。例如：

二元分類模型的預測結果為正類別或負類別。

多元分類模型的預測結果為單一類別。

線性迴歸模型的預測結果是數字。

預測偏誤

這個值代表預測的平均與資料集內標籤的平均值相近。

請勿混淆機器學習模型的偏誤用語，或是道德與公平性方面的偏誤。

預測式機器學習

任何標準 (「傳統」) 機器學習系統。

「預測式機器學習」一詞沒有正式定義，而是區分一個「不是」以生成式 AI 為基礎的機器學習系統類別。

預測相似度

#fairness

一種公平性指標，用於檢查特定分類器的精確度率是否相當於考慮觀望的子群組。

舉例來說，如果利爾圖曼和布丁納吉人的精確度相同，則預測大學接受度的模型就能滿足國籍的預測相似度。

預測一致性有時也稱為「預測率同步」。

如要進一步查看預測性差異的詳細討論，請參閱「公平性定義說明」 (第 3.2.1 節)。

預測率同步

#fairness

「預測性一致性」的另一個名稱。

預先處理

#fairness

先處理資料，再用於訓練模型。預先處理可以很簡單，例如從英文文字語料庫中移除英文字典中不存在的字詞，或是重新表示資料點的複雜，並且盡可能刪除與敏感屬性相關的屬性。預先處理有助於滿足公平性限制。

預先訓練模型

#language

#image

#生成式 AI

已經過訓練的模型或模型元件 (例如嵌入向量)。有時候，您會將預先訓練的嵌入向量提供給類神經網路。有時，您的模型會自行訓練嵌入向量，而不是依賴預先訓練的嵌入。

「預先訓練模型」是指已完成預先訓練的大型語言模型。

預先訓練

#language

#image

#生成式 AI

以大型資料集訓練模型的初始訓練。某些預先訓練模型是繁複的巨型模型，通常必須透過額外訓練進行修正。舉例來說，機器學習專家可能會針對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。預先訓練後，您可以透過下列任一技巧進一步修正產生的模型：

蒸餾

微調

調整操作說明

高效參數調整

提示調整

先信

在開始訓練資料前，您認為這些資料的可信度。舉例來說，L₂ 正則化需要先考量到權重應為小型，且通常分佈在零周圍。

提示類別	範例	附註
問題	`鴿子可以飛多快？`
指示	`撰寫有關套利的有趣詩詞。`	提示，要求大型語言模型「執行」特定操作。
範例	`將 Markdown 程式碼翻譯成 HTML。例如： Markdown：* 清單項目 HTML：<ul> <li>清單項目</li> </ul>`	本範例提示的第一句是指令，提示的其餘部分就是範例。
角色	`說明為何在機器學習訓練中使用梯度下降法為物理學博士學位。`	語句的第一部分為指令，「轉成物理學博士」一詞是角色的部分。
待模型完成的部分輸入內容	`英國總理`	部分輸入提示可能會突然結束 (如本範例所示) 或結尾為底線。

圖片為...	機率
狗	0.85
cat	0.13
馬	0.02

機率迴歸模型

迴歸模型：不僅使用每個特徵的權重，也使用這些權重的不確定性。機率迴歸模型會產生預測結果以及該預測結果的不確定度例如，機率迴歸模型可能產生 325 的預測結果，標準差為 12。如要進一步瞭解機率迴歸模型，請參閱這個 tensorflow.org 上的 Colab。

機率密度函式

此函式可識別具有「特定」特定值的資料樣本頻率。如果資料集的值是連續浮點數，則鮮少發生完全比對。不過，「整合」integrating機率密度函式 (從 x 值到 y 值) 會產生 x 和 y 之間資料樣本的預期頻率。

舉例來說，假設常態分佈的平均值為 200，而標準差為 30。如要判斷資料樣本落在 211.4 到 218.7 之間的預期頻率，您可以整合 211.4 至 218.7 的常態分佈機率密度函式。

提示

#language

#生成式 AI

在大型語言模型中輸入的任何文字，用來條件模型的特定行為。提示可以很短，可以是短句，也可以是任意長度 (例如小說的完整文字)。提示可分為多個類別，如下表所示：

提示類別範例附註

問題 鴿子可以飛多快？

指示 撰寫有關套利的有趣詩詞。 提示，要求大型語言模型「執行」特定操作。

範例 將 Markdown 程式碼翻譯成 HTML。例如： Markdown：* 清單項目 HTML：<ul> <li>清單項目</li> </ul> 本範例提示的第一句是指令，提示的其餘部分就是範例。

角色 說明為何在機器學習訓練中使用梯度下降法為物理學博士學位。 語句的第一部分為指令，「轉成物理學博士」一詞是角色的部分。

待模型完成的部分輸入內容 英國總理 部分輸入提示可能會突然結束 (如本範例所示) 或結尾為底線。

生成式 AI 模型能以文字、程式碼、圖片、嵌入、影片等多種方式回應提示。

提示式學習

#language

#生成式 AI

特定「模型」的功能，可讓模型根據任意文字輸入內容調整行為 (提示)。在一般的提示式學習範例中，大型語言模型會產生文字來回應提示。舉例來說，假設使用者輸入下列提示：

總結牛頓第三運動定律

未明確訓練採用提示式學習的模型時，並未特別訓練能回答先前的提示。相反地，模型「知道」許多有關物理學、一般語言規則的知識，以及許多有關一般實用答案的要素。該知識就足以提供 (希望) 實用的答案。其他人類意見回饋 (「這個答案太複雜」或「什麼是反應？」) 可以協助部分提示型學習系統逐漸提升答案的實用性。

提示設計

#language

#生成式 AI

提示工程的同義詞。

提示工程

#language

#生成式 AI

建立提示，從大型語言模型中取得所需回應的秘訣。由人類執行提示工程想確保大型語言模型生成實用的回覆，撰寫結構完善的提示至關重要。提示工程取決於許多因素，包括：

用來預先訓練，以及可能微調大型語言模型的資料集。

模型用來產生回應的 temperature 和其他解碼參數。

如要進一步瞭解如何撰寫實用提示，請參閱「提示設計簡介」。

提示設計是提示工程的同義詞，

提示調整

#language

#生成式 AI

有效調整參數機制，可學習系統附加至實際提示的「前置字串」。

提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 是為每個層加上前置字串。相對地，大部分提示調整作業只會在「輸入層」中加入前置字串。

如要進一步瞭解前置字串，請按一下這個圖示。

就提示調整作業而言，「前置字串」(也稱為「軟性提示」) 是已瞭解的工作專用向量，會在實際提示中加上文字符記嵌入的片段。系統會凍結所有其他模型參數並微調特定工作，藉此學習軟性提示。

Proxy 標籤

#fundamentals

用來估算資料集中無法直接提供的標籤的資料。

舉例來說，假設您必須訓練模型來預測員工壓力水平。資料集包含許多預測特徵，但不包含名為「stress level」的標籤。您可以不用擔心，您可以選擇「工作場所意外」做為壓力等級的 Proxy 標籤。畢竟，承受高壓力的員工會遭遇比冷靜的員工更多的事故。還是實際行動？工作場所的意外可能會因為多種原因而起伏

第二個範例假設您希望「它是雨天嗎？」是資料集的布林值標籤，但是您的資料集並未包含雨水資料。如果有照片，您或許可以建立人們隨遮陽傘的照片，並用作「是否下雨？」的代理標籤。這個 Proxy 標籤是否正確？有可能，但某些文化的人們比雨天更容易攜帶遮陽傘來保護太陽。

Proxy 標籤通常不夠完善。如果可以，請選擇實際標籤，而非 Proxy 標籤。因此，在缺少實際標籤時，請謹慎挑選 Proxy 標籤，選擇最不可能的 Proxy 標籤。

Proxy (敏感屬性)

#fairness

當做機密屬性獨立使用的屬性。例如，個人的郵遞區號可用來當做收入、種族或族群的 Proxy。

純函式

此函式的輸出僅以其輸入內容為基礎，且沒有副作用。具體來說，純函式不會使用或變更任何全域狀態，例如檔案內容或是函式外部的變數值。

純函式可用來建立安全執行緒的程式碼，跨多個model分割「模型」model程式碼時非常實用。

JAX 的函式轉換方法會要求輸入函式是純函式。

Q

Q 函式

#rl

在強化學習中，這個函式預測預期傳回從狀態中採取的動作，然後依循特定政策。

Q 函式也稱為「狀態動作值函式」。

Q 學習

#rl

在強化學習中，服務專員可透過演算法套用 Bellman 方程式，學習 馬可夫決策流程最佳 Q 功能。馬可夫決策程序會建立「環境」。

分位數

分位數值區中的每個值區。

分位數值區

將特徵的值發布至「值區」，讓每個值區包含數量相同 (或幾乎相同) 的樣本。例如，下圖將 44 點分成 4 個值區，每個值區都包含 11 個點。為了讓圖中每個值區包含相同數量的點，有些值區會橫跨不同的 x 值寬度。

量化

過載字詞，可能以下列任何方式使用：

針對特定功能實作分位數值區。

將資料轉換為零和一，加快儲存、訓練和推論速度。由於布林資料比其他格式更可靠，因此量化能夠提高模型的正確性。量化技術包括四捨五入、截斷和繫結。

減少用於儲存模型參數的位元數。舉例來說，假設模型的參數儲存為 32 位元浮點數。量化會將這些參數從 32 位元轉換為 4、8 或 16 位元。量化可減少下列項目：

運算、記憶體、磁碟和網路用量

推論述詞的時間

耗電量

不過，量化有時會降低模型預測結果的正確性。

待播清單

#TensorFlow

實作佇列資料結構的 TensorFlow Operation。通常用於 I/O。

R

競速

#fundamentals

擷取評估產生作業的縮寫。

隨機森林

#df

這是決策樹的組合，其中每個決策樹都使用特定隨機雜訊進行訓練，例如「包包」。

隨機樹係是一種決策樹系。

隨機政策

#rl

在「強化學習」中，政策會隨機選擇「動作」。

排名

一種監督式學習，其目標是排序項目清單。

rank (基數)

在機器學習問題中，將類別由高到低分類類別的序數位置。舉例來說，行為排名系統可以將狗的獎勵由高至低 (牛排) 排名到最低 (人工羽絨衣) 的排序。

rank (Tensor)

#TensorFlow

Tensor 中的維度數量。舉例來說，純量排名為 0，向量的排名為 1，矩陣則排名為 2。

請別與「排名 (序數)」混淆。

資料標註者

#fundamentals

提供範例標籤的真人。「註解者」是評分者的另一個名稱。

召回

回答下列問題的分類模型指標：

當「真值」是陽性類別時，模型正確判定為正類的預測結果占多少百分比？

公式如下：

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中：

真陽性代表模型「正確」預測出正類。

偽陰性表示模型錯誤預測出負類別。

舉例來說，假設模型針對真值是正類別進行了 200 次預測，在這 200 項預測中：

其中 180 個是真陽性。

20 是偽陰性。

在這種情況下：

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

按一下圖示即可查看缺乏平衡的資料集相關附註。

喚回度特別適合用來判斷分類模型的預測能力，因為分類模型中很少見。舉例來說，假設有類別不平衡的資料集，其中特定疾病的正類僅出現在一百萬名患者。假設您的模型進行五百萬次預測，會產生下列結果：

30 個真陽性

20 偽陰性

4,999,000 個真陰性

950 偽陽性

因此，這個模型的喚回度是：

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
相反地，這個模型的準確率如下：
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

這麼高的準確率看起來令人印象深刻，但基本上無意義。對於平衡不均的資料集，喚回度是比準確率資料集更為實用的指標。

推薦系統

#recsystems

一種系統，可從大型語料庫中，為每位使用者選擇少量的所需「項目」。舉例來說，影片推薦系統可能會推薦 100,000 部影片語料庫中的兩部影片，針對一位使用者選取「Casablanca」和「The Philadelphia Story」，同時為一位使用者選取「Wonder Woman」和「Black Panther」。影片推薦系統可能會考量多項因素，例如：

同類使用者評分或觀看過的電影。

類型、導演、演員、目標客層...

線性整形單元 (ReLU)

#fundamentals

啟用函式，行為如下：

如果輸入為負數或零，則輸出值為 0。

如果輸入為正數，則輸出結果等於輸入內容。

例如：

如果輸入是 -3，則輸出為 0。

如果輸入是 +3，則輸出結果是 3.0。

ReLU 的情節如下：

ReLU 是很受歡迎的活化函數。雖然 ReLU 的運作方式很單純，但可讓類神經網路學習特徵和標籤之間的非線性關係。

循環類神經網路

#seq

刻意執行多次的「類神經網路」，其中每個執行作業都會動態饋給至下次執行。具體來說，前一次執行作業的隱藏層會在下次執行時，將部分輸入項目提供給同一個隱藏層。循環類神經網路特別適合用來評估序列，因此隱藏層可以從序列前段執行的類神經網路中學習。

舉例來說，下圖顯示會執行四次的循環類神經網路。請注意，在第二次執行時，在隱藏層取得的值會成為相同隱藏層的輸入的一部分。同樣地，第二次執行時在隱藏層取得的值，在第三次執行時，會成為同一隱藏層的輸入內容。這樣一來，循環類神經網路就會逐步訓練並預測整個序列的含義，而不只是個別字詞的含義。

迴歸模型

#fundamentals

非正式的模型，可以產生數值。相較之下，「分類模型」會產生類別預測結果。例如，以下是所有迴歸模型：

用來預測特定房屋價值的模型，例如 423,000 歐元。

預測特定樹木的壽命，例如 23.2 年。

此模型可預測特定城市未來六小時內的降雨量，例如 0.18 英寸。

迴歸模型有兩種常見的類型：

線性迴歸：可找出對特徵最有利於標籤值的行。

邏輯迴歸：產生介於 0.0 到 1.0 之間的機率，一個系統通常會對應至類別預測結果。

並非每個輸出數值預測的模型都是迴歸模型。在某些情況下，數字預測結果其實只是分類模型，且確實有數字類別名稱。舉例來說，預測數字郵遞區號的模型是分類模型，不是迴歸模型。

正則化

#fundamentals

任何可減少過度配適的機制。常見的正規化類型包括：

L₁ 正則化

L₂ 正則化

丟棄正則化

提前停止 (這並非正式的正規化方法，但可有效限制過度配適)

正規化也可以定義為模型複雜度的懲罰。

按一下圖示即可查看其他附註。

正規化符合直覺。正規化功能增加通常會「增加」訓練損失，這會令人困惑，因為這不是「最大化」訓練損失的目標？

實際上不會。目標並不是將訓練損失降至最低。目的是根據實際範例做出極佳的預測。值得注意的是，雖然正規化的漸進化會增加訓練損失，但通常仍可協助模型對實際範例做出更好的預測。

正則化率

#fundamentals

一個數字，用來指定訓練期間正則化的相對重要性。提高正規化率可以降低過度配適，但可能會降低模型的預測能力。反之，如果減少或省略正則化率，也會增加過度配適。

按一下圖示即可查看計算結果。

正規化率通常以希臘字母 lambda 表示。以下簡化的損失方程式說明 lambda 的影響：

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

其中正則化是任何正規化機制，包括：

L₁ 正則化

L₂ 正則化

強化學習 (RL)

#rl

這套演算法是學習最佳政策，目標是在與環境互動時盡可能提高報酬。舉例來說，大多數遊戲的終極獎勵都是勝利。強化學習系統可以藉由評估先前的遊戲動作序列，最終導致玩家輸贏，進而成為玩複雜遊戲的專家。

人類回饋增強學習 (RLHF)

#生成式 AI

#rl

運用評估人員的意見回饋，提升模型回應的品質。例如，RLHF 機制可以要求使用者為模型的回應品質評分，例如 👍? 或 👎? 表情符號。然後就能據此調整日後的回應

ReLU

#fundamentals

「Rectified Linear Unit」的縮寫。

重播緩衝區

#rl

在類似 DQN 的演算法中，代理程式會使用記憶體儲存狀態轉換，以供體驗重播使用。

備用資源

訓練集或模型的副本，通常位於其他機器上。例如，系統可能會採用下列策略導入資料平行處理：

將現有模型的備用資源放入多部機器。

將訓練集的不同子集傳送至各個備用資源。

匯總參數更新。

通報偏誤

#fairness

使用者針對動作、結果或屬性撰寫的頻率，並不代表其實際頻率或屬性具有個人類別的特徵程度。報表偏誤可能會影響機器學習系統學習的資料組成。

例如，在書籍中，「笑著」這個字詞比「虛構」更普遍。機器學習模型能夠從書籍語料庫估算出笑容與呼吸的相對頻率，可能判斷覺得笑起來比呼吸更常見。

兩者的向量表示法

將資料對應至實用「功能」的程序。

重新排名

#recsystems

建議系統的最終階段。在一個階段，計分項目可能會根據其他 (通常是非機器學習) 演算法重新評分。重新排名功能會評估「評分」階段產生的項目清單，並採取下列動作：

排除使用者已購買的商品。

提高新物品的分數。

檢索增強生成 (RAG)

#fundamentals

一種用於改善大型語言模型 (LLM) 輸出品質的技術，方法為以訓練模型後擷取的知識來源為基礎。RAG 為訓練過的 LLM 存取從信任的知識庫或文件擷取的資訊，可提高 LLM 回應的準確度。

使用檢索增強生成技術的常見動機包括：

提高模型生成回應的事實準確率。

將非訓練目的知識提供給模型。

變更模型使用的知識。

讓模型能夠引用來源。

舉例來說，假設化學應用程式使用 PaLM API 產生與使用者查詢相關的摘要，當應用程式的後端收到查詢時，後端：

搜尋與使用者查詢相關的資料 (「擷取」)。

在使用者的查詢中附加 (「錯誤」) 相關化學資料。

指示 LLM 根據附加資料建立摘要。

return

#rl

在強化學習中，在特定政策和特定狀態下，傳回結果是代理程式在從狀態一直到劇集結束的政策時，預期會收到的所有獎勵總和。服務專員會因應使用者進行獎勵所需的狀態轉換而提供折扣，以因應預期獎勵的延遲性質。

因此，如果折扣因數為 $\gamma$， $r_0, \ldots, r_{N}$表示獎勵直到劇集結束時，則回傳的計算結果如下：

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中，以環境定義在狀態中採取動作的數值結果。

橋接器正規化

L₂ 正則化的同義詞。「橋接器正規化」一詞在純統計資料內容中更常使用，而「L₂ 正則化」在機器學習中則較常使用。

循環類神經網路

#seq

循環類神經網路的縮寫，

ROC (接收者操作特徵) 曲線

#fundamentals

二元分類中不同分類門檻的真陽率與偽陽率的圖表。

ROC 曲線的形狀意味著二元分類模型能夠區分正類別與負類別。例如，假設二元分類模型將所有負類別與所有正類別完美分離：

上述模型的 ROC 曲線如下所示：

相較之下，下圖繪製了無法區分負面類別與正面類別的原始邏輯迴歸值：

這個模型的 ROC 曲線如下所示：

同時，大多數二元分類模型在現實世界中，都會將陽性和負類別區分為某種程度，但通常不盡完美。因此，一般的 ROC 曲線落在兩極極端之間：

理論上，最接近 (0.0,1.0) 的 ROC 曲線點可識別理想的分類門檻。但是，還有幾個其他實際問題會影響選擇理想的分類門檻。例如，也許偽陰性會導致比偽陽性更大的痛苦。

名為 AUC 的數值指標會將 ROC 曲線轉換成單一浮點值。

角色提示

#language

#生成式 AI

這是選用部分，這是提示，用於識別生成式 AI生成式 AI 目標對象大型語言模型「不含」角色提示，所提供的答案不一定適用於提問者。大型語言模型「透過」角色提示，可以針對特定目標對象提供更適當且實用的回答。舉例來說，下列提示中的角色提示部分以粗體顯示：

請總結這篇文章，瞭解經濟學博士。

說明 10 歲的眉毛如何。

說明 2008 年金融危機。就像對年幼的孩子或黃金獵犬一樣，講話是不錯的選擇。

根號

#df

決策樹中的起始節點 (第一個條件)。按照慣例，圖表會將根層級置於決策樹狀圖的頂端。例如：

根目錄

#TensorFlow

您所指定的目錄，用於託管多個模型的 TensorFlow 查核點和事件檔案。

均方根誤差 (RMSE)

#fundamentals

均方誤差的平方根。

旋轉不變性

#image

在圖片分類問題中，即使圖片方向變更，演算法仍可成功分類圖片。舉例來說，無論網球拍是朝上、側向或向下，演算法依然可以識別網球拍。請注意，旋轉不變性未必是理想狀況；例如倒數 9 不應歸類為 9。

另請參閱平移差異和大小差異說明文章。

R 平方

迴歸指標會指出標籤中因個別功能或特徵集而變化的程度。R 平方值是介於 0 到 1 之間的值，可以按照以下方式解讀：

R 平方值為 0，表示標籤沒有因特徵集而出現任何變化。

R 平方值為 1，表示標籤的所有變化版本都是由特徵集所致。

介於 0 和 1 之間的 R 平方值，表示可經由特定特徵或地圖項目集預測標籤的變異程度。舉例來說，如果 R 平方值為 0.10，代表標籤所含變異數的 10% 代表因功能集而造成，R 平方值 0.20 代表 20% 與特徵集相關，依此類推。

R 平方值是模型預測值和真值之間，皮爾森相關係數的平方。

六

取樣偏誤

#fairness

請參閱選擇偏誤。

取樣 (含取代)

#df

從一組候選項目中挑選項目的方法，可以多次選取相同項目。「有取代」一詞代表每次選取後，所選項目都會傳回候選項目集區。反之，「取樣而不進行替換」，意味著候選項目只能挑選一次。

以下列水果組為例：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統會隨機選擇 fig 做為第一個項目。如果是在取代時使用取樣，系統會從下列組合中選擇第二個項目：

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是，與先前的設定相同，系統可能會再次選擇 fig。

如果使用取樣而不替換，選定樣本後便無法再次選取樣本。舉例來說，如果系統隨機選擇 fig 做為第一個樣本，就無法再選擇 fig。因此，系統會從下列集 (縮減) 中挑選第二個樣本：

fruit = {kiwi, apple, pear, cherry, lime, mango}

按一下圖示即可查看其他附註。

抽樣測試中的「replacement」一詞會對許多人造成混淆。在英文中，replacement 是指「substitution」。不過，「以替代方式取樣」實際上是對「取代」的法文定義，也就是「將某些東西放回」。

英文字詞「replacement」會轉譯為法文「remplacement」。

SavedModel

#TensorFlow

儲存及復原 TensorFlow 模型的建議格式。BE 是一種各語言通用的可復原序列化格式，可讓更高層級的系統和工具產生、使用及轉換 TensorFlow 模型。

如需完整詳細資料，請參閱 TensorFlow 程式設計師指南中的儲存和還原章節。

平價

#TensorFlow

負責儲存模型查核點的 TensorFlow 物件。

純量

單一數字或單一字串，可以以 rank 0 的 Tensor 表示。舉例來說，以下各行程式碼會在 TensorFlow 中建立一個純量：

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

資源調度

會改變標籤和/或特徵值範圍的數學轉換或技巧。某些類型的資源調度功能對正規化等轉換來說非常實用。

在機器學習領域中，常用的資源調度形式包括：

線性縮放，通常使用減法和除法的組合，將原始值取代為介於 -1 到 +1 的數字，或是介於 0 和 1 之間的數字。

對數縮放，將原始值替換為其對數。

Z 分數正規化：將原始值替換為浮點值，代表與該特徵平均值相差的標準差數。

scikit-learn

熱門的開放原始碼機器學習平台。請參閱 scikit-learn.org。

計分

#recsystems

建議系統的一部分，針對候選產生項目階段產生的每個項目提供一個值或排名。

選擇偏誤

#fairness

取樣資料所得出的結論發生錯誤，因為選擇程序會導致從資料中觀察到的樣本與未觀察到的樣本產生系統性差異。下列形式的選擇偏誤如下：

覆蓋偏誤：資料集中代表的母體與機器學習模型進行預測的母體不相符。

取樣偏誤：系統不會從目標群組隨機收集資料。

非回應偏誤 (也稱為「參與偏誤」)：來自特定群組的使用者選擇拒絕問卷調查的比率，與其他群組的使用者不同。

舉例來說，假設您要建立機器學習模型來預測人們對電影的喜愛程度。為了收集訓練資料，您需要向放映電影前面的所有人發送問卷調查。反之，這聽起來像是收集資料集的合理方法；然而，這種資料收集形式可能會帶來以下形式的選擇偏誤：

覆蓋偏誤：如果對選擇看電影的人口資料進行取樣，模型的預測結果可能不會針對還未表現出電影興趣過的使用者進行一般化。

取樣偏誤：不會隨機取樣目標對象 (電影中的所有人物)，而是只取樣前列的人們。比起其他列，坐在前列的觀眾對電影更感興趣。

非回應偏誤：一般來說，意見很高的人較常回覆選用的問卷調查由於電影問卷調查為選用性質，因此回應可能比一般 (鐘形) 分佈更有可能具有雙模數分佈。

自我注意力層 (也稱為自註意力層)

#language

一種類神經網路層，可將一連串嵌入 (例如 token 嵌入) 轉換為另一種嵌入序列。輸出序列中的每個嵌入都是透過注意力機制整合輸入序列元素資訊而建構而成。

「自我注意力」的「本身」部分是指自我參與的序列，而非其他背景資訊。自註意力是轉換器的主要構成要素之一，並使用字典查詢術語，例如「查詢」、「鍵」和「值」。

自我注意力層從一系列的輸入表示法開始，每個字詞各有一個輸入表示法。字詞的輸入表示法可以是簡單的嵌入針對輸入序列中的每個字詞，網路會對字詞與整組字詞中每個元素的關聯性評分。關聯性分數會決定字詞的最終表示法如何結合其他字詞的表示法。

以下列句子為例：

動物太累，所以沒有跨越街道。

下圖 (來自轉換器：語言理解的新類神經網路架構) 顯示了人稱「它」的自我注意力層，並以各行的暗度表示每個字詞對表示法的貢獻程度：

自我注意力層會突顯與「它」相關的字詞。在此例中，注意力層已經學到如何醒目顯示「它」可能參照的字詞，並將最高權重指派給「animal」。

針對一系列 n 符記，自我注意力轉換會將嵌入序列 nn 分開轉換，在序列中的每個位置分別轉換一次。

另請參閱注意力和多頭自我注意章節。

自主學習

這個系列的技術可以從未加上標籤的範例中建立代理標籤，將非監督式機器學習問題轉換成監督式機器學習問題。

某些以 Transformer 為基礎的模型 (例如 BERT) 採用自主學習技術。

自我監督式訓練屬於半監督式學習方法。

自我訓練

自監督學習的變化版本，在符合下列所有條件時特別實用：

資料集中未加上標籤的範例與已加上標籤的範例的比率偏高。

這就是分類問題。

自我訓練的運作方式為反覆執行下列兩個步驟，直到模型停止改善為止：

使用監督式機器學習，根據加上標籤的範例訓練模型。

使用步驟 1 中建立的模型，針對未加上標籤的範例產生預測結果 (標籤)，將可信度較高的樣本移至含有預測標籤的範例。

請注意，步驟 2 的每個疊代都會新增更多有標籤的範例，供步驟 1 進行訓練。

半監督式學習

針對部分訓練範例有標籤，但其他沒有標籤的資料訓練模型。半監督式學習的一項技巧是為未加上標籤的範例推論標籤，然後訓練推論標籤以建立新模型。如果取得標籤的成本高昂，但未加上標籤的範例卻大量樣本，半監督式學習會很實用。

自我訓練是半監督式學習的一種技巧。

敏感屬性

#fairness

可能在法律、倫理、社會或個人因素上需要特別留意的人體屬性。

情緒分析

#language

使用統計或機器學習演算法來判斷某個群組對於服務、產品、機構或主題的整體態度 (正面或負面)。舉例來說，演算法可使用自然語言理解，對大學課程的文字回饋執行情緒分析，判斷學生對課程通常喜歡或不喜歡的程度。

序列模型

#seq

其輸入具有循序相依關係的模型。例如，從先前看過的一系列影片中預測接下來要觀看的影片。

序列對序列工作

#language

此工作可將 tokens 的輸入序列轉換為符記輸出序列的工作。舉例來說，兩種常見的序列至序列工作為：

譯者：

輸入序列範例：「我愛你」。

輸出序列範例：「Je t'aime」。

回答問題：

輸入序列範例：「我需要在紐約市準備我的車輛嗎？」

輸出序列範例：「否，請留在家裡。」

人份

此程序透過線上推論或離線推論，提供經過訓練的模型並提供預測資料。

形狀 (Tensor)

張量每個「維度」中的元素數量。形狀會以整數清單表示。舉例來說，以下二維張量的形狀是 [3,4]：

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

TensorFlow 使用列主要 (C 樣式) 格式表示維度的順序，因此 TensorFlow 中的形狀是 [3,4]，而非 [4,3]。換句話說，在 2D 模式的 TensorFlow Tensor 中，形狀為[「資料列數量」和「資料欄數量」]。

資料分割

#TensorFlow

#GoogleCloud

「訓練集」或「模型」的邏輯劃分。一般而言，某些程序會將範例或參數分成 (通常) 大小相同的區塊，藉此建立資料分割。然後為每個資料分割指派給不同的機器。

資料分割模型稱為「模型平行處理」；資料分割資料稱為「資料平行處理」。

縮小

#df

可控制過度配適的梯度提升中的超參數。梯度提升的縮減與梯度下降法中的學習率類似。縮減是介於 0.0 至 1.0 之間的小數。縮減值越小，過度配適的情形就大於較大的縮減值。

S 函數

#fundamentals

這個數學函式會將輸入值「擠壓」到受限範圍內 (通常是 0 到 1 或 -1 到 +1)。也就是說，您可以將任何數字 (二、一百萬、負數十億等) 傳遞至 S 函數，而輸出仍會顯示在限制範圍內。S 函數的圖表如下所示：

S 函數在機器學習領域有幾項用途，包括：

將邏輯迴歸或多項式迴歸模型的原始輸出內容轉換為機率。

可做為某些類神經網路中的活化函式。

按一下圖示即可查看計算結果。

輸入數字 x 上方的 S 函數函數如下：

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在機器學習中，「x」x通常是加權總和。

相似度量測

#clustering

在「叢集處理」演算法中，用於判定任兩個範例相似度 (相近) 的指標。

單一節目 / 多個資料 (SPMD)

一種平行處理技術，在不同裝置上同時對不同的輸入資料執行相同的運算。SPMD 的目標是要更快取得結果這是平行程式設計最常見的樣式。

大小不變

#image

在圖片分類問題中，即使圖片大小變更，演算法仍可成功分類圖片。舉例來說，無論它使用 200 萬像素或 200K 像素，演算法仍可識別貓。請注意，就算是圖像分類演算法最優異的演算法，也仍然對大小變異有實際限制。舉例來說，演算法 (或人類) 不太可能將只使用 20 像素的貓咪圖片正確分類。

另請參閱平移變異和旋轉變異的相關說明。

素描

#clustering

在非監督式機器學習中，這種演算法會對範例執行初步相似度分析。草擬演算法使用區域敏感雜湊函式來找出可能類似的點，然後將這些點分成不同的值區。

草圖可減少大型資料集相似度計算所需的運算作業。我們只會計算每個值區中每組點的相似度，而不是計算資料集中每個樣本組合的相似度。

略過圖

#language

n-gram，可從原始情境中省略 (或「略過」) 字詞，也就是說 N 個字詞原本可能未放在相鄰位置。更精確地說，「k-skip-n-gram」是 n 語法，表示可能略過最多 k 個字詞。

例如，「快速棕色狐狸」有以下可能的 2 公克：

「快速」

「快速棕色」

「棕色狐狸」

「1-skip-2-gram」表示兩組字詞，前後不超過 1 個字詞。因此，「快速棕色狐狸」有以下 1 段 2 公克的解析度：

「棕色」

"快速狐狸"

此外，所有 2 公克也是 1-skip-2-gram，因為系統可能會略過少於一個字。

略過語法有助於進一步瞭解字詞的前後脈絡。在此範例中，「fox」與「quick」直接關聯到 1-skip-2 公克組合中的「快速」，但在 2 公克集合中則否。

略過語法有助於訓練「字詞嵌入」模型。

軟性最高

#fundamentals

此函式可決定多元分類模型中每個可能類別的機率。機率總和等於 1.0例如，下表顯示 softmax 如何分配各種機率：

圖片為... 機率

狗 0.85

cat 0.13

馬 0.02

Softmax 也稱為「full softmax」。

與候選抽樣比較。

按一下圖示即可查看計算結果。

softmax 方程式如下：

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
其中：

$\sigma_i$ 是輸出向量。輸出向量的每個元素都會指定這個元素的可能性。輸出向量中所有元素的總和為 1.0輸出向量包含的元素數量與輸入向量 $z$ 相同。

$z$ 是輸入向量。輸入向量的每個元素都包含浮點值。

$K$ 是輸入向量 (和輸出向量) 中的元素數量，

舉例來說，假設輸入向量是：

[1.2, 2.5, 1.8]

因此，softmax 的計算分母如下：

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

因此，每個元素的 softmax 機率如下：

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

因此，輸出向量如下所示：

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 中三個元素的總和為 1.0。太好了！

軟提示調整

#language

#生成式 AI

一種技巧：針對特定工作調整大型語言模型，無須耗費大量資源微調。微調模型並不會重新訓練模型中的所有「權重」，而是會自動調整提示來達成相同的目標。

有了文字提示，軟提示調整作業通常會為提示附加額外的符記嵌入，並使用反向傳播來最佳化輸入內容。

「硬」提示含有實際符記，而非符記嵌入。

稀疏特徵

#language

#fundamentals

特徵的值主要為零或空白。舉例來說，含有單一 1 個值和一百萬 0 個值的特徵會遭到稀疏。相反地，「密集特徵」的值通常不得為零或空白。

在機器學習領域，有許多令人驚訝的特徵是稀疏特徵。類別特徵通常是稀疏的特徵。舉例來說，假設森林中有 300 種可能的樹種，單一範例可能只會識別出楓樹。或者，在影片庫的數百萬部影片中，一個範例可能只找到「Casablanca」。

在模型中，您通常會使用 one-hot 編碼來代表稀疏特徵。如果 one-hot 編碼較大，您可以將嵌入層放在 one-hot 編碼上方，以提高效率。

稀疏表示法

#language

#fundamentals

在稀疏特徵中僅儲存非零元素的 position(s)。

舉例來說，假設名為 species 的類別特徵可識別特定樹系中的 36 種樹種，進一步假設每個範例都只識別一個物種。

您可以使用 one-hot 向量來表示每個範例中的樹木種類，單一向量會包含一個 1 (代表這個範例中特定的樹種) 和 35 個 0 (代表該範例中「不」的 35 種樹種)。因此，maple 的 one-hot 表示法可能如下所示：

或者，稀疏表示法只會識別特定物種的位置。如果 maple 位於位置 24，則 maple 的稀疏表示會是：

24

請注意，稀疏表示法比 one-hot 表示法更加精簡。

注意： 請勿將稀疏表示法做為直接輸入特徵輸入傳送至模型。您應該先將稀疏表示法轉換為 one-hot 表示法，然後再對其進行訓練。

按一下圖示即可查看較複雜的範例。

假設模型中的每個範例都必須以英文語句表示字詞，但不得以其順序表示。英文包含約 170,000 個字詞，因此英文是約 170,000 個元素的類別特徵。大部分的英文語句只使用這 170,000 個字詞的極少量片段，因此單一範例中的字詞集幾乎絕對是稀疏的。

請考慮以下句子：

My dog is a great dog

您可以使用 one-hot 向量的變化版本來表示這個句子中的文字。在這個變化版本中，向量中的多個儲存格可包含非零值。此外，在這個變化版本中，儲存格可以包含一個以外的整數。雖然「my」、「is」、「a」和「great」這幾個字僅在句子中出現一次，但「dog」這個字詞卻出現兩次。使用 one-hot 向量的變體來表示此語句中的字詞，會產生下列 170,000 個元素向量：

相同語句的稀疏表示法如下：

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

如果您覺得困惑，請按一下該圖示。

「稀疏表示法」一詞會影響許多人，因為稀疏表示法本身並非稀疏向量。稀疏表示法實際上是稀疏向量的稠密表示法。同義詞「索引表示法」會比「稀疏表示法」更清楚一點。

稀疏向量

#fundamentals

值主要為零的向量。另請參閱稀疏特徵和稀疏度。

稀疏度

向量或矩陣中設為零 (或空值) 的元素數量，除以該向量或矩陣中的項目總數。舉例來說，假設有 100 個元素矩陣在 98 個儲存格中，稀疏度的計算如下：

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

「特徵稀疏度」是指特徵向量的稀疏度；「模型稀疏度」是指模型權重的稀疏度。

空間集區

#image

請參閱集區相關說明。

分割

#df

在「決策樹」中，條件的另一個名稱。

分割器

#df

訓練決策樹時，處理常式 (和演算法) 負責為每個節點尋找最佳條件。

SPMD

單一計畫 / 多個資料的縮寫，

平方轉軸損失

轉軸損失的平方。與一般轉軸損失相比，方形轉軸損失會以更嚴厲的方式懲罰異常狀況。

平方損失

#fundamentals

L₂ 損失的同義詞。

階段訓練

#language

以連續階段訓練模型的方法。目標可以是加快訓練程序的速度，或是提升模型品質。

漸進式堆疊方法的插圖如下：

第 1 階段包含 3 個隱藏層，階段 2 含有 6 個隱藏層，第 3 階段包含 12 個隱藏層。

第二階段從第 1 階段的 3 個隱藏層中學到的權重開始訓練。第 3 階段從第 2 階段 6 層隱藏層中學到的權重開始訓練。

另請參閱直線符號。

state

#rl

在強化學習中，用於描述環境目前設定的參數值，代理程式可用來選擇動作。

狀態動作值函式

#rl

Q-function 的同義詞。

靜態

#fundamentals

只完成一次特定工作，而不是連續完成。「靜態」和「離線」一詞是同義詞。以下是在機器學習中使用「靜態」和「離線」的常見用途：

「靜態模型」 (或「離線模型」) 是經過訓練一次的模型，會經過一段時間才會使用。

「靜態訓練」 (或「離線訓練」) 是訓練靜態模型的程序。

「靜態推論」 (或「離線推論」) 是一種模型，模型會一次產生一組預測結果。

對比動態。

靜態推論

#fundamentals

離線推論的同義詞。

穩定性

#fundamentals

此特徵的值在一或多個維度中不會改變，通常是時間。舉例來說，值看起來像 2021 年和 2023 年都一樣的特徵。

現實世界中，很少有展覽中心性展覽品。而穩定性 (例如海平面) 的合成功能會隨著時間而變化。

與非期待性的對比。

點選 [下一步]

單一批次的前向傳遞和向後傳遞。

如要進一步瞭解正向傳遞和反向傳遞，請參閱反向傳播。

步距

學習率的同義詞。

隨機梯度下降法 (SGD)

#fundamentals

「梯度下降法」演算法，其中批次大小為一。換句話說，SGD 會透過「訓練集」隨機挑選一個範例，然後隨機進行訓練。

步長

#image

在卷積運算或集區中，下一系列輸入配量中每個維度的差異值。舉例來說，下列動畫示範卷積運算期間的 (1,1) 步。因此，下一個輸入片段會從前一個輸入片段右側的一個位置開始。當作業到達右側邊緣時，下一個切片會一直到最左側，但是一個位置朝下。

上述範例展示了二維步長。如果輸入矩陣是三維，步距也是 3D。

結構風險最小化 (SRM)

在兩個目標間取得平衡的演算法：

需要建構最可預測的模型，例如最低損失。

需要盡可能簡化模型 (例如，強式正則)。

例如，若函式能盡量減少訓練集的損失+正則化，就是結構風險最小化演算法。

與實際風險最小化不同。

向下取樣

#image

請參閱集區相關說明。

子字詞符記

#language

在「語言模型」中，<符記> 為字詞的子字串，可以是整個字詞。

例如，「itemize」這個字詞可能會細分為「item」(根字詞) 和「ize」(後置字元)，每個片段都以自己的符記表示。將不常見的字詞分割成這類部分 (稱為「子字詞」)，語言模型就能針對更常見的組成部分 (例如前置字串和後置字串) 執行相關作業。

相反地，「going」這個常見字詞可能無法拆解，並且可能以單一符記表示。

摘要

#TensorFlow

在 TensorFlow 中，在特定「步驟」中計算的值或一組值，通常用於在訓練期間追蹤模型指標。

監督式機器學習

#fundamentals

從model及對應的model訓練model。監督式機器學習技術類似於學習某個科目，也就是研究一組問題和對應的答案掌握問題和答案之間的對應關係後，學生就能針對相同主題 (未曾見過的新問題) 提供答案。

與非監督式機器學習比較。

合成特徵

#fundamentals

輸入特徵中不存在的「特徵」，而是從一或多個輸入特徵組合而成。以下列舉建立合成特徵的方法：

將連續特徵特徵分塊化為範圍特徵分塊。

建立跨功能。

將某個特徵值乘以其他特徵值或將其除以一個特徵值。舉例來說，如果 a 和 b 是輸入特徵，以下是合成特徵的範例：

ab

a²

將準函式套用至特徵值。舉例來說，如果 c 是輸入特徵，則合成特徵的範例如下：

sin(c)

ln(c)

只透過正規化或資源調度建立的特徵不會視為合成特徵。

T

T5

#language

Google AI 於 2020 年引進的一種文字轉文字遷移學習 模型。T5 是一種編碼器-解碼器模型，以轉換器架構為基礎，使用極大型的資料集訓練而成。這項功能適用於各種自然語言處理工作，例如產生文字、翻譯語言，以及用對話方式回答問題等。

T5 會從「Text-to-Text Transfer Transformer」(文字轉文字轉換轉換) 中的五個 T 取得名稱。

T5X

#language

開放原始碼的機器學習架構，用於建構及訓練大規模的自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (建構建構於 JAX 和 Flax)。

表格 Q 學習

#rl

在強化學習中，使用資料表儲存 state 和 action 組合的 Q-functions 來實作Q-learning。

目標

label 的同義詞。

目標網路

#rl

在「Deep Q-learning」中，類神經網路是主要類神經網路的穩定近似類神經網路，其中主要類神經網路會實作 Q 函數或政策。接著，您就可以在目標網路預測的 Q 值上訓練主要網路。因此，當主要網路使用自行預測的 Q 值進行訓練時，可避免發生回饋循環。避免產生這種回饋，訓練穩定性即可提升。

任務

可使用機器學習技術解決的問題，例如：

分類

迴歸

分群法

異常偵測

溫度

#language

#image

#生成式 AI

「超參數」，可控制模型輸出內容的隨機程度。隨機性參數越高，輸出的隨機性就會越多，而隨機性參數就越低，輸出的結果也較少。

選擇最佳溫度時，需視特定應用程式及模型輸出內容偏好屬性而定。舉例來說，在建立會產生廣告素材輸出內容的應用程式時，您可能會想提高溫度。反之，如果建構能分類圖像或文字的模型，則可能會降低溫度，提升模型的準確率和一致性。

溫度通常會搭配 softmax 使用。

時序資料

記錄在不同時間點的資料。舉例來說，一年中每天記錄的冬季大衣銷售額是時間資料。

Tensor

#TensorFlow

TensorFlow 程式的主要資料結構。張量採用 N 維 (N 可能非常大) 資料結構，最常見的是純量、向量或矩陣。Tensor 的元素可保留整數、浮點值或字串值。

TensorBoard

#TensorFlow

這個資訊主頁會顯示一或多個 TensorFlow 程式執行期間儲存的摘要。

TensorFlow

#TensorFlow

大規模的分散式機器學習平台。這個詞也是指 TensorFlow 堆疊中的基本 API 層，支援在 Dataflow 圖表中進行一般運算作業。

雖然 TensorFlow 主要用於機器學習，但您也可以將 TensorFlow 用於需要以 Dataflow 圖形進行數值運算的非機器學習工作。

TensorFlow Playground

#TensorFlow

此程式以視覺化方式呈現不同超參數對模型 (主要為類神經網路) 訓練的影響。前往 http://playground.tensorflow.org 試用 TensorFlow Playground。

TensorFlow Serving

#TensorFlow

在實際工作環境中部署已訓練模型的平台。

Tensor Processing Unit (TPU)

#TensorFlow

#GoogleCloud

可最佳化機器學習工作負載效能的應用程式專屬整合電路 (ASIC)。這些 ASIC 會在 TPU 裝置上以多個 TPU 晶片部署。

張量排名

#TensorFlow

請參閱「rank (Tensor)」。

張量的形狀

#TensorFlow

Tensor 內含各種維度的元素數量。舉例來說，[5, 10] Tensor 的形狀是一個維度 5，另一個維度為 10。

張量大小

#TensorFlow

Tensor 包含的純量總數。舉例來說，[5, 10] Tensor 的大小為 50。

TensorStore

這個程式庫可有效讀取及寫入大型多維度陣列。

終止條件

#rl

在強化學習中，決定劇集結束時的條件，例如代理程式達到特定狀態，或超過門檻狀態轉換的情況。例如，在 tic-tac-toe (也稱為尋找和十字) 中，劇集會在玩家標示三個連續空格或所有空格都標記時終止。

test

#df

在「決策樹」中，條件的另一個名稱。

測試損失

#fundamentals

指標，代表模型在測試集上的損失。建構model時，您通常會試著盡量減少測試損失。這是因為測試損失率偏低，其品質信號比低訓練損失或驗證損失低。

如果測試損失與訓練損失或驗證損失之間的差距很大，有時代表您必須提高正規化率。

測試集

保留用於測試訓練模型模型的一部分資料集的一部分。

傳統上，您將資料集中的範例分為以下三個不同的子集：

訓練集

驗證集

測試集

資料集中的每個範例都應屬於前述其中一個子集。例如，一個範例不應同時屬於訓練集和測試集。

訓練集和驗證集與模型訓練密切相關。由於測試集只會間接與訓練相關聯，因此與訓練損失或驗證損失相比，測試損失的品質偏誤較低，品質指標也較高。

文字 Span

#language

與文字字串中特定子區段相關聯的陣列索引時距。例如，Python 字串 s="Be good now" 中的 good 會佔用從 3 到 6 的文字跨度。

tf.Example

#TensorFlow

標準的通訊協定緩衝區，用來描述用於機器學習模型訓練或推論的輸入資料。

tf.keras

#TensorFlow

已整合至 TensorFlow 的 Keras 實作。

門檻 (適用於決策樹)

#df

在「軸對齊條件」中，是與特徵比較的值。舉例來說，下列條件的門檻值是 75：

grade >= 75

這種形式的字詞門檻與分類門檻不同。

時間序列分析

#clustering

機器學習與統計資料的子領域，可分析時間資料。許多類型的機器學習問題都需要時間序列分析，包括分類、分群、預測和異常偵測。舉例來說，您可以使用時間序列分析，根據歷來銷售資料，按月預測冬季外套的未來銷售量。

時間步

#seq

循環類神經網路中的一個「未滾動」儲存格，例如，下圖顯示三個時間步驟 (以下標 t-1、t 和 t+1 標示)：

權杖

#language

在「語言模型」中，也就是模型用於訓練及進行預測的不可分割單位。權杖通常是下列其中一種：

例如，「dogs like cats」這個詞組包含三個字詞符記：「dogs」、「like」和「cats」。

一個字元—例如「自行車魚」詞組由九個字元符記組成。(請注意，空格字元算是其中一個符記)。

子字詞，單一字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字元組成。舉例來說，使用子字詞做為符記的語言模型可能會將「dogs」視為兩個符記 (根字詞「dog」和複數後置字串「s」)。同一個語言模型可能會將單一字詞「更高」當做兩個子字詞 (也就是根字詞「tall」和後置字串「er」)。

在語言模型以外的網域中，符記可以代表其他類型的不可拆分單位。舉例來說，在電腦視覺中，權杖可能是映像檔的子集。

塔

本身是深層類神經網路的「深層類神經網路」元件。在某些情況下，每個塔樓會從獨立的資料來源讀取資料，而這些塔樓會保持獨立，直到最終層的輸出內容合併為止。而在其他情況下 (例如，在許多轉換器的編碼器和解碼器堆疊/塔樓中)，塔樓會相互相互連線。

臥室數量	浴室數量	房屋年齡
3	2	15
2	1	72
4	2	34

時間戳記	Temperature
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21

TPU

#TensorFlow

#GoogleCloud

Tensor Processing Unit 的縮寫。

TPU 晶片

#TensorFlow

#GoogleCloud

可程式線性代數加速器，搭載針對機器學習工作負載最佳化的晶片高頻寬記憶體。單一 TPU 裝置中部署了多個 TPU 晶片。

TPU 裝置

#TensorFlow

#GoogleCloud

一個裝有多個 TPU 晶片、高頻寬網路介面和系統冷卻硬體的印刷電路板 (PCB)。

TPU 主要執行個體

#TensorFlow

#GoogleCloud

在主機上執行的中央協調程序，用於傳送及接收資料、結果、程式、效能和系統健康資訊給 TPU 工作站。TPU 主要執行個體也會管理 TPU 裝置的設定和關閉作業。

TPU 節點

#TensorFlow

#GoogleCloud

Google Cloud 上具有特定 TPU 類型的 TPU 資源。TPU 節點會從對等互連虛擬私有雲網路連線至您的虛擬私有雲網路。TPU 節點是 Cloud TPU API 中定義的資源。

TPU Pod

#TensorFlow

#GoogleCloud

Google 資料中心內的 TPU 裝置特定設定。TPU Pod 中的所有裝置都會透過專用的高速網路互相連線。TPU Pod 是特定 TPU 版本可用的 TPU 裝置最大配置。

TPU 資源

#TensorFlow

#GoogleCloud

您在 Google Cloud 上建立、管理或使用的 TPU 實體。例如 TPU 節點和 TPU 類型都是 TPU 資源。

TPU 配量

#TensorFlow

#GoogleCloud

TPU 配量是 TPU Pod 中 TPU 裝置的一部分。TPU 配量中的所有裝置都會透過專用的高速網路互相連線。

TPU 類型

#TensorFlow

#GoogleCloud

一或多組搭載特定 TPU 硬體版本的 TPU 裝置配置。您在 Google Cloud 中建立 TPU 節點時，必須選取 TPU 類型。舉例來說，v2-8 TPU 類型就是搭載 8 個核心的單一 TPU v2 裝置。一個 v3-2048 TPU 類型有 256 個網路 TPU v3 裝置，共 2,048 個核心。TPU 類型是 Cloud TPU API 中定義的資源。

TPU 工作站

#TensorFlow

#GoogleCloud

在主機機器上執行，並在 TPU 裝置上執行機器學習程式的程序。

訓練

#fundamentals

判斷理想參數 (權重和偏誤) 的程序，包括模型。在訓練期間，系統會讀取範例，並逐漸調整參數。訓練會將每個範例從數次到數十億次不等。

訓練損失

#fundamentals

代表模型疊代作業期間的指標指標損失。舉例來說，假設損失函式為Mean Squared Error，也許第 10 次疊代的訓練損失 (平均平方誤差) 為 2.2，而第 100 次疊代的訓練損失為 1.9。

損失曲線會繪製訓練損失與疊代次數的比較。損失曲線提供以下訓練提示：

向下斜坡則代表模型持續改善。

上升斜率則代表模型的成效越來越差。

平斜率表示模型已達成「收斂」。

例如，以下是一些理想的損失曲線：

初始疊代期間的陡降坡，代表快速模型改善。

逐漸簡化 (但仍會向下) 的斜率，直到訓練結束結束為止，這表示在初始疊代作業期間，能以略慢的速度持續改善模型。

訓練結束時的平緩斜坡，表示收斂。

雖然訓練損失很重要，但另請參閱一般化一節。

訓練/應用偏差

#fundamentals

模型在「訓練」期間與該模型在提供期間的效能差異。

訓練集

#fundamentals

用來訓練模型的資料集子集。

傳統上，資料集中的範例分為下列三個不同的子集：

訓練集

驗證集

測試集

在理想情況下，資料集中的每個範例應該只屬於其中一個之前的子集。例如，一個範例不應同時屬於訓練集和驗證集。

軌跡

#rl

在強化學習中，這是一連串狀態轉換的元組，代表代理程式一系列轉換，其中每個元組都會對應到特定狀態轉換的狀態、「動作」、「獎勵」。

遷移學習

在機器學習工作之間轉移資訊。舉例來說，在多工學習中，單一模型會解決多項工作，例如深度模型在不同任務分別使用不同的輸出節點。遷移學習可能需要將知識從較簡單的工作解決方案轉移至更複雜的工作，或是轉移到資料較多的工作中，將知識轉移到資料較少的任務中。

大多數機器學習系統需要解決單一任務。遷移學習可一步步發展人工智慧，因此一個程式可以處理「多項」工作。

Transformer

#language

Google 開發的「類神經網路」架構，採用自我注意力機制，可將一系列的輸入嵌入轉換成一系列輸出嵌入，而不需依賴卷積或循環類神經網路。Transformer 可視為一個自我注意力層的堆疊。

轉換器可包含下列項目：

編碼器

解碼器

無論是編碼器或解碼器

編碼器能將嵌入序列轉換為長度相同的新序列。編碼器包含 N 個相同的層，每個層都含有兩個子層。這兩個子圖層會在輸入嵌入序列的每個位置套用，進而將序列的每個元素轉換為新的嵌入。第一個編碼器子層會匯總輸入序列中的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入

解碼器會將一連串的輸入嵌入轉換為一系列可能不同的輸出嵌入序列。解碼器也包含 N 個相同圖層，層有三個子層，且兩個與編碼器子層相似。第三個解碼器子層會取得編碼器的輸出內容，並套用自我注意力機制，從中收集資訊。

這篇網誌文章「Transformer：語言理解的新類神經網路架構」提供了關於轉換器的詳細說明，

平移不變性

#image

在圖片分類問題中，即使圖片中的物件位置變更，演算法仍可成功分類圖片。舉例來說，無論狗在影格中心或影格左側，演算法都能辨識。

另請參閱「大小差異」和「旋轉變動差異」。

三角形

#seq

#language

包含 N=3 的 N 語法。

真陰性 (TN)

#fundamentals

模型「正確」預測「負類別」的例子。例如，模型推論特定電子郵件「不是垃圾郵件」，且該電子郵件實際上並非「垃圾郵件」。

真陽性 (TP)

#fundamentals

模型「正確」預測「正面類別」的例子。例如，模型推斷特定電子郵件為垃圾郵件，而該電子郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是：

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

正向比率是指 ROC 曲線中的 Y 軸。

U

不知道 (屬於敏感屬性)

#fairness

存在敏感屬性，但不包含在訓練資料的情況。由於敏感屬性通常與資料的其他屬性相關聯，因此如果訓練模型時不知道某項敏感屬性，就仍可能對該屬性產生差異，或是違反其他公平性限制。

配料不足

#fundamentals

產生具有預測能力不佳的model，因為模型尚未完整擷取訓練資料的複雜程度。許多問題都可能會導致系統未適當調整，包括：

以錯誤的功能組合進行訓練。

訓練的訓練週期過少，或學習率過低。

正規化率過高的訓練。

在深層類神經網路中提供過少的隱藏層。

低取樣

從類別不平衡資料集中的主要類別移除範例，以建立更平衡的訓練集。

例如，假設資料集裡主要類別與「少數類別」的比例為 20:1。如要克服這個類別不平衡的情況，您可以建立訓練集，其中包含「所有」少數類別範例，但僅包含主要類別範例的「十」，這樣就會建立訓練集類別比例為 2:1。由於取樣偏少，這個訓練集越平衡，可能會產生更好的模型。或者，這個訓練集相當平衡的訓練集，可能包含足夠的範例來訓練有效的模型。

與過度取樣比較。

單向

#language

這個系統只會評估文字「前方」目標區段的文字。相反地，雙向系統會評估「之前」和「追蹤」文字目標區段的文字，詳情請參閱雙向模式。

單向語言模型

#language

語言模型：僅依據「之前」 (而非「之後」) (而非「之後」) 顯示的權杖，決定其機率。與雙向語言模型的對比。

未加上標籤的範例

#fundamentals

包含 features 但不含標籤的示例。舉例來說，下表顯示房屋估值模型的三個未加上標籤的範例，每個範例有三個特徵，但沒有房屋價值：

臥室數量浴室數量房屋年齡

3 2 15

2 1 72

4 2 34

在監督式機器學習中，模型會根據加上標籤的範例進行訓練，並針對未加上標籤的範例進行預測。

在半監督式和非監督式學習中，未加上標籤的範例會在訓練期間使用。

與未加標籤示例的對比已加上標籤的範例。

非監督式機器學習

#clustering

#fundamentals

訓練model找出資料集中模式，通常是未加上標籤的資料集。

非監督式機器學習最常見的用途是將資料「分群」為一組相似的範例群組。例如，非監督式機器學習演算法可以根據音樂的各種屬性將歌曲分群，產生的叢集可能會成為其他機器學習演算法的輸入內容 (例如音樂推薦服務)。在實用標籤稀少或不存在時進行分群法，例如，在反濫用和詐欺等領域中，叢集可協助人類進一步瞭解資料。

與監督式機器學習的差異。

按一下圖示即可查看其他附註。

非監督式機器學習的另一個例子是主要元件分析 (PCA)。舉例來說，將 PCA 套用至包含數百萬購物車內容的資料集時，可能會發現含有檸檬的購物車也經常含有環類酸。

升幅模擬

一種行銷技巧，通常用於行銷，可模擬「因果」對「個人」的「因果影響」而產生的「因果影響」模型。請看以下兩個範例：

醫生可能會根據病患 (個人) 的年齡和病歷，使用升幅模型來預測醫療程序 (治療) 的死亡率 (因果影響)。

行銷人可以使用升幅模擬，預測廣告 (個別對象) 因廣告 (個別) 而購買 (因果影響) 的機率增幅。

升幅模擬與分類或迴歸不同，因為升幅模型總是缺少部分標籤 (例如二元處理中的一半標籤)。舉例來說，患者不一定能夠接受治療，因此只能觀察患者是否只有在上述兩種情況之一 (但並非兩者都) 中能夠進行治療。升幅模型的主要優點是可以針對未觀察到的情況 (「反事實」) 產生預測結果，並用來計算因果影響。

增加

將權重套用到 downsampled 類別，和套用縮減係數的係數。

使用者矩陣

#recsystems

在推薦系統中，這是由矩陣分解產生的嵌入向量，其中含有與使用者偏好相關的潛在信號。使用者矩陣的每一列都會保留單一使用者各種潛在信號的相對等級資訊。以電影推薦系統為例，在此系統中，使用者矩陣中的潛在信號可能代表每位使用者對特定類型的興趣，或可能難以解讀的信號，而信號又涵蓋多個因素的複雜互動。

使用者矩陣會有每個潛在特徵的資料欄，以及每位使用者的一列。也就是說，使用者矩陣與要分解的目標矩陣的列數相同。舉例來說，假設有一個電影推薦系統適用於 1,000,000 位使用者，使用者矩陣會有 1,000,000 列資料。

V

validation

#fundamentals

模型品質的初始評估作業。驗證程序會根據驗證集來檢查模型預測的品質。

由於驗證集與「訓練集」不同，驗證集有助於防範過度配適。

建議您根據驗證集評估模型，這是第一輪測試的結果，並以「測試集」做為第二輪測試來評估模型。

驗證損失

#fundamentals

「指標」代表在特定訓練的「疊代集」中，模型在驗證集的損失。

另請參閱一般化曲線。

驗證集

#fundamentals

針對訓練完成的模型執行初始評估的資料集子集。您通常會先根據驗證集評估已訓練模型，再依據測試集評估模型。

傳統上，您將資料集中的範例分為以下三個不同的子集：

訓練集

驗證集

測試集

在理想情況下，資料集中的每個範例應該只屬於其中一個之前的子集。例如，一個範例不應同時屬於訓練集和驗證集。

值計算

以可接受的替代值取代遺漏值的程序。當缺少值時，您可以捨棄整個範例，也可以使用值計算功能對範例填充。

舉例來說，假設某個資料集含有每小時應記錄的 temperature 功能。但是，無法取得某時段的溫度讀數。以下是資料集的一個部分：

時間戳記 Temperature

1680561000 10

1680564600 12

1680568200 missing

1680571800 20

1680575400 21

1680579000 21

視運算演算法而定，系統可能會刪除遺漏的範例，或以 12、16、18 或 20 表示缺少的溫度。

消失的漸層問題

#seq

某些「深層類神經網路」早期隱藏層的梯度傾向出現明顯平放 (低) 的情況。梯度越低，越小，變更深層類神經網路中節點的權重就會越小，進而導致很少或完全沒有學習。出現消失漸層問題的模型，會難以訓練或無法訓練。針對長短期記憶體儲存格，已解決這個問題。

與爆炸漸層問題比較。

變數重要性

#df

一組分數，指出每個特徵與模型的相對重要性。

舉例來說，假設有可用來預估房價的決策樹。假設這個決策樹使用三個特徵：大小、年齡和樣式如果計算三個特徵的變數重要性組合為 {size=5.8, age=2.5, style=4.7}，那麼大小在決策樹上，比年齡或樣式更重要。

有不同的變數重要性指標，可幫助機器學習專家瞭解模型的不同面向。

變分自動編碼器 (VAE)

#language

一種自動編碼器，可利用輸入和輸出內容之間的差異，產生修改後的輸入內容版本。變分自動編碼器適合用於生成式 AI。

VAE 是以變種推論為基礎，也就是預估機率模型參數的技巧。

向量

超載字詞，意義因不同數學和科學欄位而異。在機器學習中，向量具有兩種屬性：

資料類型：機器學習中的向量通常會儲存浮點數。

元素數量：向量的長度或尺寸。

舉例來說，假設有一個特徵向量，其中含有八個浮點數。這個特徵向量的長度或尺寸為 8。請注意，機器學習向量通常具有多種維度。

您可以用向量表示多種不同類型的資訊。例如：

地球表面上的任何位置都可以以 2D 向量表示，其中一個維度為緯度，另一個維度是經度。

每 500 支股票的目前價格可用 500D 向量表示，

對有限數量類別的可能性分佈會以向量表示。舉例來說，如果多重類別分類系統預測三種輸出顏色 (紅色、綠色或黃色) 之一的系統，可能會輸出向量 (0.3, 0.2, 0.5) 代表 P[red]=0.3, P[green]=0.2, P[yellow]=0.5。

向量可以串連；因此，各種不同媒體都能以單一向量來表示。部分模型會直接處理許多 one-hot 編碼的串連，

TPU 等專門處理器經過最佳化調整，可在向量上執行數學運算。

向量是張量中的排名1.

三

Wasserstein 損失

生成對抗網路中常用的其中一個損失函式，以產生資料分佈和實際資料之間的地球移動者距離為依據。

權重

#fundamentals

模型乘以另一個值的值。訓練是判斷模型理想權重的過程；推論使用這些預測結果的過程

按一下圖示即可查看線性模式中權重的範例。

假設建立包含兩個特徵的線性模型。假設訓練會決定下列權重 (和偏誤)：

偏誤 (b) 的值為 2.2

與一個特徵相關聯的權重₁為 1.5。

與其他特徵相關聯的權重₂為 0.4。

現在，請設想具有下列特徵值的範例：

一個特徵的值 x₁ 為 6。

另一個特徵的值 x₂ 為 10。

此線性模型使用以下公式產生預測結果「y」：

$$y' = b + w_1x_1 + w_2x_2$$

因此，預測結果是：

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果權重為 0，表示對應的特徵不會對模型做出貢獻。例如，如果 w₁ 為 0，x₁ 的值就不相關。

最小交替的最小平方 (WALS)

#recsystems

在推薦系統中，在矩陣分解期間盡量減少目標函式的演算法，可以降低遺漏樣本的權重。WALS 透過修正列分解和資料欄分解，藉此盡可能降低原始矩陣和重新建構之間的加權平方誤差。每項最佳化作業都可透過最小平方的凸式最佳化來解決。詳情請參閱推薦系統課程。

加權總和

#fundamentals

所有相關輸入值的總和乘以對應權重。舉例來說，假設相關輸入內容包含下列項目：

輸入值輸入權重

2 1.3 號

-1 0.6

3 0.4

因此加權後的加總如下：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是啟用函式的輸入引數。

寬模型

通常具有許多稀疏輸入特徵的線性模型。我們將模型稱為「寬版」，因為這類模型是特殊的類神經網路，內含大量直接連接至輸出節點的輸入內容。相較於深層模型，寬版模型通常更容易偵錯及檢查。雖然寬模型無法透過隱藏層表示非線性，但寬型模型可以使用交錯組合特徵和值區化等轉換，以不同方式模擬非線性產業。

與深度模型比較。

寬度

「類神經網路」中特定層的數量。

觀眾智慧

#df

只要把眾多意見或估計值加以平均，就能產生意料之外的結果。舉例來說，假設一款遊戲可讓使用者猜測藏在大罐子的數量。雖然大多數個人的猜測都不準確，但所有猜測的平均猜測值已經很像罐子裡的實際數量，看起來出乎意料。

Ensembles 是群眾使用的軟體類比。即使個別模型的預測出得非常不準確，平均來說，將許多模型的預測結果加以平均後，就會產生出乎意料的良好預測結果。舉例來說，雖然個別「決策樹」的預測可能不理想，但「決策樹系」往往會產生非常良好的預測。

字詞嵌入

#language

表示 嵌入向量中字詞集中的每個字詞，也就是將每個字詞表示為介於 0.0 和 1.0 之間的浮點值向量。與含不同含意的字詞相比，具有相似含義的字詞表示法更多。舉例來說，「carrots」、「celery」和「cucumbers」各自的表示法都相對類似，這和「飛機」、「太陽眼鏡」和「toothpaste」表示法非常不同。

X

XLA (加速線性代數)

適用於 GPU、CPU 和機器學習加速器的開放原始碼機器學習編譯器。

XLA 編譯器採用 PyTorch、TensorFlow 和 JAX 等熱門機器學習架構的模型，並最佳化這些架構，以便在不同的硬體平台 (包括 GPU、CPU 和機器學習加速器) 之間進行高效能執行。

Z

零樣本學習

在一種機器學習「訓練」中，模型針對尚未特別訓練的工作推論「預測」。換句話說，模型得到零工作相關訓練範例，但要求對該工作執行推論。

零樣本提示

#language

#生成式 AI

不提供大型語言模型回應範例的提示。例如：

單一提示的組成部分附註

指定國家/地區的官方貨幣為何？ 您希望 LLM 回答的問題。

印度： 實際查詢。

大型語言模型可能會提供下列其中一項回應：

盧比符號

INR

₹

印度盧比

盧比

印度盧比

以上皆是，不過您可能想使用特定格式。

比較零樣本提示與下列字詞：

單樣本提示

少量樣本提示

Z 分數正規化

#fundamentals

一種「縮放」技術，將原始特徵值替換為浮點值，代表與該特徵平均值的標準差數。舉例來說，假設某個特徵的平均值為 800，且標準差為 100 的特徵。下表顯示 Z 分數正規化如何對應原始值與 Z 分數：

原始值 Z 分數

800 0

950 +1.5

575 -2.25

接著，機器學習模型會根據該特徵的 Z 分數 (而非原始值) 進行訓練。