機器學習詞彙表

本詞彙表定義了一般的機器學習術語,並 特定詞彙

A

消融

評估特徵重要性的技巧 或元件暫時從模型移除。然後 不使用該特徵或元件,重新訓練模型 但運作時間明顯較差,則已移除的功能或元件 可能很重要

舉例來說,假設您以 10 項功能訓練分類模型,並在測試集上獲得 88% 的精確度。如要檢查第一個特徵的重要性,您可以只使用其他九個特徵重新訓練模型。如果重新訓練模型的成效明顯較差 (例如 55% 的精確度),則已移除的特徵可能很重要。反之,如果重新訓練的模型成效同樣良好,那麼該特徵可能就不是那麼重要。

模糊處理也有助於判斷以下各方面的重要性:

  • 較大的元件,例如大型機器學習系統的整個子系統
  • 處理程序或技術,例如資料預先處理步驟

無論是哪種情況,您都會在移除元件後,觀察系統效能是否有所變動 (或不變動)。

A/B 測試

用來比較兩項 (或多個) 技術的統計方法:AB。一般而言,A 是現有的技術, B 是新技術。 A/B 版本測試不僅可以判斷哪種技巧成效較佳,還可以判定差異是否具有統計顯著性。

A/B 測試通常會以兩種技術來比較單一指標。 例如,如何比較兩個模型的準確率 ?不過,A/B 版本測試也可以比較任意有限數量的指標。

加速器晶片

#GoogleCloud

一類專門的硬體元件,專門用於執行深度學習演算法所需的重要運算。

與通用 CPU 相比,加速器晶片 (或簡稱「加速器」) 可大幅提升訓練和推論工作速度和效率。非常適合訓練神經網路和類似的運算密集型工作。

加速器晶片的例子包括:

  • 搭載專屬硬體的 Google Tensor Processing Unit (TPU) 深度學習的不同之處
  • NVIDIA 的 GPU 雖然最初是為了圖形處理而設計,但可支援平行處理,因此可大幅提升處理速度。

精確度

#fundamentals

正確分類 預測 的數量除以 除以預測總數也就是:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

舉例來說,如果模型正確預測 40 次,錯誤預測 10 次,則準確率為:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類會為正確預測錯誤預測的不同類別提供特定名稱。因此,二元分類的準確度公式如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

比較準確率: 精確度喚回度

請參閱分類:準確率、喚回度、精確度和相關 指標

動作

#rl

強化學習中,代理程式環境狀態之間轉換的機制。代理程式會使用 政策

激活函式

#fundamentals

類神經網路學習的函式 特徵之間的nonlinear (複雜) 關係 和標籤之間的關係

常見的啟用函式包括:

激活函式的圖表絕不會是單一直線。例如,ReLU 活化函數的圖含 兩條直線:

兩條折線圖。第一行具有常數
          y 值為 0,沿著 X 軸 (-infinity,0 到 0,-0) 計算。
          第二行的起始值為 0,0。此線條的斜率為 +1,因此會從 0,0 到 +infinity,+infinity。

以下是對數函數的活化函數圖表:

這張兩維曲線圖的 x 值範圍從 -infinity 到 +positive,y 值範圍則從 0 到 1。當 x 為 0 時,y 為 0.5。曲線的斜率一律為正值,最高斜率為 0.0.5,且隨著 x 的絕對值增加,斜率會逐漸降低。

如需更多資訊,請參閱機器學習速成課程中的「神經網路:啟用函式」。

主動學習

訓練方法,演算法會選擇部分學習資料。當標記範例稀少或難以取得時,主動式學習就特別有用。與其盲從尋找豐富多元化的 會選擇性地找出已加上標籤的樣本範圍 學習所需的特定樣本範圍

AdaGrad

這是一種複雜的梯度下降演算法,可重新調整每個參數的梯度,有效為每個參數提供獨立的學習率。如需完整說明,請參閱 這份 AdaGrad 論文

服務專員

#rl

在「強化學習」中, 使用 政策,讓其預期退貨 環境

一般而言,虛擬服務專員是能自主規劃及執行 有助達成目標的一系列行動,且能因應各種變化 對環境的認識。舉例來說,以 LLM 為基礎的虛擬服務專員可能會使用 而非應用增強學習政策,而是改為生成計畫。

聚合式分群法

#clustering

請參閱階層分群法

異常偵測

找出離群值的程序。舉例來說,如果某個特徵的平均值為 100,標準差為 10,則異常偵測功能應將 200 的值標示為可疑。

AR

綜合現實的縮寫。

公關曲線下的面積

請參閱 PR AUC (PR 曲線下的面積)

ROC 曲線下面積

請參閱 AUC (ROC 曲線下的面積)

通用人工智慧

非人類機制,可展現多樣的解決問題、創造力和適應力。例如 一般情報可以翻譯文字、撰寫交響 因為我們還沒打造出這一類遊戲。

人工智慧

#fundamentals

可解決複雜任務的非人為程式或模型。 舉例來說,翻譯文字的程式或模型,以及從放射影像中識別疾病的程式或模型,都屬於人工智慧。

從形式上來說,機器學習是人工智慧的子領域 人工智慧技術然而,近年來有些組織已經開始使用 「人工智慧」和「機器學習」這兩個詞彙可以互換。

注意力

#language

用於類神經網路的機制 瞭解某個字詞或某部分的重要性壓縮注意力 預測下一個符記/字詞時需要的資訊量。 典型的注意力機制可能包含一組輸入值的加權總和,其中每個輸入值的權重由神經網路的另一個部分計算。

請參閱自我注意力多頭自我注意力,這兩者是 Transformer 的構建元件。

請參閱 LLM:什麼是大型語言模型? 該怎麼辦? ,進一步瞭解自我注意力。

屬性

#fairness

feature 同義。

在機器學習公平性方面,屬性通常是指 以及個人專屬的特徵

屬性取樣

#df

訓練決策樹系的策略 決策樹只會考量隨機子集 瞭解狀況特色特色。 一般來說,每個節點會抽樣不同的子集功能。相較之下,訓練決策樹 如未進行屬性取樣,每個節點會將所有可能採用的功能列入考量。

AUC (ROC 曲線下面積)

#fundamentals

介於 0.0 到 1.0 之間的數字,代表 二元分類模型 可將正向類別負面類別。 AUC 越近 1.0,模型的分離能力也越高 不同的儲存空間級別

舉例來說,下圖所示的分類器模型可完美區分正類 (綠色橢圓形) 和負類 (紫色矩形)。這個不切實際的完美模型的 AUC 為 1.0:

有 8 個正面範例的數字行
          一側則是 9 個負面示例。

相反地,下圖顯示分類器結果 來產生隨機結果這個模型的 AUC 為 0.5:

含有 6 個正例和 6 個負例的數字行。
          範例序列為正數、負值
          正面, 負面, 正面, 負面, 正面, 負面, 正面, 正面
          負面、正面、負面

是的,先前的模型 AUC 為 0.5,而非 0.0。

大多數模型都在兩極端之間。舉例來說,下列模型可將正面和負面結果分開,因此 AUC 值介於 0.5 和 1.0 之間:

數軸上有 6 個正例和 6 個負例。常見做法是排除、排除、排除、排除指定
          正面, 負面, 正面, 正面, 正面, 正面, 正面, 正面,
          正面影響。

AUC 會忽略您為 分類門檻:而是 AUC 考量「所有」可能的分類門檻。

詳情請參閱機器學習速成課程中的「分類:ROC 和 AUC」一文。

擴增實境

#image

一種技術,在使用者看著螢幕前,將電腦產生的圖片疊加顯示 因此提供了複合檢視

自動編碼器

#language
#image

學習如何從 。自動編碼器是結合編碼器解碼器。自動編碼器會採用下列兩步驟程序:

  1. 編碼器會將輸入內容對應至 (通常) 有損的低維 (中間) 格式。
  2. 解碼器會對應以 從較低維度到原始的高階格式 輸入格式

自動編碼器則是由解碼器 透過編碼器轉介格式重新建構原始輸入內容 轉介格式較小 (小於原始格式),則強制使用自動編碼器。 瞭解輸入內容中不可或缺的資訊 與輸入內容完全相同

例如:

  • 如果輸入資料是圖形,非精確複製的圖形會與原始圖形相似,但會略為修改。或許是 非完全比對的文案可消除原始圖像或填充雜訊 缺少像素
  • 如果輸入資料是文字,自動編碼器會產生新文字 模仿 (但並非完全相同) 的原始文字。

另請參閱變分自動編碼器

自動化偏誤

#fairness

人工決策者對自動化系統的推薦有利於行 決策系統使用不需自動化處理的資訊, 自動決策系統出錯

請參閱「公平性:類型」 偏誤

AutoML

任何用於打造機器學習的自動化程序 模型。AutoML 可自動執行以下任務:

  • 搜尋最合適的模型。
  • 調整超參數
  • 準備資料 (包括 特徵工程)。
  • 部署產生的模型。

AutoML 對數據資料學家來說非常實用,因為它可以節省開發機器學習管道的時間和精力,並提高預測準確度。對非專家也很有用 更容易存取機器學習任務

如需詳細資訊,請參閱機器學習速成課程中的「自動化機器學習 (AutoML)」一文。

自動迴歸模型

#language
#image
#generativeAI

一種模型,可根據模型本身的過去 預測結果例如,自迴歸語言模型 token。 所有以 Transformer 為基礎的大型語言模型都是自動迴歸模型。

相反地,GAN 型圖片模型通常不會自動迴歸 因為這類模型產生一張圖像 100 萬步的訓練不過,某些圖像產生模型自動迴歸的,因為它們會分步驟產生圖像。

輔助損失

損失函式:與 類神經網路 模型的主要 來加快訓練期間的 初期疊代。

輔助損失函式可推進有效的梯度 移至前面的圖層這有助於在訓練期間收斂,因為它可對抗梯度消失問題

平均精確度

這個指標用於彙整特定序列結果的成效。 計算平均精確度的方法是將每個相關結果的 精確度 值相加後除以總數。精確度 是指在排名清單中,每個結果的回溯率相較於前一個結果有所提升。

另請參閱公關曲線下的面積

軸對齊條件

#df

決策樹中,狀況 只包含單一功能。舉例來說 是特徵,那麼下列是根據軸對齊的條件:

area > 200

斜線條件形成對比。

B

反向傳播

#fundamentals

類神經網路中實作梯度下降的演算法。

訓練類神經網路涉及許多疊代 循環階段的流程:

  1. 正向傳遞期間,系統會處理示例批次,產生預測結果。系統會比較每個 對應至每個標籤值。預測值與標籤值之間的差異就是該例子的損失。系統會匯總所有範例的損失,以便計算目前批次的總損失。
  2. 反向傳遞 (反向傳播) 期間,系統會 調整所有神經元的權重 隱藏的圖層

類神經網路通常包含許多隱藏層中的神經元。這些神經元會以不同方式造成整體損失。 反向傳播會決定是否要增加或減少權重 特定神經元

學習率是控制 每次向下傳遞量增加或減少的程度。 如果學習率很高,每個權重的增減幅度會比 小學學習率

在微積分術語中,反向傳播會實作微積分中的鏈式法則。也就是說,反向傳播會計算 錯誤的部分導數, 事件回應每個參數。

多年前,機器學習從業人員必須撰寫程式碼來實作反向傳播。 如今,Keras 等新型機器學習 API 會為您實作反向傳播。太好了!

詳情請參閱機器學習速成課程中的「類神經網路」一文。

行李

#df

這是一種訓練集成的方法,其中每個組成部分模型會針對取樣並替換的隨機訓練示例子集進行訓練。舉例來說,隨機森林是使用袋裝法訓練的決策樹集合。

「bagging」一詞是「bootstrap aggregating」的縮寫,意指「bootstrap aggregating」。

詳情請參閱「決策樹」課程中的「隨機森林」一節。

一堆單字

#language

表示詞組或段落中字詞的形式,不論順序為何。例如,字詞袋代表 以下三個詞組必須完全相同:

  • 狗跳躍
  • 跳躍的狗
  • 狗跳躍

每個字詞都會對應至稀疏向量中的索引,其中向量會為詞彙中的每個字詞提供索引。舉例來說,字詞「the dog jumps」會對應至特徵向量,其中三個索引的值皆不為零,分別對應至「the」、「dog」和「jumps」。非零值可以是下列任一值:

  • 1 代表字詞是否存在。
  • 字詞在袋子中出現的次數。例如: 如果該詞組是「暗紅色狗狗 是杯狀毛」,則兩者皆是 「maroon」和「dog」會以 2 表示,其他字詞則以 2 表示 以 1 表示。
  • 其他值,例如字詞在袋子中出現次數的對數。

基準

模型可做為參考點,用於比較另一個模型的成效 (通常較為複雜) 的效能舉例來說 邏輯迴歸模型或許可做為 深度模型的有效基準。

就特定問題而言,基準有助於讓模型開發人員量化 新模型預期能達到的最低成效 取得實用模型

Batch

#fundamentals

在單一訓練疊代中使用的範例集。批次大小會決定批次中的示例數量。

請參閱 訓練週期,瞭解批次與下列指標的關係: 一個訓練週期

詳情請參閱機器學習速成課程中的「線性迴歸:超參數」一文。

批次推論

#TensorFlow
#GoogleCloud

針對多個事件,推論多個預測結果的程序 未加上標籤的範例 子集 (「批次」)。

批次推論可運用加速器晶片的平行處理功能。也就是說 就能同時針對不同未加上標籤的批次資料進行預測 大幅提高每秒推論次數

如需更多資訊,請參閱機器學習速成課程中的「正式版 ML 系統:靜態與動態推論」。

批次正規化

正規化啟用函式隱藏層中的輸入或輸出內容。批次正規化可提供下列優點:

批量

#fundamentals

批次中的示例數量。舉例來說,如果批量為 100,模型就會處理 每次疊代最多 100 個範例。

以下是常見的批次大小策略:

  • 隨機梯度下降 (SGD),批次大小為 1。
  • 完整批次,其中批量為整份樣本中的樣本數 訓練集。舉例來說,如果訓練集包含一百萬個範例,則批量大小就是一百萬個範例。全批次通常是效率不佳的策略。
  • 微批次,其中批次大小通常介於 10 到 1000 之間。通常最有效率的做法是使用迷你批次。

詳情請參閱下列說明文章:

貝氏神經網路

這種概率「類神經網路」 權重和輸出內容的不確定度。標準神經網路迴歸模型通常會預測單一值;例如標準模型預測房價為 853,000 美元。相較之下,貝氏神經網路會預測值的分配情形。舉例來說,貝氏模型會預測房價為 853,000 元,標準差為 67,200 元。

貝葉斯神經網路會使用貝葉斯定理來計算權重和預測的不確定性。貝葉斯神經 當有需要量化不確定性時 (例如 製藥類模型貝葉斯類神經網路也能協助 避免過度配適

貝式最佳化

機率迴歸模型:一種用來最佳化計算成本高昂的目標函式的技術,其做法是改為最佳化使用貝氏學習技術量化不確定性的替代值。由於貝葉斯最佳化本身的成本很高,因此通常用於最佳化評估成本高且參數數量少的工作,例如選擇超參數

Bellman 方程式

#rl

在強化學習中,最佳 Q 函式 會滿足下列等式:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法適用於 身分識別方式透過下列更新規則建立 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了強化學習之外,Bellman 方程式也適用於動態規劃。請參閱 維基百科的 Bellman 方程式條目

BERT (雙向編碼器) Transformer 的表示法)

#language

文字表示法的模型架構。經過訓練的 BERT 模型可用於文字分類或其他機器學習工作,做為更大型模型的一部分。

BERT 具備下列特性:

BERT 的變化版本包括:

  • ALBERT 是「A」「L」「BERT」的縮寫。
  • LaBSE

如需 BERT 的總覽資訊,請參閱「開放原始碼 BERT:自然語言處理最先進的預先訓練技術」。

偏見 (倫理/公平性)

#fairness
#fundamentals

1. 對某些事物、人物或事物的刻板印象、偏見或偏見 或群組比其他群組這些偏誤可能會影響集合 解讀資料、系統設計,以及使用者與資料互動的方式 是使用系統這類偏誤的形式包括:

2. 系統性錯誤:這類偏誤的形式包括:

請勿與機器學習模型中的偏差項預測偏差混淆。

詳情請參閱機器學習速成課程中的「公平性:偏見類型」。

偏差 (數學) 或偏差項

#fundamentals

從原點的截距或偏移量。偏誤是 機器學習模型,這類模型會以 包括:

  • b 鍵
  • w0

例如,偏差是下列公式中的 b

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線條中,偏差就是「y 軸截距」。例如,下圖中的線條偏誤為 2。

斜坡為 0.5 且偏誤 (y 截距) 為 2 的線條圖。

偏差的存在是因為並非所有模型都從原點 (0,0) 開始。例如: 假設遊樂園入場費 2 歐元, 客戶入住每小時 0.5 歐元。因此,將總費用對應至模型的模型偏差為 2,因為最低費用為 2 歐元。

偏誤與倫理和公平性偏誤預測偏誤不同。

詳情請參閱機器學習速成課程中的「線性迴歸」一文。

雙向

#language

這個詞彙是用來描述系統評估同時「之前」的文字 然後遵循目標部分的文字。相反地,單向系統只會評估目標文字段落前面的文字。

比方說,假設有遮罩的語言模型 必須判定代表底線的字詞或詞組 下列問題:

你有哪些 _____?

單向語言模型只需要以其機率為基礎 顯示「What」、「is」和「the」等字詞。相對地 雙向語言模型也能透過「使用」以及「您」, 有助於模型產生更準確的預測結果

雙向語言模型

#language

一種語言模型,可判定 特定符記會引用至指定位置, 上一個後續文字。

Bigram

#seq
#language

其中 N=2 的 N 語法

二元分類

#fundamentals

這種分類工作類型,會 會預測兩個互斥的類別之一:

舉例來說,下列兩個機器學習模型各自執行二元分類:

  • 判斷電子郵件是否屬於 spam (正類別) 或 not spam (排除類別)。
  • 評估醫療症狀的模型,用於判斷某人是否患有特定疾病 (正類別),或沒有該疾病 (負類別)。

請參閱多元分類

另請參閱邏輯迴歸分類閾值

請參閱分類。 。

二元條件

#df

決策樹中,只有兩種可能結果的條件,通常是「是」或「否」。例如,以下是二元條件:

temperature >= 100

非二元條件對比。

詳情請參閱決策樹課程中的「條件類型」。

特徵分塊

與「分桶」同義。

BLEU (雙語評估研究)

#language

介於 0.0 到 1.0 (含) 之間的分數,表示翻譯品質 。BLEU 1.0 分表示這是完美的翻譯BLEU 分數為 0.0 分,表示 糟糕的翻譯

增強

一種機器學習技術,會透過加重模型目前誤分類的範例,將一組簡單且準確度不高的分類器 (稱為「弱」分類器) 逐一結合成準確度較高的分類器 (稱為「強」分類器)。

詳情請參閱決策樹課程中的「梯度提升決策樹」。

定界框

#image

在圖片中,矩形區域的 (x, y) 座標 例如下圖中的狗。

一張狗狗坐在沙發上的相片。綠色定界框
          以左上方座標為 (275、1271) 和右下角
          (2954, 2761) 的座標,用來表示狗的身體

廣播

將矩陣數學運算中的運算元形狀延伸到 該作業相容的維度。例如: 線性代數需要矩陣加總運算中的兩個運算元 都必須具有相同尺寸。因此,您無法新增形狀矩陣 (m, n) 乘以長度為 n 的向量播送功能可讓作業 以虛擬方式將長度 n 的向量擴展到形狀 (m, n) 的矩陣,方法是 將相同的值複製到各個資料欄

舉例來說,在下列定義中,線性代數會禁止 A+B,因為 A 和 B 的維度不同:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

不過,廣播功能可透過虛擬方式將 B 展開為以下作業 A+B:

 [[2, 2, 2],
  [2, 2, 2]]

因此,A+B 現在是有效的作業:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

如需詳細資訊,請參閱以下關於 NumPy 中廣播的說明。

資料分組

#fundamentals

將單一功能轉換成多個二進位功能 稱為 bucketsbins 通常是根據數值範圍切碎的功能通常是 持續推送功能

舉例來說,與其將隨機性參數 持續浮點功能,可以設定不同溫度範圍 拆分為離散值區,例如:

  • 攝氏 10 度稱為「冷」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區
  • 11 到 24 攝氏度屬於「溫和」區間。
  • 攝氏 25 度以上則是「溫暖」分類。

模型會將相同值區中的每個值視為相同。舉例來說,1322 這兩個值都屬於溫帶值區,因此模型會以相同方式處理這兩個值。

詳情請參閱機器學習速成課程中的「數值資料:分箱」一文。

C

校正層

預測後調整,通常用於考量預測偏差。調整後的預測和 機率應與觀察到的標籤集分佈相符。

生成候選字

#recsystems

最初所選建議的一組建議 推薦系統:舉例來說,假設 販售 10 萬本書籍的書店。候選生成階段 是提供給特定使用者的精簡書籍清單,例如 500不過,即使是 500 本書籍,也太多了,無法向使用者推薦。推薦系統後續的階段 (例如評分重新排名) 會將這 500 個推薦內容縮減為更少、更實用的推薦內容。

詳情請參閱推薦系統課程中的「候選項目產生方式總覽」。

候選抽樣

訓練期間最佳化,可使用 softmax 等方法,為所有正面標籤計算機率,但只針對隨機的負面標籤樣本。例如 beagledog 這兩個候選樣本會計算預測的可能性 與相應的損失條款:

  • 米格魯
  • 其餘排除類別的隨機子集 (例如 cat lollipopfence)。

這項做法的概念是,只要正類一律獲得適當的正向強化,負類就能夠從較少的負向強化學習,這點確實是根據經驗得出的結論。

候選項目取樣比起訓練演算法,更能有效地計算「所有」負面類別的預測值,尤其是當負面類別數量龐大時。

類別型資料

#fundamentals

特徵具有特定的可能值組合。舉例來說,請考量名為 traffic-light-state 的類別特徵,該特徵只能採用下列三個可能值之一:

  • red
  • yellow
  • green

透過將 traffic-light-state 表示為類別特徵 模型就能學習 針對 redgreenyellow 對駕駛行為的影響。

類別特徵有時也稱為離散特徵

請參閱數值資料

詳情請參閱機器學習速成課程中的「處理分類資料」一節。

因果語言模型

#language

單向語言模型的同義詞。

請參閱雙向語言模型,瞭解語言建模中的不同方向方法。

群集中心

#clustering

k-meansk-median 演算法。舉例來說,如果 k 為 3,則 k-means 或 k-median 演算法會找出 3 個群集中心。

如需更多資訊,請參閱「分群」課程中的「分群演算法」一節。

基於中心的分群法

#clustering

一種分群演算法類別,可將資料分組為非階層叢集。k-means 是目前最常用的以中心點為基礎的分群演算法。

階層分群法的對比 演算法。

請參閱分群演算法 請參閱「叢集」課程

思維鏈提示

#language
#generativeAI

提示工程技術: 大型語言模型 (LLM) 一步一腳印舉例來說,請思考 請特別留意第二句話:

如果車輛在 7 秒內從 0 加速到每小時 60 英里,駕駛者會感受到多少 g 力?在答案中顯示所有相關計算。

LLM 可能會回覆:

  • 顯示一系列物理公式,將值插入 0、60 和 7 適當的位置。
  • 說明選擇這些公式的原因,以及各種變數代表的意義。

思維鏈提示會強制 LLM 執行所有計算 這可能帶來更正確的答案此外,思維鏈結提示可讓使用者檢查 LLM 的步驟,判斷答案是否合理。

對話

#language
#generativeAI

與 ML 系統進行來回對話的內容,通常是大型語言模型。聊天中的先前互動內容 (您輸入的內容和大型語言模型的回應方式) 會成為後續聊天內容的參考脈絡。

「聊天機器人」是大型語言模型的應用程式。

檢查站

擷取模型參數狀態的資料,可以是 訓練期間或完成訓練後舉例來說,在訓練期間,您可以:

  1. 蓄意停止訓練,可能是刻意停止訓練 某些錯誤。
  2. 擷取查核點。
  3. 稍後再重新載入查核點 (可能使用不同的硬體)。
  4. 重新開始訓練。

類別

#fundamentals

標籤可屬於的類別。例如:

  • 在用於偵測垃圾郵件的二元分類模型中,這兩個類別可能是「垃圾郵件」和「非垃圾郵件」
  • 多元分類模型中 類別可以是 poodlebeaglePug、 依此類推

分類模型可預測類別。相反地,迴歸模型會預測數字,而非類別。

請參閱分類。 。

分類模型

#fundamentals

預測為類別模型。 舉例來說,以下都是分類模型:

  • 模型會預測輸入語句的語言 (法文西班牙文?義大利文?)
  • 預測樹種的模型 (楓樹?橡木色?猴麵包樹?)。
  • 預測特定資料的正向或負類 健康狀況

相較之下,迴歸模型會預測數字 而非類別

兩種常見的分類模型如下:

分類門檻

#fundamentals

在「二元分類」中, 這個數值可以轉換 邏輯迴歸模型 填入正面類別的預測結果 或排除類別。 請注意,分類門檻是人為選擇的值,並非模型訓練所選擇的值。

邏輯迴歸模型會輸出介於 0 和 1 之間的原始值。然後執行下列步驟:

  • 如果這個原始值大於分類門檻,則 會產生預測結果
  • 如果這個原始值「小於」分類門檻,系統就會預測負向類別。

舉例來說,假設分類門檻為 0.8。如果原始值為 0.9,則模型會預測正類。如果原始值為 0.7,則模型會預測負類。

選擇的分類閾值會極大地影響偽陽性偽陰性的數量。

請參閱門檻與混淆 矩陣

不平衡資料集

#fundamentals

分類問題的資料集 每個類別的標籤各有不同。 例如,假設有一個二項標籤的二元分類資料集 劃分方式如下:

  • 1,000,000 個排除標籤
  • 10 個正面標籤

負面標籤與正面標籤的比率為 100,000 比 1,因此這是類別不平衡的資料集。

相反地,由於負向標籤與正向標籤的比率相對接近 1,因此下列資料集屬於類別不平衡:

  • 517 個負面標籤
  • 483 個正面標籤

多類別資料集也可達到級別平衡。例如,下列 多類別分類資料集也呈現不平衡分類,因為只會有一個標籤 比其他兩個範例更多:

  • 1,000,000 個標籤,類別為「green」
  • 200 個類別為「紫色」的標籤
  • 350 個標籤,類別為「orange」

另請參閱主要類別。 和少數類別

剪輯

#fundamentals

處理離群值的技巧 符合下列一項或兩項條件:

  • 減少大於上限的 feature 值 並調降至該門檻
  • 將低於最低門檻的特徵值提高到該值 最低門檻

舉例來說,假設特定特徵的值有 0.5% 落在 40 到 60 以外的範圍,在這種情況下,您可以執行以下操作:

  • 將超過 60 (最大門檻) 的所有值剪裁為 60 以上。
  • 將低於 40 (最低門檻) 的所有值裁剪為 40。

離群值會損壞模型,有時會導致重量 可能會發生溢位現象有些離群值也可能太嚴重 例如準確率等指標。裁剪是限制損害的常見技巧。

漸層剪裁力 在訓練期間指定範圍內的梯度值。

請參閱數值資料: 正規化

Cloud TPU

#TensorFlow
#GoogleCloud

專門用於加快機器速度的特殊硬體加速器 學習工作負載環境

分群法

#clustering

將相關的示例分組,特別是在非監督式學習期間。在所有 樣本分成一組,人類可選擇是否為每個叢集提供意義。

目前有許多分群演算法。例如 k-means 演算法叢集範例是根據與 質心,如下圖所示:

這張二維圖表的 x 軸標示為樹寬,y 軸標示為樹高。圖表中包含兩個
          以及數十個資料點系統會根據資料點的距離將其分類。也就是說
          最接近一個群集中心會歸類為叢集 1,而那些群集
          最接近其他群集中心會歸類為叢集 2。

人工審查員接著可以查看叢集,例如 將叢集 1 加上「Dwarf 樹」標籤並將 2 分為「原尺寸樹木」

再舉一個例子 範例與中心點之間的距離,如下圖所示:

數十個資料點以同心圓排列,幾乎就像是圍繞著飛鏢板中心的洞一樣。最內心的戒指
          的資料點可歸類為叢集 1,中間戒指
          歸類為叢集 2,而最外側的圓環為
          叢集 3

詳情請參閱分群課程

共同調整

神經元藉由仰賴資料來預測訓練資料中的模式 幾乎完全仰賴特定神經元的輸出內容 網路的整體行為如果驗證資料中沒有導致共適應的模式,共適應就會導致過度擬合。Dropout 規則化可減少共適應性,因為 Dropout 可確保神經元無法單獨依賴其他特定神經元。

協同過濾

#recsystems

針對單一使用者的興趣進行預測 依其他許多使用者的興趣來提供資訊。協同過濾 通常用於推薦系統

詳情請參閱推薦系統課程中的「協同篩選」一節。

概念偏移

特徵與標籤之間的關係發生變化。概念偏移會逐漸降低模型的品質。

在訓練期間,模型會學習特徵和 與模型相關的標籤如果訓練集的標籤是真實世界的良好替代值,則模型「應」做出良好的實際預測。不過,由於概念偏移 會隨著時間逐漸降低

舉例來說,假設您有一個二元分類模型,用來預測某款車是否「省油」。也就是說,這些功能可以是:

  • 車輛重量
  • 引擎壓縮
  • 傳輸類型

而標籤為下列任一情況:

  • 省油
  • 不省油

不過,這個概念保留 不斷變化1994 年標示燃料效率的車款幾乎可以確定 標示為「不省油」。概念漂移的模型,隨著時間推移,預測的準確度會越來越低。

請參閱非平穩性

狀況

#df

決策樹中,任何評估表式的節點。舉例來說,決策樹的以下部分包含兩個條件:

由兩個條件組成的決策樹:(x > 0) 和
          (y > 0)。

條件也稱為分割或測試。

使用葉子的對比度。

另請參閱:

詳情請參閱決策樹課程中的「條件類型」。

探討

#language

hallucination 的同義詞。

「混淆」一詞在技術上來說可能比幻覺更準確。 不過,幻覺一開始就很受歡迎。

設定

指派用於訓練模型的初始屬性值的過程 包括:

在機器學習專案中,設定可透過特殊方式 設定檔或使用以下設定程式庫:

確認偏誤

#fairness

傾向以能證實自己先前信念或假設的方式搜尋、解讀、偏好及回想資訊。機器學習開發人員可能會在無意間收集或加上標籤 並影響成果 信念。確認偏誤是隱性偏誤的一種形式。

實驗者偏誤是一種確認偏誤,實驗者會持續訓練模型,直到先前假設得到證實為止。

混淆矩陣

#fundamentals

一份 NxN 表,彙整正確和錯誤預測的數量摘要 分類模型。 例如,請思考下列概念的混淆矩陣: 二元分類模型:

腫瘤 (預測) 非腫瘤 (預測)
真相 (真值) 18 (TP) 1 (FN)
非腫瘤 (真值) 6 (FP) 452 (田納西州)

上述混淆矩陣顯示如下:

  • 在 19 個預測結果中,真值為腫瘤的預測結果中,模型正確分類 18 個,錯誤分類 1 個。
  • 在真值為 Non-Tumor 的 458 個預測結果中,模型正確分類 452 個,錯誤分類 6 個。

多元分類的混淆矩陣 問題有助於找出錯誤的模式 舉例來說,假設下列 3 級的混淆矩陣 分類三種不同 iris 類型的多元分類模型 (維吉尼亞州、維斯西色和 Setosa)。當真值是維吉尼亞州時 混淆矩陣顯示模型 Versicolor 的預測結果比 Setosa:

  Setosa (預測) Versicolor (預測) 維吉尼亞州 (預計)
Setosa (基準真相) 88 12 0
Versicolor (真值) 6 141 7
維吉尼亞州 (基準真相) 2 27 109

舉另一個例子來說,混淆矩陣可能會顯示訓練辨識手寫數字的模型經常誤判為 9 而非 4,或誤判為 1 而非 7。

混淆矩陣包含足夠的資訊,可用來計算各種效能指標,包括精確度喚回率

選區剖析

#language

將句子分割為更小的文法結構 (「組成」)。 機器學習系統的後續部分 自然語言理解模型 比原始語句更容易剖析組成舉例來說,請看以下句子:

我的朋友養育兩隻貓,

組成剖析器可將這個句子分為下列內容: 兩個組成部分:

  • 「My friend」是名詞片語。
  • 領養兩隻貓是一種動詞片語。

這些組成項目可以進一步細分為較小的組成部分。 例如:動詞語句

領養兩隻貓

可進一步細分為:

  • adopted 為動詞。
  • 兩貓」是另一個名詞片語。

依情境設定的語言嵌入

#language
#generativeAI

接近「理解」的嵌入字詞 做出貢獻情境化語言嵌入可理解複雜的語法、語意和情境。

舉例來說,請考慮使用英文「cow」的嵌入項目。較舊的嵌入資料 (例如 word2vec) 可以代表英文單字,以便在嵌入資料空間中,從母牛公牛的距離與從母羊公羊或從女性男性的距離相似。在這種情況下,如果使用者輸入「cow」一詞,系統會知道這是指「牛」或「牛市」,而非「牛」的意思。

上下文窗口

#language
#generativeAI

模型可在指定時間內處理的符記數量 提示。背景區間越大,更多資訊 模型能用來提供連貫且一致的回應 都沒有問題

連續性特徵

#fundamentals

浮點 特徵,可能的值範圍無限,例如溫度或重量。

請參閱「離散特徵」一節。

便利取樣

使用未經由科學方式收集的資料集來快速執行 實驗。稍後,企業必須改用科學收集的方式

收斂

#fundamentals

損失值極少變更或已達到狀態 而未每次疊代時,根本不會出現問題。例如,下列 損失曲線可指出在大約 700 次的疊代下收斂:

笛卡爾圖表。X 軸是損失。Y 軸是訓練疊代次數。在前幾次迭代期間,損失值非常高,但之後會大幅下降。經過約 100 次疊代後,損失仍
          但速度會逐漸提升經過約 700 次疊代後
          成本就會持平

如果額外訓練無法改善模型,則模型會收斂

深度學習中,損失值有時會保持不變或幾乎不變,直到經過多次疊代後才會下降。在長期的常數損失值期間,您可能會暫時產生錯誤的收斂感。

另請參閱提早中止訓練

如需更多資訊,請參閱機器學習速成課程中的「模型收斂和損失曲線」。

凸函數

函式圖形上方的區域為 凸面:原型融合函數 (例如字母 U)。例如,下列 全都是凸函數:

U 形曲線,每個曲線都有一個最小值點。

相反地,下列函式並非 convex。請注意 圖表上方顯示的區域不是轉換集:

具有兩個不同局部最小值點的 W 型曲線。

嚴格凸函式只有一個局部最小值點,也是全域最小值點。傳統的 U 形函式是嚴格凸函式。但有些凸面函式 (例如直線) 不是 U 形。

如需更多資訊,請參閱機器學習速成課程中的「收斂和凸函式」。

凸函數最佳化

使用梯度下降等數學技巧找出凸函數的最小值的過程。機器學習領域的大量研究著重於設計多種 視為對話最佳化問題,而且能更有效解決這些問題 效率極高

如需完整詳情,請參閱 Boyd and Vandenberghe Convex 最佳化

凸集合

歐幾里得空間的子集,其中子集內任兩點之間的線條都會完全位於子集內。例如下列兩個 形狀是凸面組合:

一個矩形插圖。另一個橢圓形插圖。

相對地,下列兩種形狀並非凸面組合:

一張插圖,顯示有圓餅圖缺少切片的畫面。
          另一個插圖:另一個極端不規則的多邊形。

卷積

#image

在數學中,指的是兩個函式的混合。機器內 「卷積」結合了卷積運算 篩選器和輸入矩陣 訓練權重

在機器學習中,「卷積」一詞通常是指卷積運算卷積層的簡稱。

如果沒有捲積,機器學習演算法就必須學習 一個大型 Tensor 中每個儲存格的權重。例如: 對 2K 與 2K 圖片的機器學習演算法訓練 可能會被迫觸發 找到 400 萬個獨立重量得益於卷積和機器學習 演算法只需要找出 卷積濾鏡,大幅減少 訓練模型所需的記憶體容量當卷積濾波器 它的作用是在儲存格之間複製,並將每個儲存格相乘 篩選結果。

詳情請參閱圖像分類課程中的「卷積式神經網路簡介」。

卷積濾波器

#image

研究中的兩位演員 卷積運算:(另一個執行者是輸入矩陣的切片)。卷積濾鏡是指 與輸入矩陣相同排名,但形狀較小。 舉例來說,如果是 28x28 的輸入矩陣,篩選器可以是任何 2D 矩陣 小於 28x28

進行攝影處理時,卷積濾波器中的所有儲存格都 通常設為 1 和 0 的常數模式在機器學習領域 卷積篩選器通常會以隨機數字種子,接著 網路訓練理想的值。

詳情請參閱圖像分類課程中的「卷積」

卷積層

#image

深度神經網路的層,其中卷積篩選器會沿著輸入矩陣傳遞。舉例來說,請考慮下列 3x3 卷積式濾鏡

3x3 矩陣,其中包含以下值:[[0,1,0], [1,0,1], [0,1,0]]

以下動畫顯示卷積層,其中包含 5x5 輸入矩陣的 9 個卷積運算。請注意,每個卷積運算作業都會處理輸入矩陣的不同 3x3 切片。產生的 3x3 矩陣 (位於右側) 由 9 個 卷積運算:

動畫:顯示兩個矩陣。第一個矩陣是 5x5 矩陣:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].第二個矩陣是 3x3 矩陣:
          [[181,303,618], [115,338,605], [169,351,560]].
          計算第二個矩陣時,會在 5x5 矩陣的不同 3x3 子集上套用卷積篩選器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]。

請參閱「已完全連結 圖層 請參閱「圖片分類」課程

卷積類神經網路

#image

神經網路,其中至少有一層是卷積層。典型的捲積 類神經網路是由下列層的幾種組合組成:

卷積類神經網路在特定領域取得了顯著的成果 例如圖片辨識

卷積運算

#image

下列兩步驟數學運算:

  1. 元素的乘積 卷積濾鏡和 輸入矩陣(輸入矩陣的切片與卷積濾鏡具有相同的秩和大小)。
  2. 產生的產品矩陣中所有值的總和。

舉例來說,請考量下列 5x5 輸入矩陣:

5x5 矩陣:[[128,97,53,201,198]、[35,22,25,200,195]、
          [37,24,28,197,182]、[33,28,92,195,179], [31,40,100,192,177]]。

現在,請設想以下 2x2 卷積濾波器:

2x2 矩陣:[[1, 0], [0, 1]]

每次卷積運算都包含在 輸入矩陣舉例來說,假設我們在 。因此,這個切片的卷積運算如下所示:

在左上方套用卷積濾鏡 [[1, 0], [0, 1]]
          輸入矩陣的 2x2 區段,即 [[128,97], [35,22]]。
          卷積濾波器會保留 128 和 22 個,但保留 0
          這 97 和 35 之間的差異因此,卷積運算會產生
          的值為 150 (128+22)。

卷積層由一系列卷積運算組成,每個運算都會作用於輸入矩陣的不同切片。

費用

loss 同義。

共同訓練

半監督式學習方法 這項做法特別適用於以下情況:

共訓練的本質是將獨立信號放大,轉化為更強的信號。比方說,假設有一個分類模型 將個別二手車歸類為「良好」或「不良」。一組 預測特徵可著重於彙整特徵,例如年份 以及車輛的廠牌和型號另一組預測功能可能會著重 上車主的駕駛記錄和車輛的維修記錄。

關於協同訓練的開創性論文是 Blum 和 Mitchell 的「Combining Labeled and Unlabeled Data with Co-Training」

反事實公平性

#fairness

公平性指標:檢查分類器是否會為某位使用者產生與另一位使用者相同的結果,前提是兩位使用者在所有敏感屬性方面都相同。評估以下項目的分類器: 要找出潛在來源, 找出模型產生的偏誤

如需更多資訊,請參閱下列任一資源:

涵蓋率偏誤

#fairness

請參閱選擇偏誤

當機圖示

#language

意思不清楚的句子或詞組。 爆裂物的「自然」問題 語言理解程度。 舉例來說,紅色 Tape 保持摩天大樓這個標題是 NLU 模型能直接解讀標題文字 跳脫現實的框架

評論家

#rl

Deep Q-Network 的同義詞。

交叉熵

對數遺失的一般化 多元分類問題。交叉熵 量化兩個機率分佈之間的差異其他參考資訊 複雜度

交叉驗證

一種機制,可透過測試模型與訓練集中未使用的一或多個不重疊資料子集,評估模型可將新資料推廣至何種程度。

累積分佈函式 (CDF)

這個函式會定義樣本頻率小於或等於目標值的頻率。舉例來說,請考慮連續值的常態分佈。CDF 會告訴您,約 50% 的樣本值應小於或等於平均值,而約 84% 的樣本值應小於或等於平均值加一標準差。

D

資料分析

透過樣本、測量和視覺化資料,瞭解資料。資料分析特別有用 模型會先接收資料集,然後再建構第一個模型。 這也是瞭解實驗和偵錯系統問題的關鍵。

資料擴增

#image

手動增強範圍和數量 訓練範例 方法是將現有 建立其他範例的 examples。舉例來說,假設圖片是您的特徵之一,但資料集未包含足夠的圖片範例,模型就無法學習到實用的關聯。在理想情況下 對資料集已加上標籤的圖片,以便: 才能正確訓練模型如果不可行,資料擴增 可以旋轉、延展及反映每張圖片 可能會產生足夠的標籤資料 訓練而成

DataFrame

#fundamentals

這是一種常見的 pandas 資料類型,用於表示 記憶體中的資料集

DataFrame 類似於資料表或試算表。DataFrame 的每個資料欄都有名稱 (標頭),每個資料列則由專屬號碼標示。

DataFrame 中的每個資料欄都採用類似 2D 陣列的結構,除了 您可以為各個資料欄指派專屬資料類型。

另請參閱官方 pandas.DataFrame 參考資料 頁面

資料平行處理

一種擴大訓練推論的方式,會將整個模型複製到多部裝置上,然後將部分輸入資料傳遞給每部裝置。資料平行處理能在極大量的情況下進行訓練和推論 批次大小;然而,資料平行處理需要 是否足以支援各種裝置

資料平行處理通常能加快訓練和推論速度。

另請參閱模型平行處理一文。

資料集或資料集

#fundamentals

原始資料的集合,通常 (非唯一) 整理成單一項目 以下格式:

  • 試算表
  • 採用 CSV (半形逗號分隔值) 格式的檔案

Dataset API (tf.data)

#TensorFlow

用於讀取資料和和讀取資料的高階 TensorFlow API 並轉換為機器學習演算法所需的形式 tf.data.Dataset 物件代表元素序列, 每個元素都包含一或多個 Tensortf.data.Iterator 物件提供 Dataset 元素的存取權。

決策邊界

分隔符 類別 中的 model 二進位類別多元分類問題。舉例來說,在下列代表二元分類問題的圖片中,決策邊界是橘色類別和藍色類別之間的邊界:

各個類別之間的明確界線。

Declaration Forest

#df

由多個決策樹建立的模型。決策樹系將預測結果 決策樹決策樹相當熱門的類型包括 隨機樹系梯度增強樹木

詳情請參閱「決策樹」課程中的「決策樹」一節。

決策門檻

分類門檻的同義詞。

決策樹狀圖

#df

監督式學習模型,由多個 以階層方式整理條件離開。 例如,以下為決策樹:

由四個條件排列的決策樹
          階層結構,最後到達 5 葉

解碼器

#language

一般來說,任何機器學習系統 透過經過處理、稠密或稠密的方式 產生更原始、稀疏或外部表示法的內部表示法。

解碼器通常是大型模型的元件,經常與編碼器配對。

在「序列至序列工作中,解碼器 開頭是編碼器產生的內部狀態 序列

如要瞭解 Transformer 架構中的解碼器定義,請參閱 Transformer

詳情請參閱機器學習速成課程中的「大型語言模型」一文。

深度模型

#fundamentals

含有多個隱藏層神經網路

深度模型也稱為深層類神經網路

廣角模型的對比度。

便相當熱門的

與「深度模型」同義。

深度 Q 網路 (DQN)

#rl

Q 鍵學習 中,深度 神經網路可預測 Q 函式

Critic 是 Deep Q-Network 的同義詞。

客層均等

#fairness

符合以下條件的公平性指標: 模型的分類結果不受因素影響 輸入的敏感屬性

舉例來說,如果「 Lilliputians」和「Brbdingnagians」都適用 Glubbdubdrib University (格盧布杜布利布大學) 的 Lilliputians 所允許之百分比與布丁那吉亞人的百分比相同 允許,無論一個群組的平均效益是否較高

等數勝負機會相等, 匯總分類結果,其仰賴敏感屬性 但不允許某些指定的分類結果 真值標籤用於依據敏感屬性。請參閱「以更智慧的機器學習對抗歧視」一文,瞭解如何在最佳化客層平衡時權衡取捨。

詳情請參閱機器學習速成課程中的「公平性:人口統計資料平衡」

雜訊

#language

自監督式學習的常見方法:

  1. 您會在資料集中手動新增雜訊
  2. 「模型」會嘗試移除雜訊。

去除雜訊後,系統就能從未標示的範例學習。原始資料集可做為目標或標記,雜訊資料則可做為輸入內容。

部分掩碼語言模型會使用以下去雜訊方法:

  1. 為無標籤的句子加上雜訊, 符記
  2. 模型會嘗試預測原始符記。

稠密特徵

#fundamentals

特徵,其中大多數或所有值均非零,通常是浮點值的 張量。舉例來說,下列 10 個元素的 Tensor 為密集型,因為其中 9 個值皆非零值:

8 3 7 5 2 4 0 4 9 6

稀疏特徵的差異。

稠密層

與「全連接層」同義。

深度

#fundamentals

類神經網路中的下列項目總和:

例如,有五個隱藏層和一個輸出層的類神經網路 深度為 6

請注意,輸入圖層不會影響深度。

深度可分裂卷積類神經網路 (sepCNN)

#image

卷積類神經網路 基礎架構式服務 預告, 但可將 Inception 模組換成可分離的深度模組 卷積。又稱為 Xception。

深度可分卷 (也稱為可分段卷積) 會將標準 3D 卷積轉成兩個不同的捲積運算 具備更高的運算效率:首先是深度卷積 厚度為 1 (n × n × 1),第二個為順位的捲積 長度和寬度為 1 (1 × 1 × n)。

詳情請參閱「Xception: Deep Learning with Depthwise Separable 卷積

衍生標籤

Proxy 標籤的同義詞。

裝置

#TensorFlow
#GoogleCloud

超載的字詞,可能有以下兩種定義:

  1. 可執行 TensorFlow 工作階段的硬體類別,包括 CPU、GPU 和 TPU
  2. 加速器晶片 (GPU 或 TPU) 上訓練機器學習模型時,系統會實際操作張量嵌入資料。這類裝置會使用加速器晶片運作。相較之下,主機通常會在 CPU 上執行。

差異化隱私

在機器學習中,會以去識別化的方式保護任何機密資料 納入模型的 訓練集。這種做法 表示模型無法瞭解或記住某個 。方法是在模型期間取樣及加上雜訊 進行訓練來遮蓋個別資料點,以降低 機密訓練資料

差異化隱私也用於機器學習以外的領域。舉例來說,當資料科學家計算不同客層的產品使用統計資料時,有時會使用差異化隱私技術來保護個人隱私。

維度縮減

減少代表特定特徵的維度數量 通常會以特徵向量表示 轉換為嵌入向量

尺寸

超載字詞具有下列任一定義:

  • 張量中的座標層級數量。例如:

    • 純量沒有維度,例如 ["Hello"]
    • 向量有一個維度例如 [3, 5, 7, 11]
    • 矩陣有兩種維度例如 [[2, 4, 18], [5, 7, 14]]。 您可以在一維向量中明確指定特定儲存格 只用一個座標;您需要兩個座標來明確指定 特定儲存格,位於二維矩陣
  • 特徵向量中的項目數量。

  • 嵌入層中的元素數量。

直接提示

#language
#generativeAI

與「零樣本提示」同義。

離散特徵

#fundamentals

具有一組有限可能值的功能。舉例來說,如果特徵的值只能是「動物」、「蔬菜」或「礦物」,就是離散 (或類別) 特徵。

對比連續功能

判別式模型

模型,可從以下集合中預測標籤: 更多功能。更正式的判別式模型會定義 依據特徵和特徵 weights;也就是:

p(output | features, weights)

舉例來說,如果模型是根據特徵和權重預測電子郵件是否為垃圾郵件,就是判別式模型。

絕大多數的監督式學習模型,包括分類模型 和迴歸模型都是判別式模型

生成式模型的差異。

鑑別器

系統會判斷示例是否為真實內容。

或者,生成式對抗網路中的子系統,可判斷產生器建立的例子是真實還是假造。

詳情請參閱鑑別器 請參閱 GAN 課程的內容

不平等影響

#fairness

針對影響不同族群的使用者做出決定 子群組這通常是指演算法決策程序對某些子群體的影響,比對其他子群體更為負面或正面。

舉例來說,假設有個演算法可判斷某個小人是否符合申請小型房屋貸款的資格,如果該小人的郵寄地址包含特定郵遞區號,演算法就比較有可能將該人歸類為「不符合資格」。如果北端 Lilliputians 員工 相較於 Little-Endian Lilliputians 的郵寄地址, 所以這種演算法可能造成不同的影響

差別待遇相反,後者著重於當子群組特徵是演算法決策程序的明確輸入值時,所導致的差異。

差別待遇

#fairness

將受試者的敏感屬性納入演算法決策程序,以便對不同族群採取不同的處理方式。

舉例來說,假設有個演算法會根據貸款申請者在申請表中提供的資料,判斷他們是否符合申請小型住宅貸款的資格。如果演算法使用 Lilliputian 的聯盟關係為 Big-Endian 或 Little-Endian, 都是以該維度為主 採取不同處理方式

差別待遇不同,後者著重於演算法決策對子群體的社會影響差異,無論這些子群體是否為模型的輸入內容。

蒸餾

#generativeAI

縮減一個模型大小的程序 (稱為 「授課老師」) 轉為較小型的模型 (稱為「學生」) 和原始模型的預測結果蒸餾 較大型的模型有兩項主要優勢 模型 (教師):

  • 推論速度更快
  • 降低記憶體和能源用量

不過,學生的預測結果通常不如老師的預測結果準確。

精煉能訓練學生模型,盡量減少 損失函式,以輸出內容之間的差異 學生和教師模型的預測結果

使用下列術語比較及對照蒸餾:

如需更多資訊,請參閱機器學習速成課程中的「LLM:微調、提煉和提示設計」一文。

發布

值替指定值的頻率和範圍 featurelabel。 分布圖可顯示特定值的可能性。

下圖顯示兩種不同分布的直方圖:

  • 左邊是權力與人數的權力分配 擁有財富
  • 右側顯示身高分布情形,以及擁有該身高的人的數量。

兩個直方圖,其中一個直方圖顯示了
          X 軸的財富和人數
          Y 軸的值大多數人的財富不多
          擁有大量財富另一個直方圖顯示正常分布,其中 x 軸代表身高,y 軸代表有此身高的人的數量。大多數人的分數都落在平均值附近。

瞭解每個特徵和標籤的分配方式,有助您決定如何正規化值,並偵測異常值

「out of distribution」一詞是指資料集未出現或極少出現的值。例如,一張星球的圖片是 相較於由貓咪圖片組成的資料集,請避免分佈。

分裂分群法

#clustering

請參閱階層分群

向下取樣

#image

這個詞彙可指下列任一項:

  • 減少 才能更有效率地訓練模型舉例來說,在訓練圖像辨識模型前,先將高解析度圖片降採樣為低解析度格式。
  • 訓練比例太低,代表比例過高 類別 範例,以改善對弱勢類別的模型訓練成效。 舉例來說,在類別不平衡的資料集中,模型傾向於大量學習多數類別,而無法充分學習少數類別。降低取樣率 平衡多數類別和少數類別的訓練量。

請參閱 Datasets:不平衡 資料集

DQN

#rl

Deep Q-Network 的縮寫,

丟棄正則化

在訓練過程中實用的正則化形式 類神經網路。丟棄正則化 在聯播網中隨機選取固定數量的廣告單元 單一梯度步驟掉落的單元越多,規則化程度就越高。這類似於訓練網路來模擬 規模龐大的小型網路組合。 如需完整詳細資料,請參閱 丟棄:有效防止類神經網路 過度配適

動態

#fundamentals

某些操作頻繁或持續執行, 在機器學習中,「動態」和「線上」是同義詞。以下是機器的動態線上常見用途 學習中:

  • 動態模型 (或線上模型) 則是模型 訓練週期數
  • 動態訓練 (或線上訓練) 是訓練程序 更新頻率相當高
  • 動態推論 (或線上推論) 是 如何視需求產生預測結果

動態模型

#fundamentals

頻繁 (可能還會持續) 的模型 重新訓練動態模型是「終身學習者」並 不斷適應不斷變化的資料動態模型也稱為線上模型

靜態模型的對比。

E

急迫執行

#TensorFlow

在這個 TensorFlow 程式設計環境中,運算會立即執行。相反地,在圖執行中呼叫的作業必須經過明確評估後才能執行。Eager Execution 命令式介面 例如大部分程式設計語言的程式碼積極執行程式 通常比圖形執行程式更容易偵錯。

提早中止訓練

#fundamentals

正則化的方法,包括 在訓練損失完成 之前訓練 下降中。在提早停止訓練時,您會刻意停止訓練模型 驗證資料集開始損失 increase;也就是 一般化效能會降低,

地球移動距離 (EMD)

衡量兩個分布的相對相似度。地球移動器的距離越低,分佈就越相似。

編輯距離

#language

測量兩個文字字串彼此相似程度的測量結果。 在機器學習中,編輯距離是很實用的做法 ,並有效比較兩個已知且 或找出與指定字串類似的字串

編輯距離有幾種定義,每種定義都使用不同的字串運算。舉例來說,Levenshtein 距離會考量最少的刪除、插入和替換作業。

例如「Heart」字詞之間的 Levenshtein 距離和「飛鏢」 是 3,因為後續 3 次修改是轉化成一個字的最少 複製到另一個:

  1. Heart → deart (以「d」取代「h」)
  2. deart → dart (刪除「e」)
  3. dart → darts (插入「s」)

Einsum 符號

用於描述兩個張量如何結合的有效符號。系統會將張量乘以一個張量的元素 然後加總其他張量的元素 Einsum 符號會使用符號來識別每個張量的軸,並重新排列這些相同的符號,以指定新產生的張量形狀。

NumPy 提供常見的 Einsum 實作項目。

嵌入層

#language
#fundamentals

特殊的隱藏層,可針對高維度類別特徵進行訓練,逐步學習較低維度的嵌入向量。嵌入層可讓類神經網路以更有效率的方式進行訓練,而非只訓練高維類別特徵。

舉例來說,Google 地球目前大約支援 73,000 種樹木。假設 樹種是模型中的特徵, 輸入層包括一個 one-hot 向量 73,000 個元素。 舉例來說,baobab 可能會以以下方式表示:

包含 73,000 個元素的陣列。前 6,232 個元素保有價值
     0.下一個元素包含值 1。最後的 66,767 個元素會保留零值。

73,000 元素的陣列太長。如果您未在模型中加入嵌入層,由於要乘以 72,999 個零,訓練作業將會非常耗時。假設您選擇的嵌入層包含 12 個維度,因此嵌入層會逐漸學習 為各個樹種建立全新的嵌入向量

在某些情況下,雜湊處理是合理的替代方案 加入嵌入層

詳情請參閱機器學習速成課程中的「嵌入」一節。

嵌入空間

#language

從高維向量空間對應的 d 維向量空間。在理想情況下,嵌入空間會包含可產生有意義的數學結果的結構;舉例來說,在理想的嵌入空間中,嵌入值的加法和減法運算可解決字詞類比任務。

兩個嵌入資料的內積是相似度的評估指標。

嵌入向量

#language

一般來說,這個陣列是從任何隱藏層取得的浮點數,用於描述該隱藏層的輸入內容。通常,嵌入向量是由 包括嵌入層舉例來說,假設嵌入層必須為地球上 73,000 種樹木學習嵌入向量。或許是 下列陣列是麵包樹的嵌入向量:

陣列包含 12 個元素,每個元素都會保留介於 0.0 和 1.0 之間的浮點數。

嵌入向量並非隨機數字。嵌入層會透過訓練來判斷這些值,類似於神經網路在訓練期間學習其他權重的方式。陣列的每個元素都是樹種某些特徵的分數。哪一個? 元素代表特性?這對人類來說很難判斷。

以數學向量來說 項目的浮點數集合相近。舉例來說,相似的樹種浮點數組合會比不相似的樹種更相似。紅木和巨杉是相關的樹種,因此它們會比紅木和椰子樹擁有更相似的浮點數組。每次重新訓練模型時,嵌入向量中的數字都會變更,即使您使用相同的輸入內容重新訓練模型也是如此。

經驗累積分佈函式 (eCDF 或 EDF)

累積分佈函式 以真實資料集的實驗測量結果為依據。函式在 x 軸上任一點的值,是資料集中小於或等於指定值的觀測值比例。

經驗風險最小化 (ERM)

選擇可在訓練集上將損失降到最低的函式。請比較結構風險最小化

編碼器

#language

一般來說,任何從原始、稀疏或外部表示法轉換為經過處理、更密集或更內部表示法的 ML 系統。

編碼器通常是較大模型的元件,經常與解碼器配對。部分轉換器 將編碼器與解碼器配對,但其他 Transformer 只會使用編碼器 或只用解碼器

部分系統會使用編碼器的輸出內容做為分類或分類的輸入內容 迴歸網路

序列對序列任務中,編碼器會擷取輸入序列,並傳回內部狀態 (向量)。接著, 解碼器會使用內部狀態預測下一個序列。

如要瞭解 Transformer 架構中編碼器的定義,請參閱 Transformer

詳情請參閱機器學習速成課程中的「LLM:什麼是大型語言模型」。

集成

一組模型,這些模型是獨立訓練,且預測結果會經過平均或匯總。在許多情況下,整體能 而非單一模型舉例來說 隨機森林是由多個 決策樹。請注意 決策樹系是聚合物。

請參閱隨機 森林

#df

資訊理論中,熵是用來描述機率分布的不可預測性。此外,熵也定義為每個示例所含的資訊量。發布版本具有 當隨機變數的所有值都達到 則可能性居高不下

熵的值集包含兩個可能的值「0」和「1」(例如 二元分類問題中的標籤),其公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」的分數範例。
  • q 是「0」內的分數範例。請注意,q = (1 - p)
  • log 通常是 log2。在這個例子中,熵 有點複雜

舉例來說,假設以下情況:

  • 100 個範例包含值「1」
  • 300 例包含「0」這個值

因此,熵值為:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每個範例 0.81 位元

完全平衡的集合 (例如 200 個「0」和 200 個「1」) 每個示例的熵為 1.0 位元。隨著集合變得愈來愈不平衡,熵值會趨近 0.0。

「決策樹」中,熵可協助制定公式 取得資訊 Splitter 選取 conditions 但在分類決策樹狀圖的發展過程中

比較熵:

熵經常稱為「Shannon 熵」

詳情請參閱決策樹課程中的「使用數值特徵的二元分類精確分割器」一節。

環境

#rl

在強化學習中,含有代理程式的世界 並允許代理程式觀察世界的狀態。例如: 可能是西洋棋等實體世界 迷宮當代理程式將動作套用至環境時,環境就會在狀態之間轉換。

劇集

#rl

在強化學習中,代理程式重複嘗試學習環境的每一次嘗試。

Epoch 紀元時間

#fundamentals

完整訓練會遍歷整個訓練集,因此每個範例都會處理一次。

一個 epoch 代表 N/批次大小 訓練疊代,其中 N 是範例的總數。

舉例來說,假設以下情況:

  • 資料集包含 1,000 個範例。
  • 批量為 50 個範例。

因此,單一 epoch 需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

詳情請參閱機器學習速成課程中的「線性迴歸:超參數」一文。

ϵ 貪婪政策

#rl

在強化學習中,一項政策必須遵循 隨機政策,包含 Epsilon 機率或 在其他情況下則是貪婪政策。舉例來說,如果 epsilon 為 0.9,則政策會在 90% 的時間內遵循隨機政策,在 10% 的時間內遵循貪婪政策。

在連續的劇集中,演算法會降低 epsilon 的值,從遵循隨機政策轉為遵循貪婪政策。變更者: 改變政策時,代理程式會先隨機探索環境 然後實地入侵隨機探索的結果。

機會均等

#fairness

評估模型是否符合需求的公平性指標 對所有值 敏感屬性。換句話說,如果模型的理想結果是正類,目標就是讓所有群組的真陽性率相同。

機會平等與平等機率有關, 因此必須「同時」取得真陽率和 所有群組的偽陽率都相同。

假設格魯布杜布德里大學 (Lilliputians and Brobdingnagians) 皆承認了利普斯敦大學 實行嚴謹的數學程式利利普特人中學 完善的數學課程,而且絕大多數的學生 符合大學計畫的參與資格布羅迪龐人高中完全沒有開設數學課程,因此學生的合格率遠低於其他學校。符合偏好的標籤 「已允許」(與國籍相關) 不論學生是否參加本競賽,都有機會成為合格學生 他們是賴利普特人或兄弟弟姊妹

舉例來說,假設有 100 位 Lilliputians 和 100 Brobdingnagians 適用於 格盧布杜比布大學 (Glubbdubdrib University) 及其招生決策方法如下:

表 1. 利利普特人 (90% 符合資格)

  晉級 不合格
已允許 45 3
已拒絕 45 7
總計 90 10
合格學生佔比:45/90 = 50%
不符資格的學生百分比:7/10 = 70%
承受的立陶宛學生佔比:(45+3)/100 = 48%

 

表 2. 英國境內的申請者 (10% 符合資格):

  晉級 不合格
已允許 5 9
已拒絕 5 81
總計 10 90
合格學生佔比:5/10 = 50%
不符資格的學生百分比:81/90 = 90%
布丁那基學生入學的總學生百分比:(5+9)/100 = 14%

前述例子滿足了接受接受條款的機會, 因為符合資格的 Lilliputians 和 Brobdingnagians 有 50% 的機率會獲得允許

雖然機會均等已滿足,但下列兩項公平性指標仍未滿足:

  • 客層對等性:利利普特人和 兄弟姊妹在大學入學時,分屬比例各異; 48% 的 Lilliputians 學生可參加課程,但僅佔 14% 可參加英國兄弟會 (Bubdingnagian) 學生認可。
  • 機會均等:雖然符合資格的利立浦丹和布魯托尼亞學生都有相同的錄取機率,但未符合「不符合資格的利立浦丹和布魯托尼亞學生都有相同的拒絕機率」這項額外限制。不合格的 Lilliputians 拒絕率為 70%,而 Brobdingnagians 為 90%。

請參閱公平性:平等 商機

均等賠率

#fairness

公平性指標,用於評估模型是否能針對敏感屬性的所有值,針對正類別負類別預測出同樣準確的結果,而非只針對其中一個類別。也就是真陽率偽陰性率應相同 所有群組。

均等機率與機會均等相關,後者只著重於單一類別 (正面或負面) 的錯誤率。

舉例來說,假設 Glubbdubdrib 大學同時招收來自 Lilliputians 和 Brobdingnagians 的學生,讓他們參加嚴格的數學課程。利利普特人次要 學校提供完善的數學課程,而且絕大多數 學生即符合大學學程資格。布羅迪尼亞的高中完全沒有開設數學課程,因此學生的合格率遠低於其他國家。只要符合下列條件,即可達到機會均等:無論申請人是小人國人還是巨人國人,只要符合資格,就同樣有機會獲得錄取,如果不符合資格,就同樣有機會遭到拒絕。

假設 100 位小人和 100 位巨人申請入學 Glubbdubdrib 大學,而招生決定如下:

表 3. 利利普特人 (90% 符合資格)

  晉級 不合格
已允許 45 2
已拒絕 45 8
總計 90 10
合格學生佔比:45/90 = 50%
不符資格的學生百分比:8/10 = 80%
承受的立陶宛學生佔比:(45+2)/100 = 47%

 

表 4. Brobdingnagian 申請者 (10% 符合資格):

  晉級 不合格
已允許 5 18
已拒絕 5 72
總計 10 90
錄取資格學生百分比:5/10 = 50%
不合格學生拒絕百分比:72/90 = 80%
錄取的 Brobdingnagian 學生總百分比:(5+18)/100 = 23%

符合「均等機會」原則,因為合格的 Lilliputian 和 Brobdingnagian 學生都有 50% 的機會被錄取,而不合格的 Lilliputian 和 Brobdingnagian 學生則有 80% 的機會遭到拒絕。

均等值的正式定義 "相等 「Opportunity in Supervised Learning」的訊息如下: "預測者 → 能夠滿足平等的賠率 這兩個結果是獨立的屬性 A 和結果 Y 之間 (如果 nginx 和 A 各自獨立)。 是條件之一。」

Estimator

#TensorFlow

已淘汰的 TensorFlow API。請改用 tf.keras 估算器數量

evals

#language
#generativeAI

主要做為 LLM 評估作業的縮寫, 廣泛來說,evals 是任何形式的縮寫 評估

評估版

#language
#generativeAI

評估模型品質或比較不同模型的程序。

如要評估監督式機器學習模型,通常會根據驗證集測試集進行評估。評估 LLM 通常涉及更廣泛的品質與安全評估

範例

#fundamentals

features 其中一列的值,但有可能 標籤監督式學習的範例可分為兩大類:

  • 標記示例包含一或多個特徵和標籤。已加上標籤的範例會在訓練期間使用。
  • 未標示的示例包含一或多個特徵,但沒有標籤。未加上標籤的範例會在推論期間使用。

例如,假設您正在訓練模型,藉此判斷影響 顯示學生測驗成績的天氣狀況。以下是三個標記的示例:

功能 標籤
溫度 溼度 氣壓 測試分數
15 47 998 不錯
19 34 1020 極佳
18 92 1012 不佳

以下提供三個未加上標籤的範例:

溫度 溼度 氣壓  
12 62 1014  
21 47 1017  
19 41 1021  

資料集的一列通常是示例的原始來源。也就是說,範例通常由資料欄的 此外,範例中的特徵也可以包含合成特徵,例如特徵交叉點

如需更多資訊,請參閱「機器學習簡介」課程中的「監督式學習」

體驗重播

#rl

在強化學習中,DQN 技術用於 可減少訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中,然後從重播緩衝區取樣轉換,以建立訓練資料。

實驗者偏誤

#fairness

請參閱「確認偏誤」。

爆炸式漸層問題

#seq

「梯度」的傾向 「深層類神經網路」 (尤其是 循環類神經網路) 就會造成意外的陡降 (高)。陡峭的梯度通常會導致深度神經網路中每個節點權重大幅更新。

發生梯度爆炸問題的模型很難或無法訓練。漸層裁剪 才能解決這個問題

請比較梯度消失問題

F

F1

「綜覽」「二元分類」指標 必須同時採用精確度喚回度。 公式如下:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

舉例來說,假設有以下情況:

  • 精確度 = 0.6
  • recall = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

如果精確度和喚回度相近 (如上例所示), F1 接近其平均值。精確度和喚回度不同時 明顯,F1 會更接近較低的值。例如:

  • 精確度 = 0.9
  • 喚回度 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性限制

#fairness
將限制套用至演算法,確保一或多個定義 確保公正性公平限制的範例包括:

公平性指標

#fairness

「公平性」的數學定義可衡量 一些常用的公平性指標包括:

許多公平性指標互斥;看 公平性指標不相容

偽陰性 (FN)

#fundamentals

以下例子:模型誤將 排除類別。例如 預測特定電子郵件不是垃圾郵件 (排除類別),但該電子郵件確實為垃圾郵件

偽陰率

模型誤預測為負類的實際正類示例比例。以下公式計算了 負率:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

請參閱門檻與混淆 矩陣

偽陽性 (FP)

#fundamentals

以下例子:模型誤將 「正面類別」。舉例來說,模型預測特定電子郵件為「垃圾郵件」(正類),但該郵件「實際上並非垃圾郵件」

詳情請參閱機器學習速成課程中的「閾值和混淆矩陣」。

偽陽率 (FPR)

#fundamentals

模型誤判為正類的實際負面例子比例。以下公式可計算偽陽性比率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率是ROC 曲線的 x 軸。

詳情請參閱機器學習速成課程中的「分類:ROC 和 AUC」一文。

功能

#fundamentals

機器學習模型的輸入變數。示例包含一或多個特徵。舉例來說,假設您要訓練模型,以判斷天氣狀況對學生考試成績的影響。下表列出三個範例,每個範例都包含三個特徵和一個標籤:

功能 標籤
溫度 溼度 氣壓 測試分數
15 47 998 92
19 34 1020 84
18 92 1012 87

標籤的對比度。

請參閱「監督式學習」 請參閱「機器學習簡介」課程

交錯組合特徵

#fundamentals

以「交叉比對」為基礎的合成特徵 分類統計值區特徵。

舉例來說,你可以考慮使用 「心情預測」代表的是 溫度從以下四個區間之一:

  • freezing
  • chilly
  • temperate
  • warm

並且以下列三個區間之一表示風速:

  • still
  • light
  • windy

如果沒有交錯組合,線性模型會在各個 測試前 7 個不同的值區舉例來說 freezing,而且不受訓練內容的影響,例如: windy

或是建立跨隨機性參數 風速這個綜合地圖項目會有下列 12 個可能的值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

由於有特徵交叉,模型可以學習 freezing-windy 天和 freezing-still 天之間的情緒差異。

如果您從兩個各自包含許多不同分桶的特徵建立綜合特徵,產生的特徵交叉會有大量可能組合。舉例來說,如果某個特徵有 1,000 個值區 另一個特徵有 2,000 個值區,因此交叉特徵會達到 2,000,000 Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區

正式來說,交叉是笛卡兒乘積

功能交叉通常用於線性模型,很少用於神經網路。

詳情請參閱機器學習速成課程中的「分類資料:特徵交叉」一節。

特徵工程

#fundamentals
#TensorFlow

這項程序包含下列步驟:

  1. 判斷哪些特徵可能對訓練模型有所助益。
  2. 將資料集的原始資料轉換為有效的版本 這些特徵的相對重要性

舉例來說,您可能會判定 temperature 可能很實用 而不是每個特徵的分數接著,您可以嘗試特徵分塊實驗 ,最佳化模型可從不同的 temperature 範圍內學習的內容。

特徵工程有時也稱為特徵擷取特徵化

如需更多資訊,請參閱機器學習速成課程中的「數值資料:模型如何使用特徵向量擷取資料」。

擷取特徵

具有下列其中一項定義的過載字詞:

特徵重要性

#df

變數重要性的同義詞。

功能組合

#fundamentals

機器學習模型訓練的特徵群組。舉例來說,郵遞區號、房屋大小和房屋狀況可能會組成簡單的特徵集,用於預測房價的模型。

特徵規格

#TensorFlow

說明從 tf.Example 通訊協定緩衝區中擷取特徵資料所需的資訊。由於 tf.Example 通訊協定緩衝區只是資料的容器,您必須指定 包括:

  • 要擷取的資料 (也就是功能的鍵)
  • 資料類型 (例如 float 或 int)
  • 長度 (固定或可變)

特徵向量

#fundamentals

feature 值陣列構成 範例。特徵向量 訓練推論。 舉例來說,如果模型有兩個離散特徵,其特徵向量可能會是:

[0.92, 0.56]

四個層:輸入層、兩個隱藏層和一個輸出層。輸入層包含兩個節點,一個包含值 0.92,另一個包含值 0.56。

每個範例會為特徵向量提供不同的值,因此 下一個範例的特徵向量如下:

[0.73, 0.49]

特徵工程會決定如何呈現 建立特徵向量的功能舉例來說,具有五個可能值的二元類別特徵,可能會以one-hot 編碼表示。在這個範例中, 這個範例的特徵向量是含有 4 個 0 一個 1.0 的值,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子,假設您的模型包含三個特徵:

  • 二元類別特徵,其中包含個可能值,以 one-hot 編碼表示,例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一個二元類別特徵,其中個可能值以 one-hot 編碼表示,例如:[0.0, 0.0, 1.0]
  • 浮點功能,例如:8.3

在本例中,每個範例的特徵向量 除以 9 值以上述清單中的範例值來說, 特徵向量如下:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

如需更多資訊,請參閱機器學習速成課程中的「數值資料:模型如何使用特徵向量擷取資料」。

特徵化

從輸入來源 (例如文件或影片) 中擷取特徵,並將這些特徵對應至特徵向量的程序。

部分機器學習專家會將特徵化做為 特徵工程擷取功能

聯合學習

分散式的機器學習做法,會使用智慧型手機等裝置上的去中心化示例訓練機器學習模型。在聯合學習中,部分裝置會下載目前的模型 透過中央協調伺服器取用裝置會使用儲存的樣本 改進模型成效接著,裝置會將模型改善項目 (但不是訓練範例) 上傳至協調伺服器,並與其他更新項目匯總,產生改善後的全球模型。匯總完成後,模型就會更新由裝置計算的結果 並予以捨棄

由於訓練範例一律不會上傳,因此聯合學習會遵循 隱私權原則:資料收集和資料最小化原則。

如要進一步瞭解聯合學習 請參閱這個教學課程

意見回饋循環

#fundamentals

在機器學習中,指的是模型的預測結果會影響相同模型或其他模型的訓練資料。舉例來說,推薦電影的模型會影響使用者觀看的電影,進而影響後續的電影推薦模型。

詳情請參閱機器學習速成課程中的「正式環境 ML 系統:應問的問題」。

前饋類神經網路 (FFN)

不含循環或遞迴連線的類神經網路。舉例來說,傳統的深層類神經網路就是前饋類神經網路。對比循環類神經 網路,也就是循環

少量樣本學習

採用機器學習技術,通常用於物件分類 僅透過一小部分內容訓練有效的分類器 訓練樣本

另請參閱單樣本學習零樣本學習

少量樣本提示

#language
#generativeAI

提示:包含多個 (「幾個」) 示例,說明大型語言模型應如何回應。舉例來說, 顯示大型語言模型如何回答查詢的範例。

提示的組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:EUR 我們來看個個例子
英國:GBP 另一個例子
印度: 實際查詢。

少量樣本提示產生的結果通常比 零樣本提示單樣本提示。不過,少量樣本提示需要較長的提示。

少量樣本提示是一種少量樣本學習,可套用於以提示為基礎的學習

如需更多資訊,請參閱機器學習速成課程中的「提示設計」一節。

小提琴

#language

以 Python 優先的設定程式庫,目的是設定 完全不需要侵入式程式碼或基礎架構。 以 Pax 和其他機器學習程式碼集來說,這類函式和 類別代表模型訓練 「超參數」

Fiddle 會假設機器學習程式碼集通常分為以下類別:

  • 定義層和最佳化器的程式庫程式碼。
  • 資料集「黏著劑」程式碼,會呼叫程式庫並將所有項目連接在一起。

Fiddle 會在未評估的 可變動的形式

微調

#language
#image
#generativeAI

並在 預先訓練模型來修正參數 特定用途舉例來說 大型語言模型的運作方式如下:

  1. 預先訓練:使用龐大的「一般」資料集訓練大型語言模型。 例如所有英文的 Wikipedia 網頁
  2. 微調:訓練預先訓練模型,以執行特定任務,例如回應醫療查詢。微調通常會使用數百或數千個專注於特定任務的範例。

舉另一個例子來說,大型圖片模型的完整訓練序列如下:

  1. 預先訓練:使用大量一般圖片資料集 (例如 Wikimedia Commons 中的所有圖片) 訓練大型圖片模型。
  2. 微調:訓練預先訓練模型,以執行特定任務,例如產生虎鯨圖片。

微調功能可以將下列策略組合搭配運用:

  • 修改所有預先訓練模型的現有模型 參數。這有時也稱為「完整微調」
  • 只修改預先訓練模型的部分現有參數 (通常是離 輸出層 最近的層),其他現有參數則保持不變 (通常是離 輸入層 最近的層)。詳情請見 具參數運用效率的調整作業
  • 新增更多圖層,通常是在最靠近 輸出層

微調是一種遷移學習。因此,微調可能會使用不同的損失函式或不同的模型 而不是用於訓練預先訓練模型的類型舉例來說,您可以微調預先訓練的大型圖像模型,產生回傳輸入圖片中鳥類數量的迴歸模型。

請比較及對照精細調整與下列術語:

請參閱微調相關說明 。

亞麻色

#language

這是以 JAX 為基礎打造的高效能開放原始碼程式庫,專門用於深度學習。Flax 提供函式 適用於訓練 類神經網路 評估廣告成效

亞麻色

#language

開放原始碼 Transformer library 建構於 Flax,主要用於自然語言處理 以及多模態研究

忘記大門

#seq

長期短期記憶 單元格中用於調控資訊流的部分。忘記閘道會決定要從儲存格狀態中捨棄哪些資訊,以便維持內容。

完整 softmax

softmax 的同義詞。

請參閱候選抽樣

請參閱「類神經網路:多類別」 分類

全連接層

隱藏層,其中每個節點都會連結至後續隱藏層中的每個節點。

全連接層也稱為密集層

函式轉換

這個函式會將函式做為輸入內容,並傳回經過轉換的函式做為輸出內容。JAX 會使用函式轉換。

G

GAN

生成對抗網路的縮寫。

一般化

#fundamentals

模型能夠針對先前未知的新資料做出正確預測的能力。可推廣的模型與過度配適的模型相反。

請參閱「一般化」一節 。

Gemini

#language
#image
#generativeAI

這個生態系統包含 Google 最先進的 AI 技術。這個生態系統的元素包括:

,瞭解如何調查及移除這項存取權。

Gemini 模型

#language
#image
#generativeAI

Google 最先進的 Transformer 技術 多模態模型:Gemini 模型專門用於整合代理程式

使用者可以透過多種方式與 Gemini 模型互動,包括透過互動式對話介面和 SDK。

泛化曲線

#fundamentals

這張圖表顯示訓練損失驗證損失的函式,以迭代次數為變數。

一般來說,一般化曲線可協助您偵測可能的過度擬合。舉例來說,下列泛化曲線顯示過度擬合,因為驗證損失最終會大幅高於訓練損失。

以購物車圖為例,Y 軸表示損失,X 軸
          已標記為「疊代」畫面中會出現兩塊圖。其中一個圖表顯示訓練損失,另一個則顯示驗證損失。這兩份圖表一開始看起來很類似,但訓練損失最終會
          低點則遠低於驗證損失。

請參閱「一般化」一節 。

一般線性模型

最小平方迴歸的一般化 基礎模型 高斯文 雜音 和其他類型的雜訊 波松噪音 或 類別雜訊一般化線性模型的範例包括:

您可以透過凸最佳化,找出廣義線性模型的參數。

一般線性模型具有下列屬性:

  • 最佳最小平方迴歸模型的平均預測結果為 等於訓練資料的平均標籤
  • 最佳邏輯迴歸預測的平均機率 等於訓練資料的平均標籤

廣義線性模型的效能受限於其特徵。取消喜歡 一般化線性模型無法「學習新功能」

生成對抗網路 (GAN)

系統會建立新資料,其中產生器會建立資料,而鑑別器會判斷所建立的資料是否有效。

詳情請參閱生成式對抗式網路課程

生成式 AI

#language
#image
#generativeAI

沒有正式定義的新興轉換欄位。 不過,大多數專家都認為,生成式 AI 模型可以創建 (「生成」) 下列所有內容:

  • 複雜
  • 連貫性
  • 原始圖片

例如生成式 AI 模型 文章或圖片

有些早期的技術,包括 LSTMRNN,也能產生原創且連貫的內容。有些專家認為這些早期技術就是生成式 AI,但其他專家則認為,真正的生成式 AI 需要比這些早期技術更複雜的輸出內容。

預測式機器學習相反。

生成式模型

具體來說,模型可以執行下列作業之一:

  • 從訓練資料集建立 (產生) 新示例。舉例來說,生成式模型可在以詩歌資料集訓練後,產生詩歌。生成對抗網路generator 部分就屬於這個類別。
  • 判斷新示例來自訓練集的機率,或透過建立訓練集的相同機制建立的機率。舉例來說,在以英文句子組成的資料集上完成訓練後,生成式模型就能判斷新輸入內容是否為有效的英文句子。

理論上,生成式模型可以辨別資料集中的範例或特定特徵分布情形。也就是:

p(examples)

非監督式學習模型皆為生成式模型

請參閱判別式模型

產生器

生成對抗模型內的子系統 網路 建立新的範例

判別模型相反。

吉尼不純度

#df

entropy 的指標類似。分隔器會使用從基尼不純度或熵衍生而來的值,組合條件,用於分類決策樹資訊增益是從熵衍生而來。沒有普遍接受的指標 原汁原味但這類未命名指標 資訊增加

原住民也稱為「gini index」,或簡稱「gini」

黃金資料集

一組手動收集的資料,用於擷取真值。團隊可以使用一或多個黃金資料集來評估模型品質。

有些黃金資料集會擷取不同的基準真相。例如: 圖片分類的黃金資料集可能會捕捉到光線條件 以及圖片解析度

GPT (生成式預先訓練 Transformer)

#language

OpenAI 開發的一系列Transformer大型語言模型

GPT 變化版本可適用於多種模式,包括:

  • 圖像生成 (例如 ImageGPT)
  • 文字轉圖像生成功能 (例如 DALL-E)。

gradient

相對於所有獨立變數的偏微分向量。在機器學習中,梯度是模型函式偏導數的向量。漸層點 朝最陡峭的方向移動

梯度累積

反向傳播技巧,只會在每個迴圈結束時更新參數,而非在每個迭代中更新一次。處理每個迷你批次後,梯度累積功能只會更新梯度的總計。接著,在處理了該 epoch 中的最後一個迷你批次後,系統最後會根據所有梯度變更的總和更新參數。

批量為 因此遠大於訓練用記憶體容量 記憶體不足時,自然會傾向減少批次大小。然而,在正常反向傳播的情況下降低批次大小增加 參數更新次數梯度累積可讓模型避免記憶體問題,同時仍能有效訓練。

梯度提升 (決策) 樹狀圖 (GBT)

#df

一種決策樹,其特點如下:

請參閱梯度提升決策 樹木 《Decision Forests》課程。

梯度提升

#df

訓練演算法,訓練弱模型,以便逐步改善強模型的品質 (降低損失)。舉例來說,線性或小型決策樹模型就是弱模型。強大模型會成為先前訓練的所有弱模型的總和。

在最簡單的梯度提升形式中,每次疊代時,系統都會訓練弱模型,以預測強模型的損失梯度。接著,系統會透過減去預測梯度來更新強模型的輸出內容,類似於梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始的強大模式。
  • $F_{i+1}$ 是下一個功能強大的模型,
  • $F_{i}$ 是目前的強大模型。
  • $\xi$ 是一個介於 0.0 和 1.0 之間的值,稱為「shrinkage」。 類似於 學習率: 梯度下降法
  • $f_{i}$ 是經過訓練的弱模型,用來預測 $F_{i}$。

現代梯度提升的變化版本也會在運算中納入損失的二次微分 (Hessian)。

決策樹經常用來做為 以及梯度提升詳情請見 梯度提升 (決策) 樹狀圖

梯度限幅

#seq

這是一種常用的機制,可在使用梯度下降法訓練模型時,人為限制 (截斷) 梯度的最大值,藉此緩解梯度爆炸問題

梯度下降法

#fundamentals

一種用於盡量減少損失的數學技術。漸進式下降法 權重偏誤、 逐漸找出最佳組合,將損失降到最低。

梯度下降法比機器學習更早出現,而且還要早得多。

請參閱線性迴歸:漸層 descent

圖表

#TensorFlow

在 TensorFlow 中,是運算規格。圖表中的節點 代表作業邊緣會指示並代表傳遞結果 是作業 (Tensor) 其他作業。使用 TensorBoard 以視覺化方式呈現圖表。

圖表執行

#TensorFlow

由程式初次建構的 TensorFlow 程式設計環境 圖表,然後執行該圖表的所有或部分資料。圖形執行是 TensorFlow 1.x 中的預設執行模式。

執行式執行相比。

貪婪政策

#rl

在強化學習中,政策一律會選擇預期報酬率最高的動作。

基準真相

#fundamentals

實際發生的情況。

舉例來說,假設有一個二元分類模型,可預測大一學生是否會在六年內畢業。這個模型的真值 而不是實際上在六年內畢業

團體歸因偏誤

#fairness

假設對某個人而言是正確的,對該群組中的每個人也同樣正確。如果使用便利性取樣收集資料,群組歸因偏誤的影響可能會更加嚴重。在無代表性的樣本中,歸因 可能無法反映實際情況

另請參閱外團體同質性偏誤內團體偏誤。如需更多資訊,請參閱機器學習速成課程中的「公平性:偏見類型」。

H

幻覺

#language

產生的看似合理,但輸出內容與事實不符 生成式 AI 模型 對現實世界的聲明 舉例來說,如果生成式 AI 模型聲稱 Barack Obama 於 1865 年過世,就是錯誤擷取內容

雜湊

在機器學習中,這是一種用於將類別資料分割成桶的機制,特別是在類別數量龐大,但資料集中實際出現的類別數量相對較少的情況下。

舉例來說,地球上約有 73,000 種樹木。您可以將 73,000 種樹木分別納入 73,000 個分類桶中。另外,如果只有 200 種植物 就可以使用雜湊將樹木物種劃分成 大約 500 個值區

單一分類可包含多種樹種。舉例來說,雜湊運算可能會將 猴麵包樹紅楓這兩種遺傳上不相似的物種放入同一個值區。無論如何,對大量分類集合進行對應至所選數量的分層也是不錯的方法。雜湊處理會以確定的方式將值分組,將具有大量可能值的分類特徵轉換為數量較少的值。

詳情請參閱機器學習速成課程中的「分類資料:字彙表和 one-hot 編碼」。

經驗法則

以簡單快速的方式解決問題。例如: 「採用經驗法則,我們的準確率高達 86%。當我們改用 深層類神經網路的準確率提升了 98%。」

隱藏層

#fundamentals

神經網路中的一層,位於輸入層 (特徵) 和輸出層 (預測) 之間。每個隱藏層都含有一或多個「神經元」。 例如,下列神經網路包含兩個隱藏層,第一個有三個神經元,第二個有兩個神經元:

四個層級。第一個層是輸入層,其中包含兩個特徵。第二層是包含三個神經元的隱藏層。第三層是包含兩個神經元的隱藏層。第四層是輸出層每個特徵都包含三個邊緣,每個邊緣都會指向第二層中的不同神經元。第二層中的每個神經元都包含兩個邊緣,每個邊緣都會指向第三層中的不同神經元。第三層中的每個神經元都包含一個邊,每個邊都指向輸出層。

深層類神經網路包含多個隱藏層。舉例來說,上圖是深層類神經網路的 因為模型包含兩個隱藏層

如需更多資訊,請參閱機器學習速成課程中的「類神經網路:節點和隱藏層」。

階層分群

#clustering

用來建立樹狀結構的「分群法」演算法 叢集階層分群法非常適合階層式資料 例如植物分類階層分群演算法分為兩種:

  • 聚合分群會先將每個示例指派至各自的叢集,然後以迴圈方式合併最相近的叢集,以建立階層樹狀圖。
  • Divisive Clustering 會先將所有範例分組為一個叢集,然後以迴圈方式將叢集分割為階層樹狀結構。

群集型分群法的對比。

請參閱分群法 演算法 請參閱「叢集」課程

轉折損失

一系列的 loss 函式 分類能找出 盡可能遠離決策界線 每個訓練示例中的字詞 因此,將範例與邊界之間的邊界最大化。 KSVM 使用轉軸損失或相關函式,例如 平方轉軸損失)。對於二元分類,邊界損失函式定義如下:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 為實際標籤 (-1 或 +1),y' 則是原始輸出 部分分類:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此,對齊損失與 (y * y') 的圖表如下所示:

笛卡爾圖表,由兩個相連的線段組成。第一個線段的起點為 (-3, 4),終點為 (1, 0)。第二行
          區隔從 (1, 0) 開始,並以斜率無限期持續
          值。

歷史偏誤

#fairness

一種在現實世界中存在,並已納入資料集中的偏誤。這些偏誤往往反映現有的文化刻板印象、客層不平等,以及對特定社會群體的偏見。

舉例來說,假設有個分類模型,用來預測貸款申請人是否會違約,而該模型是根據 1980 年代兩個不同社區當地銀行的歷史貸款違約資料進行訓練。如果社群 A 的申請者 比其他社群成員多 6 倍 預設貸款金額,可能會低於社群 B 的申請者 可能因此學習到歷來偏誤,導致模型降低 核准社區 A 貸款, 預設費率已不適用

請參閱「公平性:類型」 偏誤

保留資料

範例:在訓練期間刻意未使用 (「保留」)。驗證資料集測試資料集是保留資料的例子。保留資料有助於評估模型是否能推論訓練資料以外的資料。與訓練集的損失相比,保留集的損失可更準確地估算未知資料集的損失。

主機

#TensorFlow
#GoogleCloud

使用加速器晶片訓練機器學習模型時 (GPU 或 TPU),是系統的一部分 同時可控管下列事項:

  • 程式碼的整體流程。
  • 輸入管道的擷取及轉換。

主機通常會在 CPU 上執行,而不是在加速器晶片上執行;裝置會在加速器晶片上操控張量

超參數

#fundamentals

您或超參數調整服務在連續執行模型訓練時調整的變數。舉例來說,學習率就是超參數。您可以 先將學習率設為 0.01,再進行訓練課程如果發生以下情況: 假設 0.01 過高 下個單元的學習分數為 0.003

相較之下,參數是模型在訓練期間學習的各種權重偏差

詳情請參閱機器學習速成課程中的「線性迴歸:超參數」一文。

超平面

將空格分隔成兩個子空格的界線。例如,一行是 平面上有兩個維度,平面是三個維度的超平面 水平面圖更常見於機器學習 太空船核心支援向量機器 超平面可將正類別與負面類別分開,通常在 太空船

I

i.i.d.

獨立同分布的縮寫。

圖片辨識

#image

這個程序可將圖片中的物件、模式或概念分類。圖像辨識也稱為「圖像分類」

詳情請參閱「ML 實作課:圖片分類」。

請參閱「機器學習實務:圖片分類」 課程 瞭解詳情

不平衡資料集

與「不平衡資料集」同義。

隱性偏誤

#fairness

自動建立關聯或假設 模型和記憶隱性偏誤可能會影響下列事項:

  • 資料的收集和分類方式。
  • 機器學習系統的設計與開發方式。

舉例來說,在建構用於辨識婚禮相片的分類器時,工程師可能會將相片中是否有白色洋裝做為特徵。不過,白色洋裝只有在特定年代才有 特定文化中的重大知識

另請參閱「確認偏誤

imputation

短形式的值計算

公平性指標互相衝突

#fairness

某些公平性概念互相衝突,無法同時滿足。因此,沒有單一通用的指標可用於量化公平性,並套用至所有機器學習問題。

雖說這個做法可能令人感到不適,但公平性指標也不相容 不表示公平性努力是無庸置疑的。而是建議 每個機器學習問題都必須根據背景定義公平性 目標是防止特定用途遭受危害。

請參閱 (即「可能性」的可能性),進一步瞭解這個主題。

情境學習

#language
#generativeAI

與「少量樣本提示」同義。

獨立且均勻分佈 (i.i.d)

#fundamentals

從不會變更的分布圖中繪製的資料,且繪製的每個值不依賴先前繪製的值。機器學習的 i.i.d. 是理想氣體,雖然是實用的數學結構,但在現實世界中幾乎不存在。舉例來說,網頁訪客的分布可能在短時間內保持不變,也就是說,分布在短時間內不會改變,且某人造訪網頁與其他人造訪網頁通常是獨立的。不過,如果您擴大時間範圍,網頁訪客可能會出現季節性差異。

另請參閱非平穩性

個人公平性

#fairness

檢查類似個人是否歸類的公平性指標 舉例來說,Brabdingnagian Academy 希望滿足這些需求 確保兩位年級相同的學生 且標準化的測驗成績同樣有可能獲得門票。

請注意,個別公平性完全取決於您如何定義「相似性」(在本例中為成績和考試成績),如果相似性指標遺漏重要資訊 (例如學生課程的嚴謹程度),就可能導致新的公平性問題。

請參閱 Fairness Through 認識」,進一步討論個人公平性。

推論

#fundamentals

在機器學習中,產生預測結果的過程 將經過訓練的模型套用至未加上標籤的範例

在統計學中,推論的意思稍有不同。詳情請參閱 維基百科上有關統計推論的文章

請參閱機器學習概論課程中的「監督式學習」,瞭解推論在監督式學習系統中的角色。

推論路徑

#df

決策樹中,在推論期間,特定示例會從根目錄轉往其他條件,並以葉片結束。舉例來說,在下列決策樹狀圖中,較粗的箭頭會顯示具有下列特徵值的示例推論路徑:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑通過三個 條件移動至節能綠葉 (Zeta) 前。

由四個條件和五個葉子組成的決策樹。
          根條件為 (x > 0)。由於答案為「是」,推論路徑會從根節點前往下一個條件 (y > 0)。答案為「是」,因此推論路徑接著會前往
          下一個條件 (z > 0)。由於答案為「否」,推論路徑會前往終端節點,也就是葉節點 (Zeta)。

三個粗箭頭代表推論路徑。

詳情請參閱決策樹叢書中的「決策樹」一節。

資訊增益

#df

決策樹中,節點的 與其子節點熵的加權 (以範例數量為依據) 之間的差異。節點的熵 該節點的範例

舉例來說,請考量下列熵值:

  • 父節點的熵 = 0.6
  • 具有 16 個相關範例的單一子節點熵 = 0.2
  • 另一個子節點的熵值 (有 24 個相關範例) = 0.1

因此,40% 的例項位於一個子節點,60% 位於另一個子節點。因此:

  • 子節點的加權熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,資訊增益為:

  • 資訊增益 = 父項節點的熵 - 子節點的加權熵總和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大部分分割器會尋找建立條件 才能獲得最高的資訊

團體內偏誤

#fairness

偏袒自己的群體或特徵。如果測試人員或評分人員是機器學習開發人員的朋友、家人或同事,內部偏誤可能會導致產品測試或資料集無效。

團體內偏誤是一種 團體歸因偏誤。 另請參閱外團體同質性偏誤

請參閱「公平性:類型」 出現偏誤 機器學習密集課程瞭解詳情。

輸入產生器

將資料載入神經網路的機制。

輸入產生器可視為負責將原始資料處理成張量的元件,這些張量會重複產生批次,用於訓練、評估和推論。

輸入層

#fundamentals

類神經網路 包含特徵向量。也就是輸入層 提供範例範例訓練推論。例如,下列神經網路中的輸入層包含兩個特徵:

四個圖層:一個輸入層、兩個隱藏層,以及一個輸出層。

在集合內的條件

#df

決策樹中,用於測試一組項目中是否包含某個項目的條件。舉例來說,以下是插邊條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式的特徵值為 tudorcolonialcape,則這個條件會評估為 Yes。如果 房屋風格地圖項目的值是其他值 (例如 ranch)。 則此條件會傳回「否」

事先設定的條件通常能使決策樹效率提高, 測試 one-hot 編碼功能的條件。

執行個體

example 的同義詞。

指導微調

#generativeAI

一種微調形式,可改善生成式 AI 模型遵循指示的能力。指令微調涉及針對一系列指令提示訓練模型,通常涵蓋多種任務。訓練微調過的模型 針對零樣本提示生成實用回應 能在各種任務中運作

比較各項目:

可解釋性

#fundamentals

能夠解釋或呈現機器學習模型的推論能力 人類能夠理解的詞彙

例如,大多數線性迴歸模型 才會具有可解釋性(您只需查看每個特徵的訓練權重)。決策樹也非常容易解讀。不過,部分模型需要轉繪成複雜的圖表,才具有可解釋性。

您可以使用 可解釋性學習工具 (LIT) 解釋機器學習模型

資料標註一致性

評估人員在執行工作時的同意頻率。 如果評估人員意見不一致,您可能需要改善工作說明。有時也稱為互動者協議,或 資料間隔的穩定性。另請參閱 Cohen's kappa,這是最常見的評分者間一致性評估指標之一。

請參閱「類別資料:一般 問題

交併比 (IoU)

#image

兩個集合的交集除以兩個集合的並集。機器學習技術 圖片偵測任務,IoU 可用來 預測定界框真值定界框。在這個例子中, 也就是重疊區域與總面積之間的比率 這個值的範圍介於 0 之間 (未與預測定界框和真值重疊) 定界框) 至 1 (預測定界框和真值定界框) 完全相同的座標)。

例如,在下圖中:

  • 預測的邊界框 (模型預測畫作中夜間桌子的座標) 以紫色標示。
  • 真值定界框 (用來界定夜晚位置的座標 實際上位於畫中的桌子) 會以綠色外框。

梵谷正畫出文森的《文森》在《阿勒》的臥室,總共有
          床邊桌子周圍的定界框。基本資料
          定界框 (綠色) 整整圍繞著夜桌。
          預測定界框 (紫色) 向右偏移 50% 以上
          基本資料定界框;包含右下角
          但漏掉桌子前的其他部分。

在此範例中,預測和實際資料定界框的交集 (左下方) 為 1,而預測和實際資料定界框的並集 (右下方) 為 7,因此交併比為 \(\frac{1}{7}\)。

與上方相同的圖片,但每個定界框會分為四個象限。總共有七個象限,位於右下方
          真值定界框和左上方象限
          預測出的定界框彼此重疊。這個
          重疊的部分 (以綠色醒目顯示) 代表
          而且 面積為 1 與上方相同的圖片,但每個定界框會分為四個象限。總共有七個象限,位於右下方
          真值定界框和左上方象限
          預測出的定界框彼此重疊。
          兩個定界框 (以綠色醒目顯示) 所包圍的整個內部代表聯集,其面積為 7。

IoU

聯集和聯集的縮寫。

項目矩陣

#recsystems

推薦系統中,由矩陣分解產生的嵌入向量矩陣,可保留有關每個項目的潛在信號。項目矩陣的每個資料列都會保留所有項目的單一潛在特徵值。舉例來說,假設有一個電影推薦系統,項目矩陣中的每個欄都代表一部電影。潛在信號 代表內容類型,或可能難以解讀 信號,其中包含在類型、星星、 或其他因素

項目矩陣與目標的欄數相同 。舉例來說,如果電影推薦系統評估 10,000 部電影名稱,項目矩陣就會有 10,000 個欄。

項目

#recsystems

推薦系統中,系統推薦的實體。舉例來說,影片是影片商店推薦的商品,而書籍則是書店推薦的商品。

疊代

#fundamentals

單次更新模型參數,也就是模型的 期間權重偏誤 訓練批次大小決定模型在單一疊代中處理的範例數量。舉例來說: 如果批量為 20,則模型會先處理 20 個樣本 調整參數

訓練類神經網路時,只會執行一次 涉及以下兩條通道:

  1. 前向傳遞,評估單一批次的損失。
  2. 反向傳遞 (反向傳播),根據損失和學習率調整模型參數。

J

JAX

結合在一起的陣列運算程式庫 XLA (加速線性代數) 和自動差異化 適合高效能數字運算JAX 提供簡單且強大的 API,可透過可組合轉換編寫加速的數值程式碼。JAX 提供以下功能:

  • grad (自動差異化)
  • jit (及時編譯)
  • vmap (自動向量化或批次處理)
  • pmap (平行處理)

JAX 是一種語言,用於表達及撰寫數值的轉換 與 Python 的 NumPy 程式碼類似,但範圍更大 資源庫。(事實上,JAX 下的 .numpy 程式庫與 Python NumPy 程式庫功能相同,但已完全重寫)。

JAX 特別適合用於加快許多機器學習工作,方法是將模型和資料轉換為適合在 GPU 和 TPU 加速器晶片上並行處理的格式。

FlaxOptaxPax 和許多其他程式庫都是以 JAX 基礎架構建構而成。

K

Keras

熱門的 Python 機器學習 API。Keras 可在多個深度學習架構上執行,包括 TensorFlow,在 TensorFlow 中,Keras 會以 tf.keras 的形式提供。

核心支援向量機 (KSVM)

分類演算法,可將輸入資料向量對應至較高維度的空間,藉此盡可能擴大正面負面類別之間的邊界。比方說 導致輸入資料集的問題 這項產品具備 10 個功能為了盡可能擴大正類和負類之間的邊界,KSVM 會在內部將這些特徵對應至百萬維度的空間。KSVM 會使用稱為「hinge loss」的損失函式。

重點

#image

圖片中特定地圖項目的座標。舉例來說 圖片辨識模型 花卉物種,關鍵點可能是每個花瓣、莖 看守護者等等

k 折交叉驗證

一種演算法可預測模型 對新資料一般化。k-fold 中的 k 指的是 將資料集樣本分成的等同組數;也就是說 並測試模型 K 次每輪訓練和測試都有 為測試集,其餘群組都是用於訓練的 設定。經過 k 輪訓練和測試後,您可以計算所選測試指標的平均值和標準差。

舉例來說,假設您的資料集包含 120 個範例,除此之外 因此你決定將 k 設為 4。因此,在重新排列範例後 將資料集分成四組,分別包含 30 個樣本,並分為 4 組 訓練與測試作業:

資料集已分成四個相等的範例群組。在第 1 輪中,前三個群組用於訓練,最後一個群組用於測試。在第 2 輪,前兩組和最後兩組
          第 3 個群組用於訓練
          進行測試。在第 3 輪中,第一組和最後兩組用於訓練,第二組則用於測試。在第 4 輪中,第一組用於測試,而最後三組用於訓練。

舉例來說,均方誤差 (MSE) 可能是線性迴歸模型最有意義的指標。因此,您會在四輪測試中找到 MSE 的平均值和標準差。

k-means

#clustering

這是一種常見的分群演算法,可在非監督式學習中將範例分組。k-means 演算法基本上會執行以下操作:

  • 會以迭代方式判斷最佳 k 個中心點 (稱為 centroids)。
  • 將每個範例指派給最接近的群集中心。最接近同一中心點的示例屬於同一個群組。

k-means 演算法會挑選群集中心位置,盡量減少每個範例與最近群集中心之間距離的累積平方

例如,請思考以下圖中狗的身高到狗寬度的圖:

包含數十個資料點的笛卡兒圖。

如果 k=3,則 k-means 演算法會決定三個質心。每個範例 會指派給其最接近的群集,會產生三個群組:

與前一個插圖相同的笛卡兒圖表,但新增了三個重心。前述資料點已分成三個獨立的群組,每個群組代表最接近特定中心點的資料點。

假設製造商想針對 中、大、小毛衣三個群集中心點出 叢集內每隻狗的高度和平均寬度因此,製造商應該根據這三個質心來決定毛衣尺寸。請注意,叢集的中心點通常不是叢集中的示例。

上圖顯示的 k-means 範例只包含 也就是高度和寬度請注意,k-means 可將範例分組 這項特色

K 中位數

#clustering

k-means 密切相關的分群演算法。 這兩種指標的實際差異如下:

  • 以 k-means 來說,分群物的化和最小化 平方:公分候選人和 範例。
  • 在 k 中位法中,系統會將候選質心與各個示例之間的距離總和降到最低,藉此決定質心。

請注意,距離的定義也不同:

  • k-means 仰賴 歐幾里德距離 和範例進行質性工作(在兩個維度中 距離是指使用畢氏定理來計算 這種假設性)。例如 k-means 與 (2,2) 之間的 k-means 距離。 而 (5,-2) 會是:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 會使用從群集中心到範例的 曼哈頓距離。這個距離是指 計算每個維度的絕對差異值舉例來說,(2,2) 和 (5,-2) 之間的 k 中位數距離為:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 正則化

#fundamentals

一種正則化,會針對模型中非零權重總數進行處罰。舉例來說,如果模型有 11 個非零權重,會比有 10 個非零權重的類似模型受到更嚴重的懲罰。

L0 正則化有時稱為 L0 正規化

L1 損失

#fundamentals

損失函式:計算實際 標籤值與 模型預測的值之間差異的絕對值。舉例來說,以下是五個範例批次計算 L1 損失:

範例的實際值 模型的預測值 差異值的絕對值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

L1 損失對離群值敏感度較低 少於 L2

平均絕對錯誤是平均值 每個範例 L1 損失。

L1 正則化

#fundamentals

一種正則化,會根據權重絕對值的總和,按比例處罰權重。L1 正則化可將不相關或幾乎不相關的特徵權重設為 確切 0。權重為 0 的特徵會從模型中有效移除。

L2 正則化對比。

L2 損失

#fundamentals

計算平方的損失函式 實際標籤值與 也就是模型預測的值。舉例來說,以下是 計算五分之批次的 L2 損失計算結果 例子

範例的實際值 模型的預測值 差異遷移廣場
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

由於質量的關係,L2 損失代表 離群值: 也就是說,L2 損失函式對錯誤預測的反應比 L1 損失函式更為強烈。舉例來說,前述批次的 L1 損失為 8,而非 16。請注意 就是 16 中的 9。

迴歸模型通常使用 L2 損失 做為損失函式

均方誤差是平均值的 每個例子的 L2 損失率。 「平方損失」是 L2 損失的另一個名稱。

L2 正則化

#fundamentals

一種正則化,會根據權重平方的總和,按比例加權權重。L2 正則化可協助提升離群值 (也就是 許多數值都很接近 0,但並非相當 0。 值非常接近 0 的特徵會保留在模型中 但不會影響模型的預測結果

L2 正則化一律會改善 線性模型

L1 正則化對比。

標籤

#fundamentals

監督式機器學習中,示例的「答案」或「結果」部分。

每個已加上標籤的範例都含有一或多個 地圖項目和一個標籤。例如垃圾郵件 則標籤可能是「spam」或 「非垃圾內容」。在降雨資料集中,標籤可能是某個期間內降雨量。

有標籤樣本

#fundamentals

包含一或多個地圖項目label。舉例來說,下表顯示房屋估價模型的三個標記範例,每個範例都有三個特徵和一個標記:

臥室數量 浴室數量 房屋年齡 房價 (標籤)
3 2 15 $345,000 美元
2 1 72 $179,000
4 2 34 $392,000 美元

監督式機器學習中 模型會根據加上標籤的樣本進行訓練 未加上標籤的範例

對比有未加上標籤的範例的對比標籤。

標籤外洩

模型設計缺陷,其中功能代表 label。舉例來說,假設您有一個二元分類模型,用來預測潛在客戶是否會購買特定產品。假設模型的其中一項特徵是名為 SpokeToCustomerAgent。再假設客戶服務專員只會在潛在客戶實際購買產品後才指派。在訓練期間,模型會快速學習關聯 介於 SpokeToCustomerAgent 和 標籤之間

lambda

#fundamentals

與「正規化率」同義。

Lambda 是過載的字詞。這裡我們把重點放在 正則化中的定義。

LaMDA (對話應用程式語言模型)

#language

Transformer 為基礎的 由 Google 開發的大型語言模型 能生成真實對話回應的大型對話資料集。

LaMDA:我們的突破性對話 技術大致介紹

地標

#image

關鍵點的同義詞。

語言模型

#language

估算符記機率的模型 或一組符記的序列中。

大型語言模型

#language

至少有一個語言模型,其參數數量非常高。更非正式的說法是,任何以 Transformer 為基礎的語言模型,例如 GeminiGPT

潛在空間

#language

嵌入空間的同義詞。

圖層

#fundamentals

類神經網路中的一組神經元。三種常見的圖層類型如下:

舉例來說,下圖顯示的神經網路有一個輸入層、兩個隱藏層和一個輸出層:

神經網路包含一個輸入層、兩個隱藏層和一個輸出層。輸入層包含兩個地圖項目。第一個隱藏層由三個神經元組成,第二個隱藏層則由兩個神經元組成。輸出層由單一節點組成。

TensorFlow 中,圖層是 Python 函式, 使用 Tensor 和設定選項做為輸入和 會產生其他張量做為輸出內容

圖層 API (tf.layers)

#TensorFlow

用於建構類類神經網路的 TensorFlow API 構成圖層的組合Layers API 可讓您 圖層類型,例如:

Layers API 遵循 Keras 層 API 慣例。也就是除了不同的前置字元外,Layers API 中的所有函式 名稱與簽名與 Keras 中的對應項目相同 Layers API

葉子

#df

決策樹中的任何端點。與條件不同,葉節不會執行測試。葉節是可能的預測結果。葉子也是推論路徑的終端節點

例如,下列決策樹含有三個葉子:

決策樹狀圖包含兩個條件,導致三個葉節。

學習技術可解釋性工具 (LIT)

這項工具可視覺化呈現互動式模型,並提供資料視覺化功能。

您可以使用開放原始碼 LIT解讀模型,或是以視覺化方式呈現文字、圖像和 表格型資料

學習率

#fundamentals

浮點數,可告知梯度下降演算法,應以多大的力調整每個迭代的權重和偏差。舉例來說,如果學習率為 0.3 調整權重和偏誤的調整效果比學習率高出三倍 0.1。

學習率是重要的超參數。如果您將學習率設得過低,訓練時間就會過長。如果 將學習率設為過高時,梯度下降法經常發生問題 觸及對話

最小平方迴歸

最小化完成訓練的線性迴歸模型 L2 損失

線性

#fundamentals

兩個以上可以單純表示的變數之間的關係 可以結合加法和乘法

線性關係的圖表為直線。

非線性相反。

線性模型

#fundamentals

為每個模型指派一個權重feature 進行預測。 (線性模型也會納入偏差)。相較之下,深度模型中特徵與預測的關係通常是非線性

線性模型通常比深度模型更容易訓練,且更容易解讀。不過,深度模型可以學習特徵之間的複雜關係。

線性迴歸邏輯迴歸是兩種線性模型的類型。

線性迴歸

#fundamentals

一種機器學習模型,符合下列兩個條件:

  • 模型為線性模型
  • 預測結果為浮點值。(這是 迴歸部分屬於線性迴歸)。

比較線性迴歸和邏輯迴歸。此外,請比較迴歸與分類

LIT

以下字詞的縮寫: 可解釋性學習工具 (LIT), 這個 API 舊稱「語言可解釋性工具」

LLM

#language
#generativeAI

大型語言模型的縮寫。

LLM 評估 (evals)

#language
#generativeAI

一組用於評估大型語言模型 (LLM) 效能的評估指標和基準。大致來說,LLM 評估有以下功能:

  • 協助研究人員找出大型語言模型需要改善的領域。
  • 可用於比較不同 LLM,並找出特定工作最合適的 LLM。
  • 確保 LLM 安全且符合道德規範。
,瞭解如何調查及移除這項存取權。

邏輯迴歸

#fundamentals

用來預測機率的迴歸模型。 邏輯迴歸模型具有下列特性:

  • 標籤為「categorical」。「物流」一詞 迴歸通常是指「二元邏輯迴歸」,也就是 模型來計算標籤機率。 較不常見的變化版本是多項式邏輯迴歸,可計算標籤的機率,其中標籤的值可能超過兩個。
  • 訓練期間的損失函式為Log Loss。(如果標籤的可能值超過兩個,則可以並行放置多個 Log Loss 單位)。
  • 模型採用線性架構,而非深層類神經網路。 不過,此定義的其餘部分也適用於預測類別標籤機率的深度模型

舉例來說,假設有一個邏輯迴歸模型 輸入電子郵件遭歸類為垃圾郵件或非垃圾郵件的機率。 假設模型在推論期間預測為 0.72,因此, 正在估算的模型

  • 電子郵件被歸類為垃圾郵件的機率為 72%。
  • 電子郵件非垃圾郵件的機率為 28%。

邏輯迴歸模型採用下列兩步驟架構:

  1. 模型會套用線性函數來產生原始預測結果 (y') 輸入特徵
  2. 模型會將原始預測結果做為 S 函數的輸入值,將原始預測結果轉換為介於 0 和 1 之間的值 (不含兩者)。

和其他迴歸模型一樣,邏輯迴歸模型會預測數字。然而,這個數字通常會成為二元分類的一部分 如下所示:

  • 如果預測數字大於 分類門檻, 二元分類模型會預測正類
  • 如果預測的數量小於分類門檻, 二元分類模型會預測負類別

Logits

要分類的原始 (非正規化) 預測向量 模型產生後,通常會傳送給正規化函式 如果模型解析多元分類 記錄事件通常會成為 softmax 函式,藉此調整 API 的運作狀態。 接著,softmax 函式會產生 (標準化) 機率向量,其中每個可能類別都有一個值。

對數損失

#fundamentals

在二元邏輯迴歸中使用的損失函式

對數勝算比

#fundamentals

某個事件的對數機率。

長短期記憶 (LSTM)

#seq

是一種 循環類神經網路 應用程式中的資料序列,例如手寫辨識、機器 以及生成圖片說明文字LSTM 會根據 RNN 中先前儲存格的新輸入和背景資訊,在內部記憶體狀態中保留記錄,藉此解決訓練 RNN 時因長資料序列而發生的梯度消失問題

LoRA

#language
#generativeAI

低秩適應性的縮寫。

損失

#fundamentals

完成這項操作的訓練期間 監督式模型,可測量 模型的預測結果源自其 label

損失函式會計算損失。

損失集結網站

一種機器學習演算法,可透過結合多個模型的預測,並使用這些預測結果做出單一預測,進而提升模型效能。因此,損失匯總器可以降低預測的變異度,並提高預測的準確度

損失曲線

#fundamentals

損失與訓練疊代次數的關係圖。下圖顯示典型的損失曲線:

呈現損失與訓練疊代的笛卡兒圖,
          初期疊代的損失迅速減少 然後逐漸下降
          最後反覆練習時是平緩下降的曲線

損失曲線可協助您判斷模型何時收斂過度擬合

損失曲線可繪製以下所有類型的損失:

另請參閱泛化曲線

損失函式

#fundamentals

訓練或測試期間,數學函式會計算批次樣本的損失。損失函式會傳回較低的損失 對於具有良好預測 預測結果不佳。

訓練的目標通常是盡量減少損失函式傳回的損失。

損失函數的類型有很多種,挑選適當的損失選項 函式。例如:

損失表面

體重與減重圖表。漸層下降: 找出損失表面達到本地下限的權重。

低秩調整 (LoRA)

#language
#generativeAI

參數效率高微調技巧,可「凍結」模型的預先訓練權重 (以便不再修改),然後在模型中插入一小組可訓練的權重。這組可訓練權重 (也就是 「更新矩陣」) 會明顯小於基礎模型 因此訓練速度會更快

LoRA 具備下列優點:

  • 改善模型在精細調整所用領域的預測品質。
  • 比起需要微調所有模型參數的技術,這項技術可更快速地進行微調。
  • 允許同時服務共用相同基礎模型的多個專門模型,藉此降低推論的運算成本。

LSTM

#seq

長短期記憶的縮寫。

M

機器學習

#fundamentals

訓練 輸入資料中的 model。訓練好的模型能根據全新或未知資料進行實用的預測,這些資料的發布方式與用於訓練模型的資料相同。

機器學習也指與這些程式或系統相關的研究領域。

多數類別

#fundamentals

class-imbalanced 資料集:舉例來說,如果資料集包含 99% 的負面標籤和 1% 的正面標籤,則負面標籤是多數類別。

少數類別的對比。

馬可夫決策程序 (MDP)

#rl

決策模式的圖表,其中做出決策 (或「動作」) 導覽序列 狀態,並假設 馬可夫屬性會保留。於 強化學習,藉此推動 狀態之間會傳回數值獎勵

馬可夫定律

#rl

特定環境的屬性,其中 轉換作業完全取決於 目前狀態和代理程式的動作

掩碼語言模型

#language

一種語言模型,能預測 序列中要填入的候選符記。舉例來說,經過遮罩的語言模型可計算候選字詞的機率,以便取代下列句子中的底線:

帽子的 ____ 回來了。

文獻使用字串「MASK」而不是底線 例如:

帽子上的「MASK」字樣又出現了。

大多數的現代遮罩語言模型都是雙向

matplotlib

開放原始碼 Python 2D 繪圖程式庫。matplotlib 可協助您將機器學習的不同面向以圖形呈現。

矩陣分解

#recsystems

在數學中,一種找出內心積接近 目標矩陣

建議系統中,目標矩陣 經常擁有對商品的評分。例如 電影推薦系統的矩陣會類似於 然後,其中正整數為使用者評分,0 則是 0 表示使用者未對電影評分:

  卡薩布蘭加 費城的故事 黑豹 神力女超人 啦啦隊
使用者 1 5.0 3.0 0.0 2.0 0.0
使用者 2 4.0 0.0 0.0 1.0 5.0
使用者 3 3.0 1.0 4.0 5.0 0.0

電影推薦系統的用意是預測使用者評分 未分級的電影。舉例來說,使用者 1 喜歡「黑豹」嗎?

推薦系統的一種方法是使用矩陣 分解來產生下列兩個矩陣:

舉例來說,如果對三位使用者和五項商品使用矩陣分解,就會產生下列使用者矩陣和商品矩陣:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

使用者矩陣和項目矩陣的內積會產生推薦矩陣,其中不僅包含原始使用者評分,還包含每位使用者未看過的電影預測結果。舉例來說,假設使用者 1 對 Casablanca 的評分為 5.0。建議矩陣中對應至該儲存格的點積應約為 5.0,如下所示:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是,使用者 1 會喜歡「Black Panther」嗎?取對應於第一列和第三欄的點積,可產生 4.3 的預測評分:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩陣分解通常會產生使用者矩陣和項目矩陣,兩者加起來比目標矩陣精簡許多。

平均絕對誤差 (MAE)

每例 L1 損失時的平均損失率: 計算平均絕對誤差的方法如下:

  1. 計算批次的 L1 損失。
  2. 將 L1 損失除以批次中的樣本數量。

舉例來說,請考慮以下五個範例批次的 L1 損失計算方式:

範例的實際值 模型的預測值 損失 (實際值與預測值之間的差異)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = 損失 1

因此,L1 損失為 8,而範例數量為 5。因此,平均絕對誤差為:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

比較平均絕對誤差與均方誤差均方根誤差

平均平方錯誤 (MSE)

使用 L2 損失函式時,每個範例的平均損失。計算均方誤差的公式如下:

  1. 計算批次的 L2 損失。
  2. 將 L2 損失值除以批次中的範例數量。

例如,假設下列五個例子中的損失結果:

實際值 模型的預測結果 損失 平方損失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 損失

因此,均方誤差為:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均平方錯誤是熱門的訓練最佳化工具 特別是線性迴歸

比較均方誤差與均方絕對誤差均方根誤差

TensorFlow Playground 會使用 Mean Squared Error 計算損失值。

網格

#TensorFlow
#GoogleCloud

在機器學習平行程式設計中,與指派資料和 複製到 TPU 晶片,並定義這些值的資料分割或複製方式。

Mesh 是個超載的術語,可指下列任一項:

  • TPU 晶片的實體配置。
  • 一種抽象邏輯結構,可將資料和模型對應至 TPU 方塊。

不論是哪一種情況,網格都會指定為「形狀」。

中繼學習

#language

是機器學習技術的分支,可探索或改進機器學習演算法。 元學習系統也可以訓練模型,讓模型從少量資料或先前任務的經驗中,快速學習新任務。中繼學習演算法通常會嘗試達到以下目標:

  • 改善或學習手動設計的功能 (例如初始化器或最佳化工具)。
  • 提高資料和運算效率。
  • 提升一般化。

元學習與少量樣本學習相關。

指標

#TensorFlow

您重視的統計資料。

目標是機器學習系統嘗試最佳化的指標。

Metrics API (tf.metrics)

用於評估模型的 TensorFlow API。例如,tf.metrics.accuracy 會決定模型預測結果與標籤相符的頻率。

小批

#fundamentals

在一個迭代中處理的批次隨機選取的子集。迷你批次的批次大小通常介於 10 到 1,000 個示例之間。

舉例來說,假設整個訓練集 (完整批次) 包含 1,000 個範例再假設您將每個迷你批次的批次大小設為 20。因此,每次迭代都會在 1,000 個隨機示例中判斷損失,然後據此調整權重偏差

用迷你批次計算損失的效率比 所有樣本的損失

小批隨機梯度下降法

使用小批梯度下降演算法。換句話說 梯度下降法會根據一小部分的 訓練資料一般隨機梯度下降法會採用 大小為 1 的最小批量

最小損失

生成式對抗網路的損失函式,根據產生資料和實際資料之間的交叉熵分布。

最小損失值是用於 要介紹的第一份文件 生成對抗網路

少數類別

#fundamentals

類別不平衡資料集中較不常見的標籤。舉例來說,如果資料集包含 99% 的負面標籤和 1% 的正面標籤,則正面標籤屬於少數類別。

請參閱「多數類別」一節。

專家組合

#language
#generativeAI

這項做法可提高神經網路的效率,方法是只使用部分參數 (稱為專家) 來處理特定輸入 符記示例篩選網路會將每個輸入符號或範例導向適當的專家。

詳情請參閱下列任一論文:

ML

機器學習的縮寫。

綜合格鬥

#language
#image
#generativeAI

以下字詞的縮寫 多模態指令微調

MNIST

#image

由 LeCun、Cortes 和 Burges 彙整的公開領域資料集,內含 每張 6 萬張圖片,分別顯示人類如何手動撰寫特定文件 介於 0 到 9 之間的數字。每張圖片都會儲存為 28x28 的整數陣列, 每個整數都是介於 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集,通常用於測試新的機器學習做法。詳情請參閱 手寫數字 MNIST 資料庫

模態

#language

概略資料類別。舉例來說,數字、文字、圖片、影片和音訊是五種不同的模式。

模型

#fundamentals

一般而言,任何處理輸入資料並傳回的數學結構 輸出內容換句話說,模型是系統進行預測所需的參數和結構組合。在監督式機器學習中,模型會將範例做為輸入內容,並推斷預測結果做為輸出內容。在監督式機器學習中,模型會有一定程度的差異。例如:

  • 線性迴歸模型由一組權重偏差組成。
  • 類神經網路模型包含以下項目:
    • 一組隱藏圖層,每個圖層都包含一個或 更多神經元
    • 與各個神經元相關聯的權重和偏誤。
  • 決策樹模型包含:
    • 樹狀圖的形狀,也就是條件和葉節點連結的模式。
    • 條件和葉子。

您可以儲存、還原或複製模型。

非監督式機器學習 產生的模型,通常是將輸入範例對應至 最適當的叢集

模型容量

模型可學習的問題複雜度。越複雜的 模型的處理能力就越高模型的容量通常會隨著模型參數數量而增加。如要查看分類器容量的正式定義,請參閱「VC 維度」。

模型層疊

#generativeAI

根據特定推論選擇理想模型的系統 。

想像一組大型模型 parameters) 和較小 (較少參數)。 非常大型的模型會耗用較多 推論時間。但非常大 與小型模型相比,模型能推斷出更複雜的要求。 串聯模型會決定推論查詢的複雜程度, 挑選合適的模型來執行推論。 串聯模型的主要動機是 一般而言,我們會選擇較小的模型 更複雜的查詢

假設有一個小型模型在手機上運作 而該型號更大 它會在遠端伺服器上運作良好的模型階層式架構,可減少成本和延遲時間, 讓較小的模型處理簡單的要求並只呼叫 處理複雜要求

另請參閱模型路由器

模型平行處理

#language

橫跨特定部分的 型號模型平行處理可讓過大的模型適合在單一裝置上執行。

系統通常會執行下列操作,實作模型並行:

  1. 將模型分割成較小的部分。
  2. 將這些較小的部分訓練工作分散到多個處理器。每個處理器都會訓練模型的一部分。
  3. 將結果合併,建立單一模型。

模型平行處理會降低訓練速度。

另請參閱「資料平行處理」。

模擬路由器

#generativeAI

決定最佳模型的演算法 模型串聯中的推論。 模型路由器本身通常也是機器學習模型,可逐漸學習如何為特定輸入內容挑選最佳模型。不過,模型路由器有時比較簡單 非機器學習演算法

模型訓練

決定最佳模型的程序。

累積熱度

精密的梯度下降法演算法,可依循學習步驟 不單靠目前步驟的導數,也包括導數 加入其餘步驟Momentum 會計算梯度的指數加權移動平均值,類似於物理學中的動量。成長有時是阻礙學習 困在當地的 小米歐。

MOE

#language
#image
#generativeAI

混合專家的縮寫。

多元分類

#fundamentals

在監督式學習中,會發生分類問題 資料集中包含超過兩個 類別的標籤。 舉例來說,Iris 資料集中的標籤必須是下列三個類別之一:

  • Iris setosa
  • 伊利斯.維吉尼卡 (Iris virginica)
  • Iris versicolor

以 Iris 資料集訓練而成的模型,可針對新的範例預測 Iris 類型 也就是執行多元分類

相對的,分類問題則能區分 類別為「二元分類模型。 例如預測「垃圾郵件」或「非垃圾郵件」的電子郵件模型 是一種二元分類模型

在分群問題中,「多類別分類」是指 兩個叢集

多類別邏輯迴歸

多重類別分類問題中使用邏輯迴歸

多頭自注意力

#language

自我注意力的擴充功能,會針對輸入序列中的每個位置多次套用自我注意力機制。

Transformers 引入了多頭自注意力。

多模態模型

#language

模型的輸入和/或輸出包含多個模態。舉例來說,假設模型同時將圖片和文字說明 (兩種模式) 做為特徵,並輸出分數,指出文字說明與圖片的關聯程度。因此,這個模型的輸入內容屬於多模態,且輸出內容為單模。

多模態教學調整

#language

指令調整模型,可處理文字以外的輸入內容,例如圖片、影片和音訊。

多元分類

多元分類的同義詞。

多項式迴歸

多重類別邏輯迴歸同義。

多工處理

一種機器學習技術,也就是單一模型 執行多項工作的相關訓練。

建立多工模型時,您需要使用資料來訓練資料, 不同的任務這樣一來,模型就能學習 處理任務的資訊就能提升模型的學習效率

針對多項任務訓練的模型,通常可以提升一般化能力 且更健全地處理不同類型的資料

NaN 陷阱

當模型中的某個數字在訓練期間變成 NaN,導致模型中的許多或所有其他數字最終都變成 NaN。

NaN 是「不是」數字的縮寫。

自然語言理解

#language

根據使用者輸入或說話的內容判斷使用者的意圖。 舉例來說,搜尋引擎會根據使用者輸入或說出的內容,使用自然語言理解技術判斷使用者要搜尋的內容。

負類

#fundamentals

二元分類中,一個類別稱為「正面」,另一個則稱為「負面」。正類是模型要測試的事物或事件,而負類則是其他可能性。例如:

  • 醫療檢測中的陰性類別可能為「非腫瘤」。
  • 電子郵件分類器中的排除類別可能為「非垃圾郵件」。

正類形成對比。

負面取樣

候選抽樣的同義詞。

類神經架構搜尋 (NAS)

一種自動設計神經網路架構的技術。NAS 演算法可減少訓練神經網路所需的時間和資源。

NAS 一般會使用:

  • 搜尋空間,這是一組可能的架構。
  • 健身功能,可用來衡量 會針對特定任務執行何種架構

NAS 演算法通常會從一小組可能的架構開始,並隨著演算法進一步瞭解有效架構,逐漸擴大搜尋空間。健身功能通常會根據 訓練集的架構效能 訓練基礎模型通常會透過 強化學習技巧。

NAS 演算法經證實能有效找出高績效 各種工作的架構,包括映像檔 分類、文字分類 以及機器翻譯

輸出內容

#fundamentals

含有至少一個內容的模型 隱藏的圖層。 「深層類神經網路」是一種類神經網路 含有多個隱藏層例如,下圖 會顯示包含兩個隱藏層的深層類神經網路

神經網路包含輸入層、兩個隱藏層和輸出層。

類神經網路中的每個神經元都會連結至下一層的所有節點。舉例來說,在前述圖表中,請注意第一個隱藏層中的三個神經元分別連結至第二個隱藏層中的兩個神經元。

在電腦上實作的類神經網路有時也稱為 人工類神經網路 腦力激盪和其他神經系統中的類神經網路

某些類神經網路可以模擬非常複雜的非線性關係 區分特徵和標籤

另請參閱卷積類神經網路循環類神經網路

神經元

#fundamentals

在機器學習中,隱藏層中的不同單位 類神經網路的變體。每個神經元都會執行下列兩步驟動作:

  1. 計算加權總和,即將輸入值乘以相應權重。
  2. 將加權總和做為輸入內容傳送至 活化函數

第一個隱藏層中的神經元接受來自特徵值的輸入 輸入層神經元會隱藏在 第一個值會接受來自先前隱藏層中神經元的輸入內容。 舉例來說,第二個隱藏層中的神經元會接受第一個隱藏層中神經元的輸入內容。

下圖標示出兩個神經元及其輸入內容。

一個類神經網路,其中有輸入層、兩個隱藏層
          輸出層兩個神經元皆已醒目顯示:一個位於第一個隱藏層,另一個位於第二個隱藏層。醒目顯示的
          第一個隱藏層的神經元會從兩個特徵接收輸入內容
          特定物件第二個隱藏層中醒目顯示的神經元
          會從第一個隱藏的神經元中的三個神經元
接收輸入內容
          執行

類神經網路中的神經元會模仿大腦和神經系統其他部分的神經元行為。

N 克

#seq
#language

由 N 個字詞組成的有序序列。例如,「truly madly」是 2 公克由於順序相關,madly trulytruly madly 的 2 元組不同。

這類 N 元語法的名稱 範例
2 Biram 或 2 公克 to go, go to, eat lunch, eat dinner
3 三角形或 3 公克 丟了太多葉子、三個盲滑鼠、鈴鐺
4 4 公克 公園裡的步道、風吹灰塵、男孩放著扁豆

許多自然語言理解模型都會使用 N-gram 預測使用者接下來要輸入或說出的字詞。舉例來說,假設使用者輸入「three blind」。以三角為基礎的 NLU 模型 下一個使用者輸入 mice

比較 N 克和詞袋的對比度,

自然語言理解

#language

自然語言理解的縮寫。

節點 (決策樹)

#df

決策樹狀圖中,任何 condition分葉

包含兩個條件和三個葉節的決策樹。

節點 (類神經網路)

#fundamentals

隱藏層中的神經元

節點 (TensorFlow 圖形)

#TensorFlow

TensorFlow 圖表中的運算。

雜訊

普遍來說,任何遮蔽資料集信號的內容。雜音 能以多種方式帶入資料中例如:

  • 評估人員在加上標籤時會出錯。
  • 人類和儀器誤記或遺漏地形特徵值。

非二元條件

#df

條件包含兩個以上的可能結果。舉例來說,下列非二元條件包含三種可能的結果:

導致三種可能結果的條件 (number_of_legs = ?)。一個結果 (number_of_legs = 8) 會產生名為 spider 的葉子。第二次結果 (number_of_legs = 4) 導致
          一片名為狗的葉子第三個結果 (number_of_legs = 2) 會導向名為 penguin 的葉片。

非線性

#fundamentals

兩個或多個無法單獨表示的變數之間的關係 可以結合加法和乘法線性關係 能以線條表示不能是nonlinear關係。 以線條表示舉例來說,假設有兩個模型,每個模型都將單一特徵與單一標籤建立關聯。左側模型為線性 右側模型為非線性

兩個區塊。其中一張圖是線條,就屬於線性關係。
          另一條圖為曲線,因此是非線性關係。

無回應偏誤

#fairness

請參閱選擇偏誤

非穩定性

#fundamentals

特徵的值會隨著一或多個維度 (通常是時間) 而變動。例如,請考慮下列非持久性的例子:

  • 特定商店的泳裝數量會因季節而異。
  • 某個地區收成的特定水果數量在大部分時間為零,但在短暫期間內會大量收成。
  • 每年平均溫度因氣候變遷而持續改變。

stationarity 相反。

正規化

#fundamentals

大致來說,轉換變數的實際範圍 轉換為標準值範圍,例如:

  • -1 到 +1
  • 0 至 1
  • Z 分數 (大約 -3 到 +3)

舉例來說,假設某個特徵的實際值範圍為 800 到 2,400,做為特徵工程的一部分 都能將實際值正規化為標準範圍 例如 -1 到 +1。

正規化是 特徵工程:模型訓練速度通常更快 訓練資料中每個數值特徵 特徵向量大致相同。

詳情請參閱機器學習速成課程的「使用數值資料」單元。另請參閱Z 分數正規化

新穎性偵測

判斷新 (小說) 樣本是否來自於 設為 訓練集。換句話說,在訓練訓練集後,新穎度偵測功能會判斷示例 (在推論或額外訓練期間) 是否為異常值

離群值偵測比較。

數值資料

#fundamentals

特徵,以整數或實值表示。 舉例來說,房屋估價模型可能會以數值資料表示房屋大小 (以平方英尺或平方公尺為單位)。代表 數值資料表示特徵的值 與標籤之間的「數學」關係。 也就是房子的平方公尺 以及房屋價值的數學關係

並非所有整數資料都應以數值資料呈現。例如: 全球某些地區的郵遞區號為整數;但如果是整數郵政 在模型中,請勿將代碼顯示為數值資料。這是因為郵遞區號 20000 的權重並非郵遞區號 10000 的兩倍 (或一半)。此外,雖然不同的郵遞區號「確實」與不同 房地產價值,我們無法假設郵遞區號中的房地產價值 20000 的價值是房地產價值的兩倍,以郵遞區號 10000 表示。 郵遞區號應以類別型資料表示 。

數值特徵有時也稱為連續特徵

NumPy

開放原始碼數學程式庫 ,提供高效率的 Python 陣列操作。 pandas 以 NumPy 為基礎。

O

目標

演算法嘗試最佳化的指標。

目標函式

模型旨在最佳化的數學公式或指標。舉例來說,線性迴歸的目標函式通常是均方誤差。因此,在訓練線性迴歸模型時,訓練目標是盡量降低均方誤差。

在某些情況下,目標是最大化目標函式。舉例來說,如果目標函式是準確度,則目標就是盡可能提高準確度。

另請參閱「loss」。

斜線條件

#df

決策樹狀圖中, 有多個狀況 功能。例如,如果高度和寬度都是地圖項目 下列是斜體的條件:

  height > width

請參閱軸對齊條件

離線

#fundamentals

static 的同義詞。

離線推論

#fundamentals

模型產生批次預測結果的程序 然後快取 (儲存) 這些預測資料應用程式就能從快取中存取推論預測結果,而無需重新執行模型。

舉例來說,假設某個模型可以產生當地天氣預報 (預測) 每四小時一次。每個模型執行完畢後,系統會 快取所有當地天氣預報資訊。天氣應用程式擷取預報資訊 從快取中取得

離線推論也稱為「靜態推論」

請參閱線上推論

one-hot 編碼

#fundamentals

將類別資料表示為向量,其中:

  • 一個元素設為 1。
  • 所有其他元素則設為 0。

one-hot 編碼通常用於代表 可能的值數量有限 舉例來說,假設名為 Scandinavia 的某個類別特徵有五個可能值:

  • 「丹麥」
  • 「瑞典」
  • 「Norway」
  • 「芬蘭」
  • 「冰島」

單熱編碼可代表下列五個值:

country 向量
「Denmark」 1 0 0 0 0
「瑞典」 0 1 0 0 0
「挪威」 0 0 1 0 0
「芬蘭」 0 0 0 1 0
「冰島」 0 0 0 0 1

透過 one-hot 編碼,模型可學習不同的連線 製作不同國家/地區的實驗

以「數字資料」表示特徵是 one-hot 編碼的替代方法不幸的是 不建議在斯堪地那維亞國家使用數字。舉例來說,請參考以下數值表示法:

  • 「Denmark」為 0
  • 「瑞典」1 是
  • 「挪威」2 是
  • 「芬蘭」是 3
  • 「冰島」是 4

使用數值編碼時,模型會以數學方式解讀原始數字,並嘗試以這些數字進行訓練。不過,冰島的人口並非挪威的兩倍 (或一半),因此模型會得出一些奇怪的結論。

單樣本學習

採用機器學習技術,通常用於物件分類 ,且主要透過單一訓練範例來學習有效的分類器。

另請參閱少量樣本學習零樣本學習

單樣本提示

#language
#generativeAI

提示,其中包含一個示例,說明大型語言模型應如何回應。例如: 在以下提示中,有一個範例顯示了大型語言模型 應能回答查詢

單一提示的組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:EUR 舉例來說。
印度: 實際查詢。

請比較一次性提示與下列術語:

一對多

#fundamentals

假設分類問題有 N 個類別,解決方案則包含 N 個獨立的二元分類器,每個可能結果對應一個二元分類器。例如,假設某個模型會分類範例 無論是動物、蔬菜或礦物,哪種解決方案都能提供 下列三種不同的二進位分類器:

  • 動物與非動物
  • 蔬菜與非蔬菜
  • 礦物與非礦物

線上

#fundamentals

動態的同義詞。

線上推論

#fundamentals

根據需要產生預測。舉例來說,假設應用程式將輸入內容傳遞至模型,並發出預測要求。使用線上推論的系統以 將預測結果傳回應用程式

請參閱離線推論

作業 (op)

#TensorFlow

在 TensorFlow 中,任何建立、操控或銷毀 Tensor 的程序。適用對象 矩陣乘法就是將兩張 Tensor 乘 並產生一個 Tensor 做為輸出內容

Optax

適用於 JAX 的漸層處理和最佳化程式庫。Optax 提供可透過自訂方式重新組合的構成元素,協助研究人員調整參數模型 (例如深層類神經網路)。其他目標包括:

  • 提供可讀、經過充分測試且效率高的核心元件實作項目。
  • 可以結合低階食材,提高工作效率 轉換為自訂最佳化工具 (或其他梯度處理元件)
  • 任何人都能輕鬆採用新點子,加速採用新點子 貢獻一己之力

最佳化器

梯度下降演算法的特定實作。常見的最佳化器包括:

  • AdaGrad,代表適應性梯度下降法。
  • Adam,這是「ADAptive with Momentum」。

外團體同質性偏誤

#fairness

在比較態度、價值觀、個性特徵和其他特徵時,傾向將外團體成員視為比同團體成員更相似。「內群」是指經常與您互動的使用者;「外群」是指不常與您互動的使用者。如果發生以下情況: 先請大家提供 這些特質可能較不精細 而不是參與者在群組成員清單中顯示的屬性。

舉例來說,利普特人可能會描述其他利普特人的房屋 細膩描繪出建築風格、窗戶和窗戶的少許差異 門和尺寸不過,相同的 Lilliputian 可能會 兄弟姊妹都住在相同的房子中。

外團體同質性偏誤是一種團體歸因偏誤

另請參閱內團體偏誤

離群值偵測

找出變數中的離群值 訓練集

創新偵測功能的差異。

成效突出的影片

偏離大多數其他值。在機器學習領域中 下列是離群值:

  • 輸入值與平均值相差超過 3 個標準差的資料。
  • 採用高絕對值的「權重
  • 預測值與實際值相差甚遠。

舉例來說,假設 widget-price 是特定模型的特徵。 假設 widget-price 為 7 歐元,請使用標準差 1 歐元。包含 widget-price 為 12 歐元或 2 歐元的範例 系統會將這些價格視為離群值 與平均值相差五個標準差

異常值通常是因為拼寫錯誤或其他輸入錯誤所致。在其他情況下,離群值並非錯誤,畢竟離平均值五個標準差的值雖然罕見,但並非不可能。

異常值經常會導致模型訓練出現問題。裁剪是管理異常值的方法之一。

袋外評估 (OOB 評估)

#df

評估決策森林品質的機制,可測試每個決策樹示例 (用於該決策樹訓練) 進行比較。舉例來說,在下圖中,您會發現系統會針對約三分之二的範例訓練每個決策樹,然後根據剩餘的三分之一範例進行評估。

決策森林包含三個決策樹。其中一個決策樹會使用三分之二的樣本訓練
          然後使用第三分之一的 OOB 評估。
          第二個決策樹會針對與先前決策樹不同的三分之二示例進行訓練,然後使用與先前決策樹不同的三分之一進行 OOB 評估。

現成評估是運算效率和保守的 交叉驗證機制的近似值。 在交叉驗證中,每個交叉驗證輪次都會訓練一個模型 (例如,在 10 倍交叉驗證中訓練 10 個模型)。使用 OOB 評估時,系統會訓練單一模型。因為行李 會在訓練期間保留每個樹狀圖的部分資料,因此 OOB 評估可使用 以便估算出交叉驗證的結果。

輸出層

#fundamentals

類神經網路的「最終」層。輸出層包含預測結果。

下圖顯示小型深度神經網路,其中包含輸入層、兩個隱藏層和輸出層:

神經網路包含一個輸入層、兩個隱藏層和一個輸出層。輸入層包含兩個地圖項目。第一個隱藏層由三個神經元組成,第二個隱藏層則由兩個神經元組成。輸出層包含單一節點。

過度配適

#fundamentals

建立的模型訓練資料過於相符,導致模型無法針對新資料做出正確預測。

正規化可減少過度配適的情況。 提供多種訓練集的訓練,也有助於減少過度配適。

過度取樣

不平衡類別資料集中重複使用少數類別示例,以便建立更平衡的訓練集

比方說,請考慮使用二元分類 主要類別與 少數類別為 5,000:1如果資料集包含一百萬個範例,則資料集只包含約 200 個少數類別範例,這可能不足以進行有效訓練。為了克服這個缺點,您可以多次過度取樣 (重複使用) 這 200 個範例,或許就能產生足夠的範例,進行實用的訓練。

過度取樣時,請小心過度過度擬合

請參閱欠採樣

P

完備的資料

一種更有效率的資料儲存方法。

壓縮資料會使用壓縮格式或其他方式儲存資料,以便更有效率地存取資料。壓縮資料可將存取資料所需的記憶體和運算量降至最低,進而加快訓練速度並提高模型推論效率。

壓縮資料通常會與其他技巧搭配使用,例如資料擴增規則化,進一步改善模型的效能。

pandas

#fundamentals

這是以 numpy 為基礎的資料分析 API,以資料欄為導向。許多機器學習架構 包括 TensorFlow,支援 pandas 資料結構做為輸入內容。詳情請參閱 pandas 說明文件

參數

#fundamentals

模型在訓練期間學習的權重偏誤。舉例來說,在線性迴歸模型中,參數包含偏差 (b) 和以下公式中的所有權重 (w1w2 等等):

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相反地,「超參數」是指 您提供給模型的「您」 (或超參數調整服務)。 舉例來說,「學習率」是超參數。

高效參數調整

#language
#generativeAI

一組技巧,可微調大型預先訓練的語言模型 (PLM),比完整微調更有效率。相較於完整微調,參數效率調整通常會微調的參數會少得多,但通常會產生與完整微調相同 (或幾乎相同) 效能的大型語言模型

比較具參數運用效率的調整方法:

高效參數微調也稱為高效參數微調

參數伺服器 (PS)

#TensorFlow

這項工作會在分散式設定中追蹤模型的參數

參數更新

在訓練期間調整模型的參數的作業,通常是在 梯度下降 的單一迭代中執行。

偏導數

在這個導數中,除了一個變數外,所有變數都視為常數。舉例來說,f(x, y) 相對於 x 的偏微分是 f 的偏微分,而 f 視為 x 的函數 (也就是將 y 保持不變)。f 相對於 x 的偏微分只會著重於 x 的變化方式,並忽略方程式中的所有其他變數。

參與偏誤

#fairness

非回應偏誤的同義詞。請參閱選擇偏誤

分割策略

將變數除以變數後得出的演算法 參數伺服器

Pax

專為大規模訓練作業設計的程式設計架構 大型類神經網路 模型 且範圍涵蓋多個 TPU 加速器方塊 切片Pod

Pax 是以 Flax 為基礎建構,而 Flax 則是以 JAX 為基礎建構。

圖表顯示 Pax 在軟體堆疊中的位階。Pax 是以 JAX 為基礎打造的程式庫。Pax 本身包含三個層級。底層包含 TensorStore 和 Flax。中間層包含 Optax 和 Flaxformer。首頁頂端
          包含 Praxis Modeling Library內建 Fiddle
          在 Pax 樓梯層上

感知器

接收一或多個輸入值的系統 (硬體或軟體); 會對輸入的加權總和執行函式,然後計算單個 輸出值。在機器學習中,函式通常為非線性,例如 ReLUsigmoidtanh。 例如,下列感知器會依賴 S 函式處理三個輸入值:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下圖中,感知器會採用三個輸入,每個輸入都會在進入感知器前經過權重修改:

感知器會接收 3 個輸入值,每個值都會乘以不同的權重。感知器會輸出單一值。

感知器是類神經網路中的神經元

performance

超載的字詞,含有以下意義:

  • 在軟體工程中,這個詞彙的標準含義是Namely:速度多快 這個軟體可以順利執行嗎?
  • 在機器學習中代表的意思。這裡的效能是指以下問題的答案:這個模型的準確度如何?也就是說,模型的預測結果有多準確?

排列變數重要性

#df

一種變數重要性,用於評估模型在變換特徵值後的預測錯誤率升幅。排列變數重要性與模型無關 指標。

複雜性

一種衡量模型完成工作的能力。 舉例來說,假設您的工作是讀出某個字詞的前幾個字母 使用者正在手機鍵盤上輸入內容,並提供一份可能的清單 自動完成字詞此任務的困惑度 (P) 大約是您需要提供的猜測次數,才能讓清單包含使用者嘗試輸入的實際字詞。

困惑度與交叉熵相關,如下所示:

$$P= 2^{-\text{cross entropy}}$$

管道

採用機器學習演算法的基礎架構。管道 包括收集資料、將資料放入訓練資料檔案 訓練一或多個模型,並將模型匯出至實際工作環境。

管線

#language

一種模型並行處理形式,其中模型的處理作業會分成連續階段,且每個階段會在不同的裝置上執行。當一個階段處理一個批次時,前一個階段可以處理下一個批次。

另請參閱階段訓練

便捷

JAX 函式,可分割程式碼以便在多個執行個體中執行 加速器晶片。使用者傳送函式到 pjit 會傳回具有對等語意但經過編譯的函式 轉換為在多部裝置上執行的 XLA 運算 (例如 GPU 或 TPU 核心)。

透過 pjit,使用者不需重新編寫 SPMD 分區。

自 2023 年 3 月起,pjit 已與 jit 合併。詳情請參閱「分散陣列和自動並行化」。

PLM

#language
#generativeAI

預先訓練語言模型的縮寫。

圖片圖

JAX 函式,用於執行輸入函式複本 同時在多部基礎硬體裝置上 (CPU、GPU 或 TPU),則具有不同的輸入值。 pmap 採用 SPMD 技術。

政策

#rl

在強化學習中,代理程式機率分佈圖 從狀態actions

彙整

#image

將先前卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。集區通常包含取值上限或平均值 整體舉例來說,假設 下方 3x3 矩陣:

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

池化運算的作用就像卷積運算) 會將 然後將卷積運算 。舉例來說,假設匯集作業會將卷積矩陣以 1x1 步幅劃分為 2x2 的切片。如下圖所示,會執行四個匯集作業。假設每個匯集作業都會從該切片中挑選四個最大值:

輸入矩陣為 3x3,值為:[[5,3,1], [8,2,5], [9,4,3]]。
          輸入矩陣的左上方 2x2 子矩陣為 [[5,3], [8,2]],因此左上方匯集運算會產生值 8 (這是 5、3、8 和 2 的最大值)。輸入矩陣的右上方 2x2 子矩陣為 [[3,1], [2,5]],因此右上方匯集運算會產生 5 這個值。輸入矩陣的左下方 2x2 子矩陣為 [[8,2], [9,4]],因此左下方匯集運算會產生 9 的值。輸入矩陣的右下方 2x2 子矩陣為 [[2,5], [4,3]],因此右下方匯集運算會產生值 5。總而言之,池化運算會產生 2x2 矩陣
          [[8,5], [9,5]]。

集區能協助強制執行 平移變異

視覺應用程式的彙整作業正式名稱為空間彙整。時序應用程式通常會將彙整作業稱為「時間彙整」。在非正式場合中,彙整通常稱為「子樣本」或「降採樣」

位置編碼

#language

一種用於新增序列符記「位置」相關資訊的技巧, 符記嵌入Transformer 模型使用位置 編碼,深入瞭解不同部分 序列

位置編碼的常見實作方式是使用正弦函式。(具體來說,正弦函數的頻率和振幅為 而取決於序列中符記的位置)。這項技巧 Transformer 模型能學習訓練 根據其位置排列

正類

#fundamentals

您要測試的類別。

舉例來說,癌症模型的正類可能為「tumor」。 電子郵件分類器中的正類別可能是「垃圾郵件」。

請參閱「負類」一節。

後置處理

#fairness
#fundamentals

在模型執行調整模型輸出內容。您可以使用後置處理功能,在不修改模型本身的情況下,強制執行公平性限制。

例如將後續處理套用至二元分類器 並設定分類門檻 機會平等 確認某項屬性的真陽率 該屬性的所有值都相同。

PR AUC (PR 曲線下的面積)

內插式 精確度與喚回度曲線,可透過繪圖取得 (喚回度、精確度) 專屬的 分類門檻:這取決於 計算方式等於 PR AUC 等於 模型的平均精確度

Praxis

Pax 的核心高效能機器學習程式庫。普拉克斯經常 名為「圖層程式庫」

Praxis 不僅包含圖層類別的定義,也包含大多數 其他支援元件,包括:

Praxis 會提供 Model 類別的定義。

精確性

分類模型的指標,可用來回答下列問題:

當模型預測正類時,預測結果正確的百分比為何?

公式如下:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中:

  • 真陽性表示模型正確預測正類。
  • 偽陽性代表模型錯誤預測為正類。

舉例來說,假設某個模型做出了 200 次正向預測, 在 200 次正向預測中:

  • 其中 150 人為真陽性。
  • 其中 50 則為偽陽性。

在這種情況下:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

準確率喚回度相比。

詳情請參閱「分類:準確度、喚回率、精確度和相關指標」。

精確度與喚回度曲線

在不同分類門檻下,精確度喚回率的曲線。

預測

#fundamentals

模型的輸出值。例如:

  • 二元分類模型的預測結果是正類或負類。
  • 多元分類模型的預測結果為單一類別。
  • 線性迴歸模型的預測結果是數字。

預測偏誤

代表 預測取自標籤的平均值

不要和機器學習模型的偏誤用語混淆 或倫理和公平性有偏見。

預測機器學習

任何標準 (「傳統」) 機器學習系統。

「預測性機器學習」一詞沒有正式定義。 相反地,此字詞區分了機器學習系統類別,「並非」基於 生成式 AI

預測相似度

#fairness

一種公平性指標,用來檢查 查看特定分類器的精確度率 都等同於考量的子群組。

舉例來說,如果預測大學錄取率的模型精確度率對小人和布羅卜丁人相同,則該模型就符合預測國籍的一致性。

預測一致性有時也稱為「預測率同步」

請參閱公平性定義 已說明」 (第 3.2.1 節) 查看「預測對等性」的詳細討論

預測費率平價

#fairness

「預測性一致性」的另一個名稱。

預先處理

#fairness
在使用資料訓練模型前先行處理。預先處理作業可能很簡單,例如從英文文字庫中移除不在英文字典中出現的字詞,也可能很複雜,例如以重新表示資料點的方式,盡可能移除與敏感屬性相關聯的屬性。預先處理有助於滿足公平性限制

預先訓練模型

#language
#image
#generativeAI

已訓練的模型或模型元件 (例如 嵌入向量)。有時候,您會將預先訓練的嵌入向量提供給 「類神經網路」其他時候,模型會自行訓練嵌入向量,而非依賴預先訓練的嵌入值。

「預先訓練模型」一詞是指 目前已經歷的大型語言模型 預先訓練

預先訓練

#language
#image
#generativeAI

以大型資料集訓練模型的初始訓練。某些預先訓練模型 通常都是笨蛋,必須通過額外訓練才能加以修正 舉例來說,機器學習專家可能會針對大量文字資料集 (例如 Wikipedia 中的所有英文頁面) 預先訓練大型語言模型。預先訓練完成後,您可以使用下列任一技術進一步精進產生的模型:

先驗信念

在開始訓練資料前,您認為這些資料的可信度。 舉例來說,L2 正則化必須仰賴 我們先前認為權重應是小型,且 分散在 0 左右

機率迴歸模型

迴歸模型:除了使用每個特徵權重,還會使用這些權重的不確定性。機率迴歸模型 以及預測結果的不確定度舉例來說 機率迴歸模型可能產生 325 的預測結果 標準差為 12如要進一步瞭解機率迴歸 請參閱這個 Colab tensorflow.org.

機率密度函式

這個函式可找出資料樣本「確切」具有特定值的頻率。資料集的值為連續浮點值時 但完全比對項目很少發生但「整合」機率 從 xy 的密度函式,會產生以下結果的預期頻率: xy 之間的資料樣本。

舉例來說,假設常態分佈的平均值為 200 標準差為 30如要判斷資料樣本落在 211.4 到 218.7 範圍內的預期頻率,您可以從 211.4 到 218.7 整合常態分佈的機率密度函式。

提示

#language
#generativeAI

大型語言模型中輸入的任何文字 條件,讓模型以特定方式運作。提示可以很簡短 詞組或任意長度 (例如小說中的完整文字)。提示 可歸入多個類別,如下表所示:

提示類別 範例 附註
問題 鴿子飛得有多快?
操作說明 寫一首關於套利的有趣詩。 提示,要求大型語言模型執行某項操作。
範例 將 Markdown 程式碼轉換為 HTML。例如:
Markdown:* 清單項目
HTML:<ul><li>清單項目</li>&lt;/ul&gt;
這個提示範例的第一句話是指示。提示的其餘部分則是範例。
角色 說明為何在機器學習訓練中使用梯度下降法 以及物理學博士 句子的前半部是指示,而「物理學博士」是角色部分。
待模型的部分輸入內容 英國總理 部分輸入提示有可能突然結束 (如本範例所示) 或是以底線結尾。

生成式 AI 模型能以文字、提示、 程式碼、圖像、嵌入影片等,幾乎什麼都一樣。

提示式學習

#language
#generativeAI

某些模型的功能,可讓模型根據任意文字輸入內容 (提示) 調整行為。在典型的提示式學習範例中 大型語言模型會藉由回應 生成文字舉例來說,假設使用者輸入以下提示:

總結牛頓第三運動定律

支援提示式學習的模型並未特別訓練來回答先前的提示。而是模型「知識」許多物理知識 以及一般語言規則,以及整體語言規範的許多內容 實用解答這樣的知識足以提供 (非常有幫助) 回答的問題額外的人為回饋 (「這個答案太複雜了」或「有什麼反應?」) 可讓部分以提示為基礎的學習系統逐步改善答案的實用性。

提示設計

#language
#generativeAI

提示工程的同義詞。

提示工程

#language
#generativeAI

建立可產生所需回應的提示的技巧 從大型語言模型建立起人類執行提示 在這階段,您必須先上傳並備妥資料 透過特徵工程將資料用於模型訓練撰寫結構良好的提示,是確保大型語言模型提供實用回應的重要環節。提示工程取決於 許多因素,包括:

詳情請見 提示設計簡介 進一步瞭解如何撰寫實用提示。

提示設計是提示工程的同義詞,

提示調整

#language
#generativeAI

有效調整參數機制 也就是下一個字詞的開頭會加上 實際的提示

提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 請在「每個資料層」前方加上前置字元相反地,大部分提示調整作業 將前置字串加入輸入層

Proxy 標籤

#fundamentals

用於估算資料集中未直接提供的標籤資料。

舉例來說,假設您必須訓練模型來預測員工的壓力程度,您的資料集包含許多預測特徵,但不含名為「stress level」的標籤。就算你選了「工作場所意外」做為 壓力水平。畢竟,處於高壓力的員工會變得更加健康 而非冷靜的員工還是實際行動?也許職業傷害的發生率確實會因多種因素而上升或下降。

舉第二個例子來說,假設您希望「是否下雨?」做為資料集的布林值標籤,但資料集不含雨量資料。如果 使用者可以拍攝人物相片 搬運雨傘做為「正在下雨嗎?」的代理標籤?請問 適當的 Proxy 標籤?有可能,但某些文化的人可能會更常攜帶雨傘來防曬,而不是防雨。

Proxy 標籤通常不夠完善。如果可以的話,請將實際標籤 Proxy 標籤如果沒有實際標籤,請選擇 Proxy 並謹慎選擇最不可能的 Proxy 標籤

Proxy (敏感屬性)

#fairness
用作 敏感屬性。舉例來說,個人郵遞區號可能會用來代表其收入、種族或族裔。

純函式

函式輸出內容只會根據輸入內容,且不會產生任何副作用。具體來說,純函式不會使用或變更任何全域狀態,例如檔案內容或函式外變數的值。

Pure 函式可用來建立安全執行緒程式碼,這有利於 對多個 model 程式碼進行資料分割時 加速器晶片

JAX 的函式轉換方法需要 輸入函數只是純函式

Q

Q 函式

#rl

在「強化學習」中, 可預測從 action狀態,然後追蹤特定政策

Q 函式也稱為「狀態動作值函式」

Q 學習

#rl

強化學習中,這種演算法 允許代理程式 以瞭解最佳 Q 函式馬可夫決策程序,在 Bellman 方程式。馬可夫決策程序會模擬環境

分位數

百分位值分割中的每個值區。

分位數值區

將特徵值分配到值區,以便每個值區包含相同 (或幾乎相同) 的示例數量。例如: 下圖將 44 點分為 4 個區塊, 共有 11 點。為了讓圖中的每個值區都能包含 點,某些值區橫跨不同的 x 值寬度

這 44 個資料點分為 4 個區塊 (每個 11 個點)。
          雖然每個區塊都包含相同數量的資料點,但某些區塊包含的特徵值範圍比其他區塊更廣。

量化

過載字詞,可能以下列任何方式使用:

  • 針對特定特徵實作分位數區分
  • 將資料轉換為零和 1,加快儲存、訓練 並推論出相較於其他格式,布林資料對雜訊和錯誤的耐受力較高,因此量化可改善模型的正確性。量化技巧包括捨入、截斷和分組
  • 減少用於儲存模型參數的位元數。舉例來說,假設模型的參數是 並以 32 位元浮點數儲存量化會將這些參數從 32 位元轉換為 4、8 或 16 位元。量化可減少 包括:

    • 運算、記憶體、磁碟和網路用量
    • 推論預測值的時間
    • 耗電量

    不過,量化有時會降低模型的 預測結果

佇列

#TensorFlow

實作佇列資料的 TensorFlow Operation 成本中心的架構通常用於 I/O。

R

RAG

#fundamentals

以下字詞的縮寫 擷取評估產生版本

隨機森林

#df

決策樹集成,其中每個決策樹都會使用特定隨機雜訊進行訓練,例如袋子採樣

隨機樹系是一種決策樹系

隨機政策

#rl

強化學習中,指的是隨機選擇動作政策

排名

這是一種監督式學習,且 目標是排序項目清單

排名 (序數)

在機器學習問題中,類別的序數位置,會將類別分類為由高至低。舉例來說 便能將狗的獎勵由最高 (牛排) 以及 最低 (雨刷)。

rank (Tensor)

#TensorFlow

張量中的維度數量。例如: 純量排名為 0,向量排名為 1,矩陣則排名為 2。

請別與「排名 (序數)」混淆。

資料標註者

#fundamentals

提供範例標籤的真人。 「Annotator」是評分員的另一個名稱。

召回

需要回答分類模型的指標 下列問題:

基準真相正類時,模型正確識別為正類的預測百分比為何?

公式如下:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中:

  • 真陽性代表模型「正確」預測出正類。
  • 偽陰性代表模型誤認預測 負面類別

舉例來說,假設您的模型針對真實值為正類的示例做出 200 項預測。在這 200 項預測中:

  • 其中 180 個為真陽性。
  • 20 個為偽陰性。

在這種情況下:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

請參閱分類:準確率、喚回度、精確度和相關 指標 瞭解詳情

推薦系統

#recsystems

系統會從大量語料庫中,為每位使用者選取一組相對較小的理想項目。舉例來說,影片推薦系統可能會推薦兩部影片 從 10 萬部影片的語料庫中挑選出「Casablanca」, 《The Philadelphia Story》單人、Wonder Woman黑色 Panther。影片推薦系統 並根據以下因素推薦內容:

  • 同類使用者評分或觀看過的電影。
  • 類型、導演、演員、目標客層...

線性整形單元 (ReLU)

#fundamentals

啟用函式,行為如下:

  • 如果輸入為負數或零,則輸出值為 0。
  • 如果輸入為正數,則輸出結果等於輸入內容。

例如:

  • 如果輸入是 -3,則輸出為 0。
  • 如果輸入值為 +3,則輸出值為 3.0。

以下是 ReLU 的圖表:

兩條折線圖。第一行具有 0 的常數 y 值,沿著 x 軸從 -infinity,0 到 0,-0 執行。第二行的起始值為 0,0。這條線的斜率為 +1
          介於 0,0 到 +infinity 之間

ReLU 是相當熱門的活化函式。儘管 ReLU 的行為很簡單,但仍可讓神經網路學習非線性關係,也就是 特徵標籤之間的關係。

循環類神經網路

#seq

刻意執行多個 每個執行作業都會在下次執行時提供動態饋給。具體而言 而先前執行中的隱藏層 下一次執行時,這個隱藏層會輸出至同一個隱藏層循環類神經網路特別適合評估序列,這樣隱藏層就能從前次執行的神經網路中,學習序列前面部分的內容。

舉例來說,下圖顯示的循環類神經網路會 執行 4 次請注意,在第一次執行時,隱藏層學習到的值會成為第二次執行時相同隱藏層的輸入值。同樣地,在第二次執行時隱藏層學習到的值,會成為第三次執行時相同隱藏層的輸入內容。透過這種方式,循環類神經網路會逐步訓練 會預測整個序列的含義 代表個別字詞的組合

執行四次 RNN 處理四個輸入字詞。

迴歸模型

#fundamentals

非正式定義:產生數值預測結果的模型。(相較之下,分類模型會產生類別預測結果)。舉例來說,以下都是迴歸模型:

  • 預測特定房屋價值的模型,例如 423,000 歐元。
  • 預測特定樹木的壽命 (例如 23.2 年) 的模型。
  • 預測模型可預測特定城市在接下來六小時內的降雨量,例如 0.18 英寸。

兩種常見的迴歸模型如下:

  • 線性迴歸:找出最適合特徵的標籤值線。
  • 邏輯迴歸:產生介於 0.0 和 1.0 之間的機率,系統通常會將該機率對應至類別預測結果。

並非每個輸出數值預測的模型都是迴歸模型。 在某些情況下,數值預測其實只是分類模型,只是剛好有數值類別名稱。例如 數值郵遞區號是分類模型,不是迴歸模型。

正則化

#fundamentals

任何可減少過度配適的機制。 常見的正則化類型包括:

規則化也可以定義為對模型複雜度處以罰則。

正則化率

#fundamentals

這個數字用來指定 正則化形式。提高 正則化率可降低過度配適,但可能會 降低模型的預測能力相反地,如果減少或省略 正則化率會增加過度配適。

強化學習 (RL)

#rl

一系列演算法,可學習最佳政策,其目標是在與環境互動時,盡量提高回報。舉例來說,大多數遊戲的最終獎勵都是勝利。強化學習系統能夠充分掌握複雜的遊戲技巧 評估玩家在遊戲中移動的 創造出最終導致損失的成果。

人類回饋增強學習 (RLHF)

#generativeAI
#rl

運用評估人員的意見回饋,提升模型回應的品質。 舉例來說,RLHF 機制可以要求使用者使用 👍 或 👎 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應。

ReLU

#fundamentals

「Rectified Linear Unit」的縮寫。

重播緩衝區

#rl

在類似 DQN 的演算法中,代表代理程式使用的記憶體。 儲存狀態轉換,以便用於 體驗重播

備份

訓練集模型的副本 通常在另一部機器上舉例來說,系統可能會使用以下參數: 資料平行處理的策略:

  1. 將現有模型的備用資源放入多部機器。
  2. 將訓練集的不同子集傳送至每個複本。
  3. 匯總參數更新。

回報偏誤

#fairness

使用者寫下動作的發生頻率 結果或性質與實際情況不符 屬性的特性或程度 一群人報表偏誤可能會影響組成 供機器學習系統學習的資料

舉例來說,在書籍中,「笑」這個字比「呼吸」更常見。一種機器學習模型,可預估 一對大笑和呼吸法則能判斷 笑聲比呼吸更為常見

兩者的向量表示法

將資料對應至實用的功能的程序。

重新排名

#recsystems

推薦系統的最後階段,在此階段中,系統會根據其他 (通常為非機器學習) 演算法重新評分已評分的項目。重新排名時,系統會評估 產生的分數,並採取以下動作:

  • 刪除使用者已購買的項目。
  • 提高較新商品的評分。

檢索增強生成 (RAG)

#fundamentals

一種技術,可透過與模型訓練後擷取的知識來源建立關聯,改善大型語言模型 (LLM) 輸出內容的品質。RAG 向訓練過的 LLM 提供 存取從信任的知識庫或文件擷取的資訊。

使用檢索增強生成技術的常見動機包括:

  • 提高模型生成回應的事實準確率。
  • 將非訓練目的知識提供給模型。
  • 變更模型使用的知識。
  • 啟用模型引用來源。

舉例來說,假設化學應用程式使用 PaLM API,以產生摘要 與使用者查詢有關的資訊當應用程式的後端收到查詢時,後端:

  1. 搜尋與使用者查詢相關的資料 (「擷取」)。
  2. 在使用者的查詢中附加 (「錯誤」) 相關化學資料。
  3. 指示 LLM 根據附加資料建立摘要。

回攻

#rl

特定政策和特定狀態的「強化學習」 return 是代理程式獲得的所有獎勵總和 預期會收到的政策 劇集結尾的 state。虛擬服務專員 以折扣提供獎勵,強調預期會延遲發放的獎勵 取決於取得獎勵所需的狀態轉換。

因此,如果折扣係數為 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示獎勵直到劇集結束,則回報計算方式如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中,以數字表示 處於狀態中的 action,如 在環境中,

脊狀正則化

L2 正則化的同義詞。ridge 正則化一詞較常用於純統計學情境,而 L2 正則化則較常用於機器學習。

RNN

#seq

循環類神經網路的縮寫。

ROC 曲線

#fundamentals

在二元分類中,針對不同的分類閾值,繪製真陽率偽陽率的圖表。

ROC 曲線的形狀可顯示二元分類模型分離正類和負類的能力。舉例來說,假設二元分類模型可完美區分所有負類和正類:

數值線,右側有 8 個正面示例,左側有 7 個負面示例。

上述模型的 ROC 曲線如下所示:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率曲線的 L 形狀為反轉 L。曲線從 (0.0,0.0) 開始,直線向上到 (0.0,1.0)。然後沿著曲線
          介於 (0.0,1.0) 到 (1.0,1.0) 之間。

相較之下,下圖呈現原始邏輯迴歸值,這項值來自一個糟糕的模型,該模型完全無法將負向類別與正向類別區分開:

數值線,其中正面和負面類別完全混合。

這個模型的 ROC 曲線如下所示:

ROC 曲線,實際上是 (0.0,0.0) 的直線
          (1.0,1.0)。

同時,大多數二元分類模型也在現實世界中各自獨立 有一些程度的正向和負向類別,但這通常不盡完美所以 典型的 ROC 曲線在兩極極端之間:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率ROC 曲線大致上是從西到北,沿著指南針點橫跨的搖擺弧線。

理論上,ROC 曲線上最接近 (0.0,1.0) 的點會標示出理想的分類閾值。不過,其他幾個實際問題也會影響理想分類門檻的選取。例如: 偽陰性的情況比偽陽性更大的疼痛。

名為 AUC 的數值指標總結了 ROC 曲線 單一浮點值

角色提示

#language
#generativeAI

提示的選用部分,用於識別生成式 AI 模型回應的目標對象。如果沒有角色提示,大型語言模型提供的答案可能對提問者有用,也可能沒有用。角色提示來說 模型該如何回答 目標對象例如,下列所述的角色提示部分 會以粗體顯示提示:

  • 請總結這篇文章,瞭解經濟學博士
  • 十歲兒童為例,說明潮汐的運作方式。
  • 解釋 2008 年金融危機。說話時,就像對年幼兒童或金毛尋回犬說話一樣。

根號

#df

起始的節點 (第一個節點 決策樹狀圖中的 condition 物件。 按照慣例,圖表會將根層級置於決策樹狀圖的頂端。 例如:

包含兩個條件和三個葉子的決策樹。起始條件 (x > 2) 是根節點。

根目錄

#TensorFlow

您指定用於代管多個模型的 TensorFlow 暫停點和事件檔案子目錄的目錄。

均方根誤差 (RMSE)

#fundamentals

均方誤差的平方根。

旋轉不變性

#image

在圖片分類問題中,演算法即使在圖片方向變更的情況下,也能成功分類圖片。舉例來說,無論網球拍是朝上、側向或向下,演算法仍可辨識。請注意,旋轉不變並非理想; 舉例來說,倒立的 9 不應歸類為 9。

另請參閱翻譯不相同大小差異

R 平方

迴歸指標會指出 label 原因:個別功能或特徵集。 R 平方值是介於 0 到 1 之間的值,可以按照以下方式解讀:

  • R 平方值為 0 表示標籤的變化並非由特徵集所造成。
  • R 平方值為 1 表示標籤的所有變化都歸因於特徵組合。
  • R 平方值介於 0 和 1 之間,表示 可能由特定特徵或特徵集預測 舉例來說,R 平方值為 0.10 表示標籤中 10% 的變異是因特徵組合而起,R 平方值為 0.20 表示 20% 是因特徵組合而起,以此類推。

R 平方是模型預測值與真值之間的 皮爾森相關係數平方。

S

取樣偏誤

#fairness

請參閱選擇偏誤

有取代值的抽樣

#df

一種從一組候選項目中挑選項目的方法 使用者可以重複挑選項目「有取代」一詞意思是 每次選取後,所選項目就會傳回 候選項目。反向方法「不替換取樣」,表示候選項目只能選取一次。

以下列水果組為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統隨機選取 fig 做為第一個項目。如果使用取樣的方式進行取代,系統會選用 從下列集合中選取的第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,這是與先前相同的集合,因此系統可能會再次選取 fig

如果未經替換就使用取樣,一旦選出取樣結果就無法 又再次挑出。舉例來說,如果系統隨機選取 fig 做為第一個樣本,則 fig 就無法再次選取。因此,系統會從下列 (縮減) 集合中挑選第二個樣本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

儲存及復原 TensorFlow 模型的建議格式。SavedModel 是一種語言中立且可復原的序列化格式,可讓高階系統和工具產生、使用及轉換 TensorFlow 模型。

請參閱儲存和還原章節

平價

#TensorFlow

負責儲存模型檢查點的 TensorFlow 物件

純量

可以表示單一數字或單一字串, rank 0 的 tensor。例如,下列 每個程式碼行,都會在 TensorFlow 中建立一個純量:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

資源調度

會改變標籤範圍的數學轉換或技巧 和/或特徵值某些形式的縮放對於規格化等轉換作業非常有用。

在機器學習領域中,常用的資源調度形式包括:

  • 線性資源調度,通常會使用減法和 以 -1 到 +1 之間的數字取代原始值,或是 介於 0 到 1 之間。
  • 對數縮放,會將原始值替換為對數。
  • Z 分數正規化:將 原始值,這個浮點值代表 標準差。

scikit-learn

熱門的開放原始碼機器學習平台。請參閱 scikit-learn.org

計分

#recsystems

推薦系統的一部分, 提供的每個項目 生成候選內容階段。

選擇偏誤

#fairness

從取樣資料產生的結論有誤,因選取程序而發生錯誤 以根據資料中觀察到的樣本,產生系統化差異 而非觀察到的現象下列形式的選擇偏誤如下:

  • 涵蓋偏誤:資料集中代表的族群,與機器學習模型預測的族群不符。
  • 取樣偏誤:未從目標群組隨機收集資料。
  • 非回應偏誤 (也稱為「參與性偏誤」):來自 部分群組選擇拒絕問卷調查的比率,與 和其他群組。

舉例來說,假設您要建立用於預測觀眾對電影喜好程度的機器學習模型,如要收集訓練資料, 你向劇院前排的所有人發送問卷調查 或是上映電影不過,這聽起來可能很合理 收集資料集;但這種資料收集方式 包含下列形式的選擇偏誤:

  • 涵蓋率偏誤:對選擇觀看資料的人口進行取樣 則模型的預測結果可能不會將一般人判讀為一般 他們對電影的興趣度 早 早已經 。
  • 抽樣偏誤:您並未從預期母體 (所有觀影者) 中隨機抽樣,而是只抽樣前排觀眾。坐在前排的觀眾可能比其他排的觀眾更感興趣。
  • 非回應偏誤: 一般而言,具有強烈意見的人往往 回覆選修問卷調查的頻率比接受程度低的學員 意見。由於電影問卷是選填內容,所以回覆 因此更有可能形成 生物分佈 比正常 (鈴鐺) 分佈情形。

自注意 (也稱為自注意層)

#language

這是一個神經網路層,可將一系列嵌入資料 (例如 符記嵌入資料) 轉換為另一個嵌入資料序列。輸出序列中的每個嵌入項目,都是透過注意力機制,整合輸入序列元素的資訊而建構而成。

自注意的「自」部分是指序列會關注自身,而非其他內容。自我注意力是 轉換工具的構成元素,並使用字典查詢功能 術語,例如「query」、「鍵」和「value」。

自注意層會從一連串輸入表示法開始,每個字詞一個。字詞的輸入表示法可以是簡單的嵌入。對於輸入序列中的每個字詞,這個網路會為字詞與整個字詞序列中每個元素的關聯性評分。關聯性分數會決定字詞最終呈現的程度 融合其他字詞的表示法。

舉例來說,請看以下句子:

動物太累了,因此沒有過馬路。

下圖 (取自「Transformer:語言理解的全新類神經網路架構」) 顯示了自注意層針對代名詞「it」的注意力模式,每個線條的深淺代表每個字詞對表示方式的貢獻程度:

以下句子出現兩次:The animal didn&#39;t cross the street because it was too tired. 線條連結一個句子中的代名詞「it」與另一個句子中的五個符記 (The、animal、street、it 和 period)。代名詞之間的線
          這個詞也是最強的

自注意層會標示與「it」相關的字詞。在本 注意力層已經學會如何突顯「它」可能 ,將最高權重指派給「animal」

對於一串 n 符記,自我注意力會轉換序列 嵌入 n 次,依序列中的每個位置分別輸入一次。

另請參閱注意力多頭自我注意力

自主學習

一組技術,可透過從未標示範例建立替代標籤,將非監督式機器學習問題轉換為監督式機器學習問題。

部分以 Transformer 為基礎的模型,例如 BERT 自我監督式學習

自主監督訓練是一種半監督式學習方法。

自我訓練

自控學習的變體,在下列所有條件皆成立時特別實用:

自訓練的運作方式是重複執行下列兩個步驟,直到模型無法再改善為止:

  1. 使用監督式機器學習,根據標註的範例訓練模型。
  2. 使用在步驟 1 中建立的模型,針對未標示的範例產生預測結果 (標籤),並將可信度較高的範例移至標示範例,並加上預測標籤。

請注意,步驟 2 的每次疊代都會為步驟 1 新增更多標記示例,以便進行訓練。

半監督式學習

使用某些訓練範例含有標籤的資料訓練模型, 其他機構則不會。半監督式學習的一項技巧是推論標籤 然後訓練已推測的標籤,進而建立新的 模型如果使用標籤的取得成本高昂,採用半監督式學習技術就相當實用 但在各方面都很實用

自我訓練是半監督式學習技巧 學習模式

敏感屬性

#fairness
可能在法律上需要特別留意的人體屬性 或個人基於道德、社會或個人因素

情緒分析

#language

使用統計或機器學習演算法,判斷群組對某項服務、產品、機構或主題的整體態度為正面或負面。舉例來說,使用 自然語言理解、 演算法可以根據文字回饋執行情緒分析 評估學生的學習程度 通常喜歡或不喜歡本課程。

序列模型

#seq

其輸入具有循序相依關係的模型。例如,從先前觀看的影片序列中預測下一個要觀看的影片。

序列對序列工作

#language

此工作可將 tokens 的輸入序列轉換為輸出。 符記序列舉例來說,兩種常見的序列對序列任務如下:

  • 譯者:
    • 輸入序列範例:「我愛你」。
    • 輸出序列範例:「Je t'aime」。
  • 回答問題:
    • 輸入序列範例:「我需要在紐約市準備我的車輛嗎?」
    • 輸出序列範例:「No.請留在家中。」

人份

讓訓練完成的模型透過線上推論離線推論提供預測結果的程序。

形狀 (Tensor)

張量的每個維度中的元素數量。形狀會以整數清單表示。例如: 以下二維張量的形狀是 [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow 使用行優先 (C 樣式) 格式來表示維度的順序,因此 TensorFlow 中的形狀為 [3,4],而非 [4,3]。換句話說,在二維 TensorFlow 張量中,形狀為 [列數欄數]

靜態形狀是指編譯期間「已知」的張量形狀。

動態形狀在編譯時為未知,因此取決於執行階段資料。在 TensorFlow 中,這個張量可能會以預留位置維度表示,如 [3, ?] 所示。

資料分割

#TensorFlow
#GoogleCloud

訓練集模型的邏輯區隔。有些程序會將建立資料分割的方式 加入的 examplesparameters (通常) 相等的區塊然後將每個分片指派給不同的機器。

分割模型稱為「模型平行處理」;分割資料則稱為「資料平行處理」。

縮小

#df

梯度提升中的超參數,用於控制過度擬合。減少梯度提升 類似於學習率 梯度下降法。縮減為小數 值介於 0.0 和 1.0 之間縮減值越小可減少過度配適 大於縮減值

sigmoid 函數

#fundamentals

「擠壓」的數學函式限制多個輸入值 通常是 0 到 1,或 -1 到 +1。也就是說,您可以將任何數字 (兩、百萬、負十億等) 傳遞至 S 函數,輸出結果仍會在受限範圍內。以下是對數函數的活化函數圖表:

具有 x 值橫跨網域的 2D 曲線圖
          -infinity 到 +正數,而 y 值跨越範圍近 0 到
          將近 1.當 x 為 0 時,y 為 0.5。曲線的斜率一律會
          正值,最高斜率為 0,0.5,然後逐漸下降
          隨著 x 的絕對值增加

S 函數在機器學習領域有幾項用途,包括:

相似度評估

#clustering

「叢集」演算法中,用來判定 看看另外兩個例子的相似度

單一程式/多個資料 (SPMD)

平行處理技術,可在不同裝置上同時針對不同的輸入資料執行相同的運算。SPMD 的目標是要取得結果 這是平行程式設計最常見的樣式。

縮放不變性

#image

在圖片分類問題中,演算法 即使圖片大小有所變更也不受影響例如: 演算法仍能找出 貓用 2000 萬像素或 200K 像素。請注意 圖片分類演算法在大小差異方面仍具有實際限制。 舉例來說,演算法 (或人類) 不太可能正確分類只使用 20 個像素的貓咪圖片。

另請參閱翻譯不相同旋轉不變性

素描

#clustering

非監督式機器學習中,有一種演算法類別會對範例執行初步相似度分析。草擬演算法會使用 縣市敏感雜湊函式 找出可能相近的分數,然後將 複製到值區

草圖可減少在大型資料集上進行相似度計算時所需的運算作業。我們不會為資料集中每個例子的組合計算相似度,而是只計算每個值組內的每個點的相似度。

略過圖

#language

n-gram 可能會省略 (或「略過」) 原始上下文中的字詞,也就是說,N 個字詞可能並非原先相鄰。更多內容 準確來說就是「k-skip-n-gram」是 n 元語法,最多 k 字 略過。

例如:「快速棕色狐狸」下列可能的 2 公克如下:

  • 「快速」
  • 「快速棕色」
  • 「棕色狐狸」

「1-skip-2 公克」是指兩個字詞中間最多 1 個字詞。 因此,「the quick brown fox」有以下 1 跳 2 元組:

  • 「棕色」
  • 「quick fox」

此外,所有 2 公克是 1-skip-2-grams,因為減少 就會略過

跳躍式迴歸模型可協助我們進一步瞭解字詞的周遭上下文。在這個範例中,「fox」與「quick」在 1-skip-2-grams 集合中直接相關,但在 2-grams 集合中則不相關。

跳克數說明訓練 字詞嵌入模型。

軟性最高

#fundamentals

此函式可決定 中每個可能類別的機率 多元分類模型:這些機率相加後的總和必須精確為 1.0。例如,下表顯示 softmax 的發布方式 各種機率:

圖片為... 機率
0.85
cat 0.13
.02

Softmax 也稱為「full softmax」

請參閱候選抽樣

軟提示調整

#language
#generativeAI

一種針對特定工作調整大型語言模型的技術,無需耗用大量資源進行微調。與其重新訓練所有 模型的權重、軟提示調整作業 自動調整提示以達成相同的目標。

在收到文字提示時,軟性提示調整功能通常會在提示中附加額外的符記嵌入,並使用反向傳播來最佳化輸入內容。

一個「困難」提示含有實際符記,而非符記嵌入。

稀疏特徵

#language
#fundamentals

特徵的值主要為零或空白。 舉例來說,如果特徵包含單一 1 值和百萬個 0 值,就屬於稀疏特徵。相反地,密集特徵的值通常不會是零或空白。

在機器學習中,有許多特徵都是稀疏特徵。類別特徵通常是稀疏的特徵。 舉例來說,在森林中可能有 300 種樹木,但單一示例可能只會識別出楓樹。或者,在影片庫中,有數百萬部影片可供選擇,但單一示例可能只會標示「Casablanca」。

在模型中,您通常會使用 one-hot 編碼來表示稀疏特徵。如果 one-hot 編碼很大,您可以將嵌入層置於 one-hot 編碼之上,以提高效率。

稀疏表示法

#language
#fundamentals

在稀疏特徵中,只儲存非零元素的位置

舉例來說,假設名為 species 的類別特徵可識別特定森林中的 36 種樹木。進一步假設 example 只能識別單一物種。

您可以使用 one-hot 向量來表示每個範例中的樹木種類。 單熱向量會包含單一 1 (代表該例中的特定樹種) 和 35 個 0 (代表該例中「不是」的 35 種樹木)。因此,maple 的 one-hot 表示法可能會像以下這樣:

向量中,位置 0 到 23 的值為 0,位置 24 的值為 1,位置 25 到 35 的值為 0。

或者,稀疏表示法只會找出 特定物種如果 maple 位於 24 的位置,則為稀疏表示法 maple 就是:

24

請注意,稀疏表示法比單樣本更為精簡 這種表示法

稀疏向量

#fundamentals

值大多為 0 的向量。另請參閱「稀疏功能」和「稀疏」。

稀疏度

向量或矩陣中設為零 (或空值) 的元素數量,除以該向量或矩陣中的項目總數。舉例來說,假設有一個 100 個元素的矩陣,其中 98 個儲存格含有零。稀疏度的計算方式如下:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

「特徵的稀疏度」是指特徵向量的稀疏度; 模型稀疏度是指模型權重的稀疏度。

空間集區

#image

請參閱共用

分割

#df

決策樹狀圖中,這是另一個 condition

分割器

#df

訓練決策樹時,例行程序 (和演算法) 會負責在每個節點中尋找最佳條件

SPMD

單一程式/多個資料的縮寫。

平方轉折損失

轉折損失的平方。方形轉軸損失懲罰 比起一般轉軸損失,異常值更為嚴格。

平方損失

#fundamentals

L2 損失的同義詞。

階段訓練

#language

在一系列不連續階段中訓練模型的策略。目標可以是 加快訓練程序,或提升模型品質

以下是漸進式堆疊方法的示意圖:

  • 第 1 階段包含 3 個隱藏層,第 2 階段含有 6 個隱藏層, 階段 3 含有 12 個隱藏圖層。
  • 階段 2 會開始訓練,使用階段 1 的 3 個隱藏層所學習到的權重。階段 3 會開始訓練,使用在第 2 階段 6 個隱藏層中學到的權重。

三個階段,分別標示為第 1 階段、第 2 階段和第 3 階段。
          每個階段包含的層數不同:第 1 階段包含 3 個層,第 2 階段包含 6 個層,第 3 階段則包含 12 個層。第 1 階段的 3 個層成為第 2 階段的前 3 個層。同樣地,第 2 階段的 6 個層會成為第 3 階段的前 6 個層。

另請參閱管道

#rl

在強化學習中,描述目前情況的參數值 代理程式可用來 選擇動作

狀態動作值函式

#rl

Q-function 的同義詞。

靜態

#fundamentals

一次性動作,而非持續性動作。「靜態」和「離線」是同義詞。以下是機器學習中常見的靜態離線用途:

  • 靜態模型 (或「離線模型」) 則是經過一次訓練的模型 可能會需要一段時間
  • 靜態訓練 (或稱離線訓練) 是訓練靜態模型的過程。
  • 靜態推論 (或稱離線推論) 是指模型一次產生一批預測結果的程序。

對比動態

靜態推論

#fundamentals

與「離線推論」同義。

穩定性

#fundamentals

在一個或多個維度 (通常是時間) 中,值不會變更的特徵。舉例來說,如果特徵在 2021 年和 2023 年的值大致相同,就表示該特徵具有平穩性。

現實世界中,很少有展覽中心性展覽品。就算是穩定的環境 (例如海平面),也會隨時間改變。

請參閱「非平穩性」一節。

點選 [下一步]

單一批次的前向傳遞和向後傳遞。

詳情請參閱反向傳播一節 按下 [轉向] 選項

步距

與「學習率」同義。

隨機梯度下降 (SGD)

#fundamentals

梯度下降演算法,其中批次大小為 1。換句話說,SGD 以 並統一選擇 隨機擷取訓練集中的模型

跨距

#image

在卷積運算或池化中, 下個系列的輸入配量以下方動畫為例 展示了卷積運算期間的 (1,1) 步。因此 下一個輸入片段 從上一個輸入片段右側開始一個位置 片段當作業到達右側邊緣時,就會執行下一個配量 就會指向左側,但有一個位置朝下

輸入 5x5 矩陣和 3x3 卷積濾鏡。由於
     步長為 (1,1),系統會套用卷積濾波器 9 次第一個卷積切片會評估輸入矩陣的左上方 3x3 子矩陣。第二個片段用來評估前段的 3x3 圖像
     子矩陣第三個卷積運算區塊會評估右上方的 3x3 子矩陣。第四個切片用來評估中間的 3x3 子矩陣。
     第五項用來評估中間的 3x3 子矩陣。第六項
     會評估中間右側 3x3 的子矩陣。第七個切片會評估左下方 3x3 子矩陣。第八個切片會評估底部中間的 3x3 子矩陣。第九段評估了右下角 3x3 的大小
     子矩陣

上述範例展示了二維步長。如果輸入內容 矩陣是三維,步長也是 3D。

結構風險最小化 (SRM)

在兩個目標間取得平衡的演算法:

  • 需要建構最可預測的模型,例如最低損失。
  • 需要盡可能簡化模型 (例如強力正規化)。

舉例來說,在訓練集上將損失 + 正則化降到最低的函式,就是結構風險最小化演算法。

請參閱經驗風險最小化

向下取樣

#image

請參閱集區相關說明。

子字詞符記

#language

語言模型中,符記, 子字串,可以是整個字詞。

舉例來說,「itemize」這個字詞可能會分成「item」(字根) 和「ize」(字尾),每個字詞都會以專屬的符記表示。將不常見的字詞拆成「子字詞」 針對更常見的組成部分運作語言模型 例如前置字串和後置字串

相反地,「往來」這類常用的字詞可能並未中斷 代表單一符記

摘要

#TensorFlow

在 TensorFlow 中,系統會針對特定 step,通常用於在訓練期間追蹤模型指標。

監督式機器學習

#fundamentals

根據特徵和相應的標籤訓練模型。監督式機器學習 學習某個科目 對應的答案學生熟悉問題和答案之間的對應關係後,就能針對相同主題的新問題 (從未見過的) 提供答案。

比較對象 非監督式機器學習

合成特徵

#fundamentals

特徵不在輸入特徵中,但由一或多個特徵組合而成。建立合成特徵的方法包括:

  • 將連續特徵特徵分塊化為範圍特徵分塊。
  • 建立跨功能
  • 將一個特徵值乘以 (或除以) 其他特徵值 或單用舉例來說,如果 ab 是輸入特徵,則 以下是綜合特徵的範例:
    • ab
    • a2
  • 將超越函式套用至地圖項目值。舉例來說,如果 c 是輸入特徵,以下是合成特徵的範例:
    • sin(c)
    • 經度(c)

僅透過正規化縮放建立的特徵,不視為合成特徵。

T

T5

#language

Google AI 在 2020 年推出的文字轉文字轉移學習模型。T5 是一種編碼器-解碼器模型,以 Transformer 架構為基礎,並以極大量的資料集進行訓練。這項技術可有效執行各種自然語言處理工作,例如生成文字、翻譯語言,以及以對話方式回答問題。

T5 的名稱源自於「Text-to-Text Transfer Transformer」中的五個 T。

T5X

#language

這是一個開放原始碼的機器學習架構,旨在建構及訓練大規模自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (該程式碼集是以 JAXFlax 建構而成)。

表格式 Q 學習

#rl

強化學習中,導入 Q-learning 使用資料表來儲存 Q 函式適用於 stateaction

目標

label 的同義詞。

目標聯播網

#rl

Deep Q-learning 是穩定可靠的類神經網路 主要類神經網路的近似類神經網路 實作 Q 函式政策。 接著,您可以依據目標預測的 Q 值訓練主要聯播網。 更是如此因此,您可以避免主網路在訓練自身預測的 Q 值時發生的回饋迴圈。避免這類回饋,可提高訓練穩定性。

任務

可使用機器學習技術解決的問題,例如:

溫度

#language
#image
#generativeAI

控制隨機程度的超參數 輸出內容隨機性參數越高,輸出的隨機性就會越高 降低隨機性參數則能產生較不隨機的輸出內容

最佳溫度的選擇取決於特定的應用和 模型輸出內容的偏好屬性。舉例來說 因此應該在建立應用程式時,調高溫度 產生廣告素材輸出內容反之,最好在 建構模型來分類圖像或文字 準確率與一致性

溫度通常會與 softmax 搭配使用。

時序資料

記錄在不同時間點的資料。舉例來說,針對每年的每一天記錄的冬季外套銷售資料,就是時間序列資料。

Tensor

#TensorFlow

TensorFlow 程式中的主要資料結構。張量是 ND 其中 N 可能相當龐大) 資料結構,最常見的是純量、向量 或矩陣張量的元素可儲存整數、浮點或字串值。

TensorBoard

#TensorFlow

資訊主頁會顯示在執行一或多個 TensorFlow 程式期間儲存的摘要。

TensorFlow

#TensorFlow

大規模的分散式機器學習平台。這個詞也指 TensorFlow 堆疊中的基礎 API 層,可支援資料流圖上的一般運算。

雖然 TensorFlow 主要用於機器學習,但您也可以使用 TensorFlow 處理需要使用資料流圖進行數值運算的非機器學習工作。

TensorFlow Playground

#TensorFlow

這項程式可將不同超參數如何影響模型 (主要是神經網路) 訓練的情形以圖表呈現。前往 http://playground.tensorflow.org 試用 TensorFlow Playground

TensorFlow Serving

#TensorFlow

在實際工作環境中部署經過訓練的模型。

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

特殊應用積體電路 (ASIC),可最佳化機器學習工作負載的效能。這些 ASIC 會部署為 TPU 裝置上的多個 TPU 晶片

張量的秩

#TensorFlow

請參閱「rank (Tensor)」。

張量的形狀

#TensorFlow

Tensor 內含各種維度的元素數量。 舉例來說,[5, 10] Tensor 的形狀是 1 個維度 5 和 10 另一個 VM

張量大小

#TensorFlow

張量包含的標量總數。例如,[5, 10] 張量的大小為 50。

TensorStore

程式庫:可有效率地讀取及寫入大型多維陣列。

終止條件

#rl

強化學習中, 判斷單集節目的結束時間,例如服務專員的回覆時間 或超過門檻性狀態轉換的情況。 例如,在 tic-tac-toe (也是 一集節目終止時 。

test

#df

決策樹中,條件的另一個名稱。

測試損失

#fundamentals

指標,代表模型的損失測試集。建構模型時 通常都會盡量減少測試損失這是因為低測試損失比低訓練損失或低驗證損失更能提供強烈的品質信號。

測試損失與訓練損失或驗證損失之間有時會存在明顯落差 表示您必須提高 正則化比率

測試集

預留用於測試的dataset子集 訓練好的模型

傳統上,您會將資料集中的範例分成下列三個不同的子集:

資料集中的每個範例都應屬於前述其中一個子集。 舉例來說,單一範例不應同時屬於訓練集和測試集。

訓練集和驗證集與模型訓練密切相關。 由於測試集只會間接與訓練作業相關聯, 測試損失訓練損失驗證損失

文字區間

#language

與文字字串的特定子區段相關聯的陣列索引區間。舉例來說,Python 字串 s="Be good now" 中的 good 字詞會佔用 3 到 6 的文字範圍。

tf.Example

#TensorFlow

標準通訊協定緩衝區,用於描述機器學習模型訓練或推論的輸入資料。

tf.keras

#TensorFlow

已整合至 TensorFlowKeras 實作項目。

閾值 (適用於決策樹)

#df

軸對齊條件中,也就是 比較 feature。舉例來說,75 是下列條件中的閾值:

grade >= 75

時間序列分析

#clustering

機器學習和統計學的子領域,用於分析時間序列資料。機器學習有多種類型 您需要分析時間序列分析,包括分類、分群 預測和異常偵測等作業舉例來說,您可以使用時間序列分析,根據歷來銷售資料,按月份預測未來的冬季大衣銷售量。

時間間隔

#seq

循環類神經網路中一個「未展開」的單元格。例如,下圖顯示三個時間步驟 (標示為 下標 t-1、t 和 t+1):

循環類神經網路中的三個時間步驟。模型的輸出內容
          會成為第二個時間步的輸入內容第二個時間步的輸出內容會成為第三個時間步的輸入內容。

token

#language

語言模型中,模型訓練和預測的基礎單位。權杖通常是 包括:

  • 字詞:例如「dogs like cats」這個詞組由三個字詞符記組成:「dogs」、「like」和「cats」。
  • 字元,例如「自行車魚」含有九個 字元符記(請注意,空格也算作一個符記)。
  • 子字詞:單字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字元組成。例如: 使用子字詞做為符記的語言模型可能會瀏覽「dogs」一詞 視為兩個符記 (也就是根字詞「dog」和複數字尾「s」)。同樣的語言模型可能會將單字「taller」視為兩個子字 (根字「tall」和後置詞「er」)。

在語言模型以外的網域中,符記可代表其他類型的原子單位。舉例來說,在電腦視覺中,符記可能是圖片的子集。

深層類神經網路的元件, 本身就是深層類神經網路在某些情況下,每個塔樓會從 獨立資料來源,且那些塔據一直保持獨立,直到 輸出至最終層在其他情況下 (例如,在許多 Transformersencoderdecoder 塔中),塔之間會有交叉連結。

TPU

#TensorFlow
#GoogleCloud

Tensor Processing Unit 的縮寫。

TPU 晶片

#TensorFlow
#GoogleCloud

可程式設計的線性代數加速器,內建晶片上高頻寬記憶體,可針對機器學習工作負載進行最佳化。多個 TPU 晶片會部署在 TPU 裝置上。

TPU 裝置

#TensorFlow
#GoogleCloud

帶有多個 TPU 晶片的印刷電路板 (PCB), 以及系統冷卻硬體

TPU 主要執行個體

#TensorFlow
#GoogleCloud

在主機上執行的中央協調程序,可將資料、結果、程式、效能和系統健康狀況資訊傳送至 TPU worker。TPU 主機也會管理 TPU 裝置的設定和關閉作業。

TPU 節點

#TensorFlow
#GoogleCloud

Google Cloud 上的 TPU 資源,具有特定的 TPU 類型。TPU 節點會從對等互連網路連線至虛擬私有雲網路。TPU 節點是 Cloud TPU API

TPU Pod

#TensorFlow
#GoogleCloud

Google 中的 TPU 裝置特定配置 這些功能以虛擬方式整合為 類似實體資料中心的資源TPU Pod 中的所有裝置都會透過專用高速網路互相連線。TPU Pod 是 適用於特定 TPU 版本的 TPU 裝置

TPU 資源

#TensorFlow
#GoogleCloud

您在 Google Cloud 上建立、管理或使用的 TPU 實體。適用對象 例如 TPU 節點TPU 類型 使用 TPU 資源。

TPU 配量

#TensorFlow
#GoogleCloud

TPU 配量是 TPU PodTPU 裝置的一部分。已連結 TPU 配量中的所有裝置 然後再透過專用高速網路相互通訊

TPU 類型

#TensorFlow
#GoogleCloud

一或多部 TPU 裝置的配置,搭配特定 TPU 硬體版本。您可以在建立 Cloud TPU 時選取 TPU 類型 Google Cloud 上的 TPU 節點。舉例來說,v2-8 TPU 類型是單一 TPU v2 裝置,具有 8 個核心。一個 v3-2048 TPU 類型具有 256 個 連網 TPU v3 裝置,共 2,048 個核心。TPU 類型是一種資源 Cloud TPU API

TPU 工作站

#TensorFlow
#GoogleCloud

在主體機器上執行,並執行機器學習程式的程序 在 TPU 裝置上運作。

訓練

#fundamentals

決定理想參數 (權重和 則構成模型。在訓練期間,系統會讀取 範例,並逐漸調整參數。訓練會運用 從數次到數十億次情境

訓練損失

#fundamentals

指標,代表模型在一段期間內的損失 特定訓練疊代作業舉例來說,假設損失函式 就是平均值方框錯誤。也許是訓練損失 平方誤差),且第 10 次疊代的訓練損失為 2.2, 第 100 次疊代為 1.9

損失曲線:比較訓練損失和 疊代。損失曲線會提供下列訓練相關提示:

  • 向下斜坡則代表模型持續改善。
  • 上升斜率則代表模型的成效越來越差。
  • 平坦的斜率表示模型已達到收斂

例如,以下是一些合理的損失曲線 顯示:

  • 在初始反覆執行階段中,呈現陡峭的向下斜坡,表示模型快速改善。
  • 逐漸平緩 (但仍會朝下) 的斜坡直到底部 這代表模型在某種程度上持續改善模型 較慢的步調
  • 訓練結束時的平緩斜坡,表示收斂。

訓練損失與疊代的圖。損失曲線開始時
     有陡峭的緩坡斜率逐漸平緩,直到
     的斜率會變成零

雖然訓練損失很重要,但另請參閱 一般化

訓練/應用偏差

#fundamentals

模型在訓練期間和提供期間的效能差異。

訓練集

#fundamentals

用來訓練模型資料集子集。

傳統上,資料集中的範例分為下列三個 不重複子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,一個範例不應屬於某個群組 訓練集和驗證集

軌跡

#rl

強化學習中,一系列元組代表一系列狀態轉換的代理程式,其中每個元組對應到狀態、動作獎勵和特定狀態轉換的下一個狀態。

遷移學習

在機器學習工作之間轉移資訊。 舉例來說,在多工作學習中,單一模型可解決多項工作,例如深度模型,可為不同工作提供不同的輸出節點。遷移學習可能需要轉移知識 從簡化作業到較複雜的工作 將知識從具有更多資料的工作中,轉移到具有更多資料的工作中 資料就會較少

大多數機器學習系統需要解決單一任務。遷移學習是一種 逐漸轉向人工智慧,單一程式就能解決 多個工作。

Transformer

#language

這是 Google 開發的神經網路架構,可利用自注意力機制,將輸入嵌入資料序列轉換為輸出嵌入資料序列,不必仰賴卷積迴歸神經網路。Transformer 可能是 這張圖呈現成多個自註意力層

轉換器可包含下列項目:

編碼器會將嵌入序列轉換為相同長度的新序列。編碼器包含 N 個相同的層,每個層都包含兩個子層。這兩個子圖層會套用至輸入內容的每個位置 也就是將序列中每個元素轉換為新的 和嵌入的內容第一個編碼器子層會匯總 輸入序列第二個編碼器子層 輸出資訊至輸出嵌入

解碼器會將輸入嵌入序列轉換為 可能會產生不同的長度解碼器也包含 包含三個子圖層的 N 個相同圖層,兩個子層相似 編碼器子層第三個解碼器子層會 並套用自註意力機制, 收集資料

網誌文章「Transformer:語言的新類類神經網路架構 瞭解 也提供 Transformer 的簡介

平移不變性

#image

在圖片分類問題中,即使圖片中物件的方位有所變動,演算法仍能成功分類圖片。舉例來說,無論狗在影格中央還是左側,演算法仍可辨識狗。

另請參閱「大小差異旋轉不變性

三角形

#seq
#language

包含 N=3 的 N 語法

真陰性 (TN)

#fundamentals

以下範例說明模型正確預測負類。舉例來說,模型會推論 特定電子郵件不是垃圾郵件,而且該電子郵件確實

真陽性 (TP)

#fundamentals

以下是模型正確預測正類的範例。舉例來說,模型會推論 某封垃圾郵件可能是垃圾郵件, 但是該電子郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

正向比率是指 ROC 曲線中的 Y 軸。

U

不知道 (屬於敏感屬性)

#fairness

敏感屬性的情況 但不包含在訓練資料中由於敏感屬性 資料的其他屬性通常與資料的其他屬性相關聯 若不清楚敏感屬性,可能仍 對該屬性各自影響 或違反其他公平性限制

配料不足

#fundamentals

產生預測能力不佳的模型,因為模型未能完全掌握訓練資料的複雜度。許多問題 可能造成使用率不足的情況,包括:

欠取樣

類別不平衡資料集多數類別中移除範例,以便建立更平衡的訓練集

舉例來說,假設資料集中的主要類別 少數類別為 20:1為克服這種類別不平衡問題,您可以建立訓練集,其中包含所有少數類別範例,但只有十分之一的多數類別範例,這樣訓練集類別比率就會是 2:1。由於採用了欠取樣,這個更平衡的訓練集可能會產生更優質的模型。此外,這個做法 平衡的訓練集可能包含足夠的範例 有效的模型

請比較過度取樣

單向

#language

系統只會評估目標文字區塊「前面」的文字。相較之下,雙向系統則會評估 前方後續文字的目標部分。 詳情請參閱「雙向」一節。

單向語言模型

#language

這種語言模型僅會以 符記會顯示在目標權杖「之前」,而非「之後」。 請參閱雙向語言模型

無標籤示例

#fundamentals

範例包含特徵,但沒有標籤。舉例來說,下表顯示房屋的三個未加上標籤的範例 評估模型,每個特徵都有三個特徵,但沒有房屋價值:

臥室數量 浴室數量 房屋年齡
3 2 15
2 1 72
4 2 34

監督式機器學習中,模型會使用已加上標籤的範例進行訓練,並針對未標示的範例做出預測。

半監督式非監督式學習 會在訓練期間使用未加上標籤的範例

比較無標籤樣本與有標籤樣本

非監督式機器學習

#clustering
#fundamentals

訓練模型找出資料集中的模式,通常是指 未加上標籤的資料集

非監督式機器學習最常見的用途是 叢集資料 按類似樣本分組例如非監督式機器 學習演算法可以依據不同屬性將歌曲分類 您的作品產生的叢集可能會成為其他機器的輸入內容 學習演算法 (例如音樂推薦服務)。 在實用標籤稀少或不存在時進行分群法, 例如,在反濫用和詐欺等領域中,叢集可以幫助 讓人類更好地理解資料

監督式機器學習的差異。

升幅模型

一種行銷常用的模擬技巧,可模擬 「因果影響」(也稱為「成效增幅」) 「實驗組」而是將重點放在「個人」上我們來看看下面兩個範例:

  • 醫生可能會使用升幅模擬功能,預測死亡率 治療程序 (治療) 的因果影響, 病患 (個人) 的年齡和醫療歷史。
  • 行銷人可以運用升幅模擬,預測 因廣告而購買的機率 (因果影響) (實驗組)。

升幅模擬與分類或 部分標籤的迴歸 (例如 二元處理中的標籤) 在升幅模擬中總是缺少。 舉例來說,病患可以接受或不接受治療;因此,我們只能在上述兩種情況中觀察病患是否會康復 (但不會同時觀察兩種情況)。升幅模型的主要優點是,它可以針對未觀察到的情況 (反事實) 產生預測結果,並用於計算因果效應。

增加

將權重套用至 downsampled 類別,並與下採樣係數相同。

使用者矩陣

#recsystems

推薦系統中, 由 產生嵌入向量矩陣分解 保存有關使用者偏好的潛在信號 使用者矩陣的每個資料列都會保存單一使用者各種潛在信號的相對強度相關資訊。舉例來說,假設有一個電影推薦系統,在這個系統中,使用者矩陣中的潛在信號可能代表每位使用者對特定類型的興趣,也可能是涉及多種因素的複雜互動,難以解讀。

使用者矩陣會有每個潛在特徵的欄,以及每位使用者的一列。 也就是說,使用者矩陣與目標的列數相同 。例如,針對某部電影 1,000,000 位使用者的推薦系統 使用者矩陣會有 1,000,000 列

V

驗證

#fundamentals

模型品質的初始評估作業。 驗證功能會根據驗證集,檢查模型預測結果的品質。

由於驗證集與訓練集不同,驗證有助於防範過度配適

建議您根據驗證集來評估模型 第一次測試並對照比較模型 測試集做為第二輪測試。

驗證損失

#fundamentals

代表模型損失指標指標 特定案件的驗證集 訓練的疊代

另請參閱泛化曲線

驗證集

#fundamentals

執行初始的dataset子集 針對訓練好的模型進行評估。通常,您會先針對驗證集評估經過訓練的模型,然後再針對測試集評估模型。

傳統上,您會將資料集中的範例分成下列三個不同的子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,一個範例不應屬於某個群組 訓練集和驗證集

值計算

將缺少的值替換為可接受的替代值的程序。如果缺少值,您可以捨棄整個範例,也可以使用值推論來挽救範例。

舉例來說,假設資料集包含 temperature 特徵,且 。不過,溫度讀數 在特定時段無法使用以下是資料集的一個部分:

時間戳記 溫度
1680561000 10
1680564600 12
1680568200 遺漏
1680571800 20
1680575400 21
1680579000 21

系統可以刪除缺少的示例,或是根據推斷演算法將缺少的溫度推斷為 12、16、18 或 20。

消失的漸層問題

#seq

某些深度神經網路的早期隱藏層梯度,有變得異常平坦 (低) 的趨勢。梯度越來越低,導致深層類神經網路中節點的權重變化越來越小,導致學習效果不佳或完全沒有學習。發生梯度消失問題的模型很難或無法訓練。長短期記憶單元可解決這個問題。

爆炸漸層問題比較。

變數重要性

#df

一組分數,指出各項分數的相對重要性 套用至模型的 feature

舉例來說,假設您有一個用來估算房價的決策樹,假設這個決策樹狀圖使用 地圖項目:尺寸、年齡及樣式如果一組變數重要性 這三項功能 {size=5.8, age=2.5, style=4.7},那麼大小就比 而非年齡或風格

有不同的變數重要性指標 瞭解模型不同面向的機器學習專家。

變分自動編碼器 (VAE)

#language

一種自動編碼器,可利用輸入和輸出之間的差異,產生經過修改的輸入內容。變分自動編碼器適合用於生成式 AI

VAE 是以變異推理為基礎:這是一種用於估算機率模型參數的技術。

向量

超載字詞,意義因數學而異 和科學領域在機器學習中,向量具有兩種屬性:

  • 資料類型:機器學習中的向量通常會儲存浮點數。
  • 元素數量:向量的長度或尺寸

舉例來說,假設有一個特徵向量,其中含有八 浮點數這個地圖項目向量的長度或尺寸為 8。 請注意,機器學習向量通常有大量維度。

您可以用向量表示多種不同類型的資訊。例如:

  • 地球表面上的任何位置都可以以 2D 向量表示,其中一個維度是緯度,另一個是經度。
  • 每 500 支股票的目前價格,都會以 500 維向量
  • 可表示在有限數量類別內機率分佈 作為向量舉例來說,如果多元分類系統預測三種輸出顏色 (紅色、綠色或黃色) 中的一種,則可以輸出向量 (0.3, 0.2, 0.5),代表 P[red]=0.3, P[green]=0.2, P[yellow]=0.5

向量可連接,因此可將各種不同的媒體表示為單一向量。有些模型會直接在 串連許多 one-hot 編碼

TPU 等專用處理器經過最佳化處理,可對向量執行數學運算。

向量是張量為 1。

W

Wasserstein 損失

這是生成式對抗網路中常用的損失函式之一,根據產生資料和實際資料之間的地球移動距離計算。

重量

#fundamentals

模型乘以另一個值的值。 訓練是指決定模型的理想權重;推論是指使用學習到的權重進行預測。

最小化交替平方 (WALS)

#recsystems

推薦系統中,矩陣分解期間用於盡量減少目標函式的演算法,可將缺少的範例降權。WALS 將加權計算在內 原始矩陣與重新建構之間的平方誤差 用於修正列分解和資料欄分解作業。 每項最佳化作業都可以透過最小二乘法凸最佳化解決。詳情請參閱 推薦系統課程

加權總和

#fundamentals

所有相關輸入值相乘以對應權重所得的總和。舉例來說,假設相關輸入內容包含下列項目:

輸入值 輸入權重
2 -1.3
-1 0.6
3 0.4

因此加權後的加總如下:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是 活化函數

寬模型

這類線性模型通常具備 稀疏輸入特徵。稱之為「寬版」自 是特殊的「類神經網路」 直接連線至輸出節點的大量輸入內容。相較於深度模型,寬廣模型通常更容易進行偵錯和檢查。雖然寬廣模型無法透過隱藏層表達非線性關係,但寬廣模型可以使用特徵交叉桶化等轉換,以不同方式模擬非線性關係。

深度模型比較。

寬度

特定圖層中的神經元數量 一個類神經網路

觀眾智慧

#df

這個概念認為,如果將大量使用者 (「群眾」) 的意見或估計值平均起來,通常會得到出乎意料的好結果。舉例來說,如果遊戲中有人猜測 果醬成大型罐子裡雖然大多數的個人猜測都會不準確,但根據實驗,所有猜測的平均值竟然與罐子中果凍豆的實際數量非常接近。

Ensembles 是群眾使用的軟體類比。 即使個別模型的預測準確度極差 平均來說,許多模型的預測結果都會產生意想不到的結果 但預測結果才會準確舉例來說,雖然個別的決策樹可能會做出不佳的預測,但決策森林通常會做出非常準確的預測。

字詞嵌入

#language

表示字詞集合中的每個字詞,以嵌入向量表示,也就是將每個字詞表示為介於 0.0 和 1.0 之間的浮點值向量。相似的字詞 意義的表示法比含不同含意的字詞更多。 舉例來說,「胡蘿蔔」、「塞車」和「小黃瓜」都會是相對的 這兩者之間會非常不同 飛機太陽眼鏡牙膏

X

XLA (加速線性代數)

適用於 GPU、CPU 和 ML 加速器的開放原始碼機器學習編譯器。

XLA 編譯器會從熱門機器學習架構 (例如 PyTorchTensorFlowJAX,並為其進行最佳化調整 可在不同硬體平台上達到高效能執行 GPU、CPU 和機器學習加速器

Z

零樣本學習

一種機器學習訓練,其中 模型會推斷工作的「預測結果」 因此模型尚未經過專門訓練換句話說,模型沒有任何特定任務的訓練示例,但會被要求針對該任務執行推論

零樣本提示

#language
#generativeAI

未提供範例的提示並未提供實際範例 大型語言模型加以回應。例如:

單一提示的組成部分 附註
指定國家/地區的官方貨幣為何? 要讓 LLM 回答的問題。
印度: 實際查詢。

大型語言模型可能會提供下列其中一項回應:

  • 盧比符號
  • INR
  • 印度盧比
  • 盧比
  • 印度盧比

以上皆是,不過您可能想使用特定格式。

請比較零回應提示與下列術語:

Z 分數正規化

#fundamentals

縮放技巧,可將原始 特徵值替換為浮點值,代表該特徵與平均值之間的標準差數。舉例來說,假設某個特徵的平均值為 800,標準差為 100。下表說明 Z 分數規格化會如何將原始值對應至 Z 分數:

原始值 Z 分數
800 0
950 +1.5
575 -2.25

接著機器學習模型以 Z 分數進行訓練 而不是原始值