機器學習詞彙表

本詞彙表定義了一般的機器學習術語,並 特定詞彙

A

模糊處理

評估特徵重要性的技巧 或元件暫時從模型移除。然後 不使用該特徵或元件,重新訓練模型 但運作時間明顯較差,則已移除的功能或元件 可能很重要

舉例來說,假設您訓練了 分類模型 並在 10 個特徵方面達到 88% 的精確度 測試集:為了確認每個問題的重要性 可以只使用九個特徵重新訓練模型 接著介紹網際網路通訊層 包括兩項主要的安全防護功能如果重新訓練模型的成效明顯較差 (例如 55% 的精確度),則已移除的特徵可能很重要。相反地 如果重新訓練模型的成效相當良好 則不重要

模糊處理也有助於判斷以下各方面的重要性:

  • 大型元件,例如大型機器學習系統的整個子系統
  • 處理程序或技術,例如資料預先處理步驟

在這兩種情況下,您都可以觀察系統效能變化 (或 就不會有任何變動)。

A/B 測試

比較兩種 (或多個) 技術的統計方法:AB。一般而言,A 是現有的技術, B 是新技術。 A/B 測試不僅能判斷哪種技巧的成效較佳 以及差異是否具有統計顯著性

A/B 測試通常會以兩種技術來比較單一指標。 例如,如何比較兩個指標的準確率 ?不過,A/B 測試也可以比較任意數量的 指標。

加速器方塊

#GoogleCloud

專為執行金鑰而設計的特殊硬體元件類別 。

加速器晶片 (簡稱加速器) 可能會大幅 加快訓練及推論工作的速度和效率 與一般用途 CPU 相比適合用於訓練 類神經網路,以及類似的計算密集型任務

加速器晶片的例子包括:

  • 搭載專屬硬體的 Google Tensor Processing Unit (TPU) 深度學習的不同之處
  • NVIDIA 的 GPU,雖然最初是針對圖形處理而設計 啟用平行處理功能,大幅減少 可以加快處理速度

精確度

#fundamentals

正確分類 預測 的數量除以 除以預測總數也就是:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,模型做出了 40 次正確預測 預測的準確率為:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分類會提供具體名稱 正確預測與分類 預測結果不正確。所以,二元分類的準確率公式 如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真陽性 (正確預測) 的數量。
  • TN 是真陰性 (正確預測) 的數量。
  • FP 是偽陽性 (預測不正確) 的數量。
  • FN 是偽陰性 (預測不正確) 的數量。

比較準確率: 精確度喚回度

請參閱分類:準確率、喚回度、精確度和相關 指標

動作

#rl

在「強化學習」中, 代理程式對特定機制 在 環境。代理程式會使用 政策

活化函數

#fundamentals

類神經網路學習的函式 特徵之間的nonlinear (複雜) 關係 和標籤之間的關係

常見的活化函數包括:

活化函數的點並非單線。 例如,ReLU 活化函數的圖 兩條直線:

兩條折線圖。第一行具有常數
          y 值為 0,沿著 X 軸 (-infinity,0 到 0,-0) 計算。
          第二行的起始值為 0,0。這條線的斜率為 +1
          介於 0,0 到 +infinity 之間

S 函數的圖表如下所示:

具有 x 值橫跨網域的 2D 曲線圖
          -infinity 到 +正數,而 y 值跨越範圍近 0 到
          將近 1.當 x 為 0 時,y 為 0.5。曲線的斜率一律會
          正值,最高斜率為 0,0.5,然後逐漸下降
          隨著 x 的絕對值增加

請參閱「類神經網路:啟用」 函式

主動學習

一種「訓練」方法, 演算法會選擇部分從中學習的資料主動學習 特別適合加上標籤的範例 稀少程度或成本高昂與其盲從尋找豐富多元化的 會選擇性地找出已加上標籤的樣本範圍 學習所需的特定樣本範圍

AdaGrad

精密的梯度下降法演算法 每個參數的梯度,有效提供每個參數 各自獨立的學習率。如需完整說明,請參閱 這份 AdaGrad 文件

服務專員

#rl

在「強化學習」中, 使用 政策,讓其預期退貨 環境

廣泛來說,虛擬服務專員是能自主規劃及執行 有助達成目標的一系列行動,且能因應各種變化 對環境的認識。舉例來說,以 LLM 為基礎的虛擬服務專員可能會使用 而非應用增強學習政策,而是改為生成計畫。

聚合式分群法

#clustering

請參閱階層分群法

異常偵測

找出離群值的程序。舉例來說 指定特徵為 100,標準差為 10 則異常偵測應將值 200 標記為可疑值。

AR

綜合現實的縮寫。

公關曲線下的面積

請參閱 PR AUC (PR 曲線下的面積)

ROC 曲線下的面積

請參閱 AUC (ROC 曲線下的面積)

人工智慧

非人為機制,展示廣泛的問題解決方式 創意和適應能力例如 一般情報可以翻譯文字、撰寫交響 因為我們還沒打造出這一類遊戲。

人工智慧

#fundamentals

可解決複雜任務的非人為程式或模型。 例如翻譯文字的程式或模型,或是 能夠從放射性圖像中找出疾病的跡象,同時都有人工智慧。

從形式上來說,機器學習是人工智慧的子領域 人工智慧技術然而,近年來有些組織已經開始使用 「人工智慧」和「機器學習」這兩個詞彙可以互換。

注意力

#language

用於類神經網路的機制 瞭解某個字詞或某部分的重要性壓縮注意力 預測下一個符記/字詞時需要的資訊量。 典型的注意力機制可能包含 加權總和。 每個輸入的 weight 是由 前饋類神經網路

另請參閱「自註意」和 多頭自我注意力,也就是 Transformer 的構成要素。

請參閱 LLM:什麼是大型語言模型? 該怎麼辦? ,進一步瞭解自我注意力。

屬性

#fairness

feature 的同義詞。

在機器學習公平性方面,屬性通常是指 以及個人專屬的特徵

屬性取樣

#df

訓練決策樹系的策略 決策樹只會考量隨機子集 瞭解狀況特色特色。 一般來說,對每個特徵的 節點。相較之下,訓練決策樹 如未進行屬性取樣,每個節點會將所有可能採用的功能列入考量。

AUC (ROC 曲線下的區域)

#fundamentals

介於 0.0 到 1.0 之間的數字,代表 二元分類模型 可將正向類別負面類別。 AUC 越近 1.0,模型的分離能力也越高 互相學習

舉例來說,下圖為分類器模型 區分正類別 (綠橢圓形) 與負類別 (紫色矩形)。這個不切實際的模型 是 1.0 的 AUC:

有 8 個正面範例的數字行
          一側則是 9 個負面示例。

相反地,下圖顯示分類器結果 來產生隨機結果這個模型的 AUC 為 0.5:

含有 6 個正例和 6 個負例的數字行。
          範例序列為正數、負值
          正面, 負面, 正面, 負面, 正面, 負面, 正面, 正面
          負面、正面、負面

是,上述模型的 AUC 為 0.5,不是 0.0。

大多數模型都在兩極端之間。舉例來說, 以下模型會將正值與負數分開, 中的 AUC 介於 0.5 到 1.0 之間:

含有 6 個正例和 6 個負例的數字行。
          常見做法是排除、排除、排除、排除指定
          正面, 負面, 正面, 正面, 正面, 正面, 正面, 正面,
          正面影響。

AUC 會忽略您為 分類門檻:而是 AUC 會考量「所有」可能的分類門檻。

請參閱分類:ROC 和 AUC

擴增實境

#image

一種技術,在使用者看著螢幕前,將電腦產生的圖片疊加顯示 因此提供了複合檢視

自動編碼器

#language
#image

學習如何從 。自動編碼器是結合編碼器解碼器。自動編碼器必須遵循以下兩個步驟:

  1. 編碼器會將輸入內容對應至有損或低維度的 (中間) 格式。
  2. 解碼器會對應以 從較低維度到原始的高階格式 輸入格式

自動編碼器則是由解碼器 透過編碼器轉介格式重新建構原始輸入內容 轉介格式較小 (小於原始格式),則強制使用自動編碼器。 瞭解輸入內容中不可或缺的資訊 與輸入內容完全相同

例如:

  • 如果輸入資料是圖形,則非完全副本會是 原始圖形但稍有修改的部分或許是 非完全比對的文案可消除原始圖像或填充雜訊 缺少像素
  • 如果輸入資料是文字,自動編碼器會產生新文字 模仿 (但並非完全相同) 的原始文字。

另請參閱變分自動編碼器

自動化偏誤

#fairness

人工決策者對自動化系統的推薦有利於行 決策系統使用不需自動化處理的資訊, 自動決策系統出錯

請參閱「公平性:類型」 偏誤

AutoML

任何與建構機器學習相關的自動化程序 模型。AutoML 可自動執行以下類型的工作:

  • 搜尋最合適的模型。
  • 調整超參數
  • 準備資料 (包括 特徵工程)。
  • 部署產生的模型。

AutoML 對數據資料學家來說很實用,因為可以省下時間, 開發機器學習管道,以及提高預測的 準確度。對非專家也很有用 更容易存取機器學習任務

請參閱「自動化機器」 學習 (AutoML)

自動迴歸模型

#language
#image
#generativeAI

一種模型,可根據模型本身的過去 預測結果例如,自迴歸語言模型 token。 所有 Transformer 為基礎 大型語言模型會自動迴歸。

相反地,GAN 型圖片模型通常不會自動迴歸 因為這類模型產生一張圖像 100 萬步的訓練不過,部分圖像生成模型「會」自動迴歸,原因是 模型就會逐步生成圖像

輔助損失

損失函式:與 類神經網路 模型的主要 來加快訓練期間的 初期疊代。

輔助損失函式可推進有效的梯度 移至前面的圖層這麼做 在訓練期間收斂 修正漸層問題

平均精確度

這個指標用於彙整特定序列結果的成效。 平均精確度的計算方式是 每個相關結果的 精確度 值 (每次結果都顯示 與上一個結果相比,喚回度增加的位置清單)。

另請參閱公關曲線下的面積

軸對齊條件

#df

決策樹中,狀況 只包含單一功能。舉例來說 是特徵,那麼下列是根據軸對齊的條件:

area > 200

斜體條件的對比。

B

反向傳播

#fundamentals

執行時,採用的演算法 梯度下降法 ( 類神經網路

訓練類神經網路涉及許多疊代 循環階段的流程:

  1. 正向傳遞期間,系統會處理批次批次 會產生預測的範例。系統會比較每個 對應至每個標籤值。預測與實際指標之間的差異 就該範例而言,預測結果和標籤值是損失。 系統會匯總所有樣本的損失以計算總計 目前批次的損失
  2. 反向傳遞 (反向傳播) 期間,系統會 調整所有神經元的權重 隱藏的圖層

類神經網路通常包含多個隱藏層的神經元。 這些神經元會以不同方式造成整體損失。 反向傳播會決定是否要增加或減少權重 特定神經元

學習率是控制 每次向下傳遞量增加或減少的程度。 如果學習率很高,每個權重的增減幅度會比 小學學習率

在微積分中,反向傳播會 「鏈結規則」。 來自微積分也就是說,反向傳播會計算 錯誤的部分導數, 事件回應每個參數。

多年前,機器學習從業人員必須撰寫程式碼來實作反向傳播。 現在起,Keras 等現代機器學習 API 會為您實作反向傳播。太好了!

請參閱類神經網路

行李

#df

一種訓練的方法, 組成模型以隨機子集進行訓練 範例請見替換品。 舉例來說,隨機森林是一組 以袋子訓練的決策樹

「行李」這個詞是「無」的簡稱。

請參閱隨機樹系

一堆單字

#language

表示詞組或段落中的字詞 無論順序為何例如,字詞袋代表 以下三個詞組必須完全相同:

  • 狗跳躍
  • 跳狗跳
  • 狗在跳躍

每個字詞都會對應到稀疏向量中的索引,其中 在向量中,每個字詞都有一個索引例如: the dogJumps 這個詞組對應至了非 0 的特徵向量 位於三個索引,分別代表 thedogjumps。非零值可以是下列任一值:

  • 1 代表字詞是否存在。
  • 一個字詞出現在包包中的次數。例如: 如果該詞組是「暗紅色狗狗 是杯狀毛」,則兩者皆是 「maroon」和「dog」會以 2 表示,其他字詞則以 2 表示 以 1 表示。
  • 其他值,例如 代表包包中出現特定字詞的次數

基準

模型可做為參考點,用於比較另一個模型的成效 (通常較為複雜) 的效能舉例來說 邏輯迴歸模型或許可做為 深度模型的有效基準。

就特定問題而言,基準有助於讓模型開發人員量化 新模型預期能達到的最低成效 取得實用模型

Batch

#fundamentals

在單一訓練中使用的範例組合 疊代批量決定了單一請求中的樣本數 批次。

請參閱 訓練週期,瞭解批次與下列指標的關係: 一個訓練週期

請參閱線性迴歸: 超參數

批次推論

#TensorFlow
#GoogleCloud

針對多個事件,推論多個預測結果的程序 未加上標籤的範例 子集 (「批次」)。

批次推論可以運用 加速器方塊:也就是說 就能同時針對不同未加上標籤的批次資料進行預測 大幅提高每秒推論次數

請參閱實際工作環境機器學習系統:靜態與動態的比較 推論

批次正規化

正規化 活用函式 隱藏的圖層。批次正規化可以 提供以下好處:

批量

#fundamentals

批次中的範例數量。 舉例來說,如果批量為 100,模型就會處理 每次疊代最多 100 個範例。

以下是常用的批量策略:

  • 隨機梯度下降 (SGD),批次大小為 1。
  • 完整批次,其中批量為整份樣本中的樣本數 訓練集。舉例來說,如果訓練集 內含 100 萬個樣本 範例。全批次通常是效率不佳的策略。
  • 迷你批次,批次大小通常介於 10 到 1000。迷你批次通常是最有效率的策略。

詳情請參閱下列說明文章:

貝葉斯類神經網路

這種概率「類神經網路」 權重和輸出內容的不確定度。標準的類神經網路 迴歸模型通常會「預測」純量值; 舉例來說,標準模型會根據預測價格 853,000 人相反地,貝葉斯類神經網路則預測 價值;例如,貝氏模型預測房價為 853,000 標準差是 67,200

貝葉斯類神經網路 貝葉斯定理 ,計算出權重和預測結果的不確定性。貝葉斯神經 當有需要量化不確定性時 (例如 製藥類模型貝葉斯類神經網路也能協助 避免過度配適

貝式最佳化

機率迴歸模型 但運算成本高昂的技術 將代理函式改為最佳化代理值目標函式 能以貝葉斯學習技巧量化不確定性開始時間 貝氏最佳化方法本身非常昂貴 通常用於最佳化調整 在參數數量不多的情況下,會耗費大量成本完成評估工作,例如 選取「超參數

貝爾曼方程式

#rl

在強化學習中,下列身分認同 Q-function

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法適用於 身分識別方式透過下列更新規則建立 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了強化學習外,貝爾曼方程式還可應用在 動態程式設計詳情請參閱 Wikipedia 項目: Bellman 方程式

BERT (雙向編碼器) Transformer 的表示法)

#language

文字表示法的模型架構。訓練完成後 BERT 模型可做為大型文字分類或 執行其他機器學習任務

BERT 具備下列特性:

BERT 的變化版本包括:

,瞭解如何調查及移除這項存取權。

請參閱「開放 BERT:Natural Language 最先進的預先訓練」 處理中 ,瞭解 BERT 的總覽

偏見 (倫理/公平性)

#fairness
#fundamentals

1. 對某些事物、人物或事物的刻板印象、偏見或偏見 或群組比其他群組這些偏誤可能會影響集合 解讀資料、系統設計,以及使用者與資料互動的方式 是使用系統這類偏誤的形式包括:

2. 抽樣或回報程序引發的系統錯誤。 這類偏誤的形式包括:

不要和機器學習模型的偏誤用語混淆 或預測偏誤

請參閱「公平性:類型」 出現偏誤 機器學習密集課程瞭解詳情。

偏誤 (數學) 或偏誤用語

#fundamentals

與來源之間的攔截或偏移。偏誤是 機器學習模型,這類模型會以 包括:

  • b 鍵
  • W0

例如,偏誤是下列公式中的 b

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在簡單的二維線條中,偏誤只是「y 截距」。 例如,下圖中的線條偏誤為 2。

斜坡為 0.5 且偏誤 (y 截距) 為 2 的線條圖。

偏誤存在,因為並非所有模型都從原點 (0,0) 開始。例如: 假設遊樂園入場費 2 歐元, 客戶入住每小時 0.5 歐元。因此,對應到 由於最低費用為 2 歐元,因此總費用偏誤為 2。

偏誤不應與倫理和公平性中的偏誤混淆 或預測偏誤

請參閱線性迴歸

雙向

#language

這個詞彙是用來描述系統評估同時「之前」的文字 然後遵循目標部分的文字。相對地 僅限單向系統 用於評估「前方」文字目標區段的文字。

比方說,假設有遮罩的語言模型 必須判定代表底線的字詞或詞組 下列問題:

你有哪些 _____?

單向語言模型只能根據機率 顯示「What」、「is」和「the」等字詞。相對地 雙向語言模型也能透過「使用」以及「您」, 有助於模型產生更準確的預測結果

雙向語言模型

#language

一種語言模型,可判定 特定符記會引用至指定位置, 上一個後續文字。

Bigram

#seq
#language

其中 N=2 的 N 語法

二元分類

#fundamentals

這種分類工作類型,會 會預測兩個互斥的類別之一:

舉例來說,下列兩個機器學習模型分別會執行 二元分類:

  • 判斷電子郵件是否屬於 spam (正類別) 或 not spam (排除類別)。
  • 評估醫療症狀的模型,判斷是否有人 有特定疾病 (正類) 或不具備特定疾病 疾病 (即陰性類別),

多元分類的差異。

另請參閱「邏輯迴歸」和 分類門檻

請參閱分類。 。

二進位條件

#df

決策樹中,狀況 只有兩個可能的結果,通常是。 例如,以下是二進位條件:

temperature >= 100

非二元條件對比。

請參閱「條件類型」一節 。

特徵分塊

特徵分塊的同義詞。

BLEU (雙語評估研究)

#language

介於 0.0 到 1.0 (含) 之間的分數,表示翻譯品質 。BLEU 1.0 分表示這是完美的翻譯BLEU 分數為 0.0 分,表示 糟糕的翻譯

增強

一種機器學習技術,可以疊代結合一組 將分類器視為「弱」分類器, 具有高精確度的分類器 (「高」分類器),方法如下: 將模型目前的樣本加權 歸類錯誤。

請參閱梯度提升決策 樹?

定界框

#image

在圖片中,矩形區域的 (x, y) 座標 例如下圖中的狗。

小狗坐在沙發上的相片。綠色定界框
          以左上方座標為 (275、1271) 和右下角
          (2954, 2761) 的座標,用來表示狗的身體

廣播

將矩陣數學運算中的運算元形狀延伸到 該作業相容的維度。例如: 線性代數需要矩陣加總運算中的兩個運算元 都必須具有相同尺寸。因此,您無法新增形狀矩陣 (m, n) 乘以長度為 n 的向量播送功能可讓作業 以虛擬方式將長度 n 的向量擴展到形狀 (m, n) 的矩陣,方法是 將相同的值複製到各個資料欄

舉例來說,以下列定義為例,線性代數禁止 A+B,因為 A 和 B 的維度不同:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

不過,廣播功能可透過虛擬方式將 B 展開為以下作業 A+B:

 [[2, 2, 2],
  [2, 2, 2]]

因此,A+B 現在是有效的作業:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

請參閱下列 在 NumPy 中播送

資料分組

#fundamentals

將單一功能轉換成多個二進位功能 稱為 bucketsbins 通常是根據數值範圍切斷的功能通常是 持續推送功能

舉例來說,與其將隨機性參數 持續浮點功能,可以設定不同溫度範圍 拆分為離散值區,例如:

  • 攝氏 10 度稱為「冷」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區
  • 攝氏 11 到 24 度會是「溫度」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區
  • 攝氏 25 度會成為「暖暖」Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區

模型會以相同的方式處理相同值區中的每個值。適用對象 例如,1322 值都位於溫度值區中,因此 模型會以相同的方式處理這兩個值

請參閱數值資料: 特徵分塊

C

校正層

預測後調整,通常會考量以下因素: 預測偏誤。調整後的預測和 機率應與觀察到的標籤集分佈相符。

生成候選字

#recsystems

最初所選建議的一組建議 推薦系統:舉例來說,假設 販售 10 萬本書籍的書店。產生候選字詞的階段 是提供給特定使用者的精簡書籍清單,例如 500但即使 有 500 本書是大量推薦給使用者的方法,之後也更昂貴 各階段 (例如評分重新排名) 會將 500 數量縮減至較小 並提供更實用的最佳化建議

請參閱產生候選字 總覽 請參閱「推薦系統」課程

候選抽樣

一種訓練時間最佳化,可計算所有 「正面」標籤,例如 softmax (僅限隨機) 排除標籤樣本例如 beagledog 這兩個候選樣本會計算預測的可能性 與相應的損失條款:

  • 米格魯
  • 其餘排除類別的隨機子集 (例如 cat lollipopfence)。

概念上就是 負類別可以從較不頻繁的開始學習 也能補充負面影響 正面類別一律獲得適當的正數 而這也確實是觀察到的,

候選樣本的運算效率高於訓練演算法 計算「所有」負類別的預測結果,尤其是在 負類別的數量非常龐大

類別型資料

#fundamentals

特徵具有一組特定可能值。例如: 考慮名為 traffic-light-state 的類別特徵,該功能只能在 可能的值為下列其中一個值:

  • red
  • yellow
  • green

透過將 traffic-light-state 表示為類別特徵 模型就能學習 針對 redgreenyellow 對駕駛行為的影響。

類別特徵有時也稱為 獨立功能

數值資料比較。

請參閱使用類別 資料

因果語言模型

#language

單向語言模型的同義詞。

請參閱雙向語言模型以瞭解 對比語言模型的不同方向方法

群集中心

#clustering

k-meansk-median 演算法。舉例來說,如果 k 是 3 那麼 k-means 或 k-median 演算法會找到 3 個質心。

請參閱分群演算法 請參閱「叢集」課程

基於中心的分群法

#clustering

一種用於整理資料的叢集演算法 匯總為非階層叢集k-means 是最廣泛的 選擇以質心為基礎的分群法

階層分群法的對比 演算法。

請參閱分群演算法 請參閱「叢集」課程

思維鏈提示

#language
#generativeAI

提示工程技術: 大型語言模型 (LLM) 一步一腳印舉例來說,請思考 請特別留意第二句話:

一輛大小從 0 到 60 的車輛會有幾公力 英里數?在答案中顯示所有相關計算。

LLM 可能會回覆:

  • 顯示一系列物理公式,將值插入 0、60 和 7 適當的位置。
  • 說明為何選擇這些公式,以及各種變數的意義。

思維鏈提示會強制 LLM 執行所有計算 這可能帶來更正確的答案此外,思維鏈 能讓使用者檢查 LLM 的步驟,以判斷 或回答不合理

對話

#language
#generativeAI

透過機器學習系統來回對話的內容,通常是 大型語言模型。 先前的即時通訊互動記錄 (您輸入的內容以及大型語言模型的回應方式) 對話後續部分的背景資訊

「聊天機器人」是大型語言模型的應用程式。

檢查站

擷取模型參數狀態的資料,可以是 訓練期間或完成訓練後舉例來說 你可以:

  1. 蓄意停止訓練,可能是刻意停止訓練 某些錯誤。
  2. 擷取查核點。
  3. 稍後再重新載入查核點 (可能使用不同的硬體)。
  4. 重新開始訓練。
,瞭解如何調查及移除這項存取權。

類別

#fundamentals

標籤所屬的類別。 例如:

  • 二元分類模型中,偵測到 這兩個類別可能是「垃圾內容」且「非垃圾郵件」
  • 多元分類模型中 類別可以是 poodlebeaglePug、 依此類推

「分類模型」可預測類別。 相較之下,「迴歸模型」可預測 而非類別

請參閱分類。 。

分類模型

#fundamentals

預測為類別模型。 例如,以下是所有分類模型:

  • 模型會預測輸入語句的語言 (法文西班牙文? 義大利文?)
  • 用來預測樹種 (Maple?橡木色?猴麵包樹?)。
  • 預測特定資料的正向或負類 健康狀況

相較之下,迴歸模型會預測數字 而非類別

兩種常見的分類模型類型如下:

分類門檻

#fundamentals

在「二元分類」中, 這個數值可以轉換 邏輯迴歸模型 填入正面類別的預測結果 或排除類別。 請注意,分類門檻是由人類選擇的值 不是模型訓練選擇的值

邏輯迴歸模型會輸出介於 0 至 1 之間的原始值。然後執行下列步驟:

  • 如果這個原始值大於分類門檻,則 會產生預測結果
  • 如果這個原始值小於分類門檻,則 會產生預測結果

舉例來說,假設分類門檻為 0.8。如果原始值 等於 0.9,則模型會預測正類如果原始值為 0.7,則模型會預測負類別

選擇分類門檻後,系統產生 偽陽性偽陰性

請參閱門檻與混淆 矩陣

不平衡資料集

#fundamentals

分類問題的資料集 每個類別的標籤各有不同。 例如,假設有一個二項標籤的二元分類資料集 劃分方式如下:

  • 1,000,000 個排除標籤
  • 10 個正面標籤

負與正標籤的比率為 100,000 to 1 是不平衡的資料集

反之,下列資料集「並非」級別不平衡,因為 負面標籤與正面標籤的比率相對接近 1:

  • 517 個排除標籤
  • 483 個正面標籤

多類別資料集也可達到級別平衡。例如,下列 多類別分類資料集也呈現不平衡分類,因為只會有一個標籤 比其他兩個範例更多:

  • 1,000,000 個包含「green」類別的標籤
  • 200 個類別為「紫色」的標籤
  • 350 個含有「orange」類別的標籤

另請參閱主要類別。 和少數類別

裁剪

#fundamentals

處理離群值的技巧 符合下列一項或兩項條件:

  • 減少大於上限的 feature 值 並調降至該門檻
  • 將低於最低門檻的特徵值提高到該值 最低門檻

舉例來說,假設特定特徵的值小於 0.5% 必須介於 40 到 60 之間。在這種情況下,您可以執行以下操作:

  • 將超過 60 (最大門檻) 的所有值剪裁為 60 以上。
  • 將低於 40 (最低門檻) 的所有值裁剪為 40。

離群值會損壞模型,有時會導致重量 可能會發生溢位現象有些離群值也可能太劇烈 例如準確率等指標。剪輯是一種用來限制 導致損害的意外結果

漸層剪裁力 在訓練期間指定範圍內的梯度值。

請參閱數值資料: 正規化

Cloud TPU

#TensorFlow
#GoogleCloud

專門用於加快機器速度的特殊硬體加速器 學習工作負載環境

分群法

#clustering

將相關範例分組,尤其是在 非監督式學習:在所有 樣本分成一組,人類可選擇是否為每個叢集提供意義。

目前有許多分群演算法。例如 k-means 演算法叢集範例是根據與 質心,如下圖所示:

此 2D 圖表,X 軸會標示樹狀結構寬度
          Y 軸則是標示樹狀結構高度圖表中包含兩個
          以及數十個資料點資料點
          根據距離進行分類也就是說
          最接近一個群集中心會歸類為集群 1,而那些群星
          最接近其他群集中心會歸類為叢集 2。

人工審查員接著可以查看叢集,例如 將叢集 1 加上「Dwarf 樹」標籤並將 2 分為「原尺寸樹木」

再舉一個例子 範例與中心點之間的距離,如下圖所示:

數十個資料點以同心圓排列,幾乎是
          就像飛鏢中心周圍的小孔一樣最內心的戒指
          的資料點可歸類為叢集 1,中間戒指
          歸類為叢集 2,而最外側的圓環為
          叢集 3

請參閱「叢集」課程 瞭解詳情

共同適應

神經元藉由仰賴資料來預測訓練資料中的模式 幾乎完全仰賴特定神經元的輸出內容 網路的整體行為產生共同調整模式的模式 未出現在驗證資料中,那麼整合調整會造成過度配適。 丟棄正則化可減少共同調整作業 因為這樣不會導致神經元無法只仰賴其他特定神經元

協同過濾

#recsystems

針對單一使用者的興趣進行預測 依其他許多使用者的興趣來提供資訊。協同過濾 通常用於推薦系統

請參閱「協同合作 篩選 請參閱「推薦系統」課程

概念偏移

地圖項目和標籤之間的關係轉變。 概念偏移會逐漸降低模型的品質。

在訓練期間,模型會學習特徵和 與模型相關的標籤如果訓練集內的標籤是 現實世界中,則模型完善, 預測與實際結果之間的差異不過,由於概念偏移 會隨著時間逐漸降低

比方說,請考慮使用二元分類 模型預測特定車款是否「省油」 也就是說,功能可能包括:

  • 車輛重量
  • 引擎壓縮
  • 傳輸類型

而標籤就是:

  • 省油
  • 省油效率

不過,這個概念保留 不斷變化1994 年標示燃料效率的車款幾乎可以確定 標示為「不省油」。概念偏離的模型 隨著時間的推移,預測也會越來越不實用。

比較及與非期待性的對比。

狀況

#df

「決策樹」中,任何「節點」 會評估運算式例如 決策樹狀圖包含兩個條件:

由兩個條件組成的決策樹:(x > 0) 和
          (y > 0)。

條件也稱為分割或測試。

使用葉子的對比度。

另請參閱:

請參閱「條件類型」一節 。

探討

#language

hallucination 的同義詞。

說法可能從技術上來說是比幻覺更準確。 然而,幻覺變得很受歡迎。

設定

指派用於訓練模型的初始屬性值的過程 包括:

在機器學習專案中,設定可透過特殊方式 設定檔或使用以下設定程式庫:

確認偏誤

#fairness

使用者在搜尋、解讀、偏好和喚回資訊時, 確保現有信念或假設。 機器學習開發人員可能會在無意間收集或加上標籤 並影響成果 信念。確認偏誤是一種隱性偏誤

實驗者的偏誤是一種確認偏誤的一種形式, 實驗員會持續訓練模型, 已證實的假設。

混淆矩陣

#fundamentals

一份 NxN 表,彙整正確和錯誤預測的數量摘要 分類模型 例如,請思考下列概念的混淆矩陣: 二元分類模型:

胎兒 (預測) 非腫瘤 (預測)
真相 (真值) 18 (TP) 1 (芬蘭)
非仲裁 (真值) 6 (FP) 452 (田納西州)

上述混淆矩陣顯示如下:

  • 在 19 筆基準真相的預測中中, 模型正確分類為 18 歲,但誤歸為 1
  • 在 458 個預測結果中,真值是非腫瘤的預測結果 正確歸類為 452,但歸類為 6

多元分類的混淆矩陣 問題有助於找出錯誤的模式 舉例來說,假設下列 3 級的混淆矩陣 分類三種 iris 類型的多元分類模型 (維吉尼亞州、維斯西色和 Setosa)。當真值是維吉尼亞州時 混淆矩陣顯示模型 Versicolor 的預測結果比 Setosa:

  Setosa (預測) Versicolor (預測) 維吉尼亞州 (預計)
Setosa (基準真相) 88 12 0
Versicolor (真值) 6 141 7
維吉尼亞州 (基準真相) 2 27 109

另一個例子是混淆矩陣 顯示訓練資料的模型 如果現在辨識手寫數字,往往會誤將 9 比 4 或誤將 1 預測為 1,而不是 7

混淆矩陣內含充足資訊,可計算 各種成效指標,包括精確度喚回度

選區剖析

#language

將句子分割為更小的文法結構 (「組成」)。 機器學習系統的後續部分 自然語言理解模型 比原始語句更容易剖析組成例如: 請考慮以下句子:

我的朋友養育兩隻貓,

組成剖析器可將這個句子分為下列內容: 兩個組成部分:

  • 「我的朋友」是一個名詞片語。
  • 領養兩隻貓是一種動詞片語。

這些組成項目可以進一步細分為較小的組成部分。 例如:動詞語句

領養兩隻貓

可進一步細分為

  • adopted 為動詞。
  • 「兩隻貓」是另一個名詞片語。

情境化語言嵌入

#language
#generativeAI

接近「理解」的嵌入字詞 做出貢獻情境語言 嵌入能理解複雜的語法、語意和背景資訊。

舉例來說,請考慮使用英文「cow」的嵌入項目。較舊的嵌入 例如 word2vec 可以表示英文 例如加入嵌入空間的距離 從公牛,與女性 (女性綿羊) 的距離相近 ram (男性羊) 或從女性改為男性。情境語言 並能辨識英文使用者有時會 隨意使用「cow」這個字詞來表示牛或公牛。

上下文窗口

#language
#generativeAI

模型可在指定時間內處理的符記數量 提示。背景區間越大,更多資訊 模型能用來提供連貫且一致的回應 都沒有問題

持續特徵

#fundamentals

浮點地圖項目,範圍無限 例如隨機性參數或體重

獨立功能比較。

便利取樣

使用未經由科學方式收集的資料集來快速執行 實驗。稍後,企業必須改用科學收集的方式

收斂

#fundamentals

損失值極少變更或已達成的狀態 而未每次疊代時也不會有任何改變。例如,下列 損失曲線可指出在大約 700 次的疊代下收斂:

笛卡兒圖。X 軸損失。Y 軸是訓練次數
          疊代。損失在最初幾次疊代中非常高
          降水經過約 100 次疊代後,損失仍
          但速度會逐漸提升經過約 700 次疊代後
          成本就會持平

當其他訓練無法訓練時,模型「收斂」 可以改善模型

深度學習中,損失值有時會保持不變或 在最後是遞減之前多次疊代長期 可能會暫時誤解誤算感。

另請參閱「提前停止」一節。

請參閱模型融合和損失 曲線

凸函數

函式圖形上方的區域為 凸面:原型融合函數 (例如字母 U)。例如,下列 全都是凸函數:

U 形曲線,每個曲線都有一個最小值。

相反地,下列函式並非 convex。請注意 圖表上方顯示的區域不是轉換集:

具有兩個不同本地最小點的 W 形曲線。

「嚴格凸顯函式」只會在本機有一個最低點, 也是全球的最小值經典的 U 型函式是 專門去凸面函式但有些凸面函式 (例如直線) 不是 U 形。

查看融合與凸面 函式

凸面最佳化

為使模型學習 梯度下降法 凸顯函式的最小值。 機器學習領域的大量研究著重在設計各種 視為對話最佳化問題,而且能更有效解決這些問題 效率極高

如需完整詳情,請參閱 Boyd and Vandenberghe Convex 最佳化

凸集合

歐幾里德空間的一部分,因此在 但子集仍是子集例如下列兩個 形狀是凸面組合:

一張矩形插圖。另一個插圖:橢圓形。

相對地,下列兩種形狀並非凸面組合:

一張插圖,顯示有圓餅圖缺少切片的畫面。
          另一個插圖:另一個極端不規則的多邊形。

卷積

#image

在數學中,隨意說話就是結合兩種函式。機器內 「卷積」結合了卷積運算 篩選器和輸入矩陣 訓練權重

「卷積」一詞機器學習領域往往是最簡便的方法 是指卷積運算卷積層

如果沒有捲積,機器學習演算法就必須學習 一個大型 Tensor 中每個儲存格的權重。例如: 對 2K 與 2K 圖片的機器學習演算法訓練 可能會被迫觸發 找到 400 萬個獨立重量得益於卷積和機器學習 演算法只需要找出 卷積濾鏡,大幅減少 訓練模型所需的記憶體容量當卷積濾波器 它的作用是在儲存格之間複製,並將每個儲存格相乘 篩選結果。

請參閱「隆重推出卷積神經 網路 請參閱「圖片分類」課程

卷積濾波器

#image

研究中的兩位演員 卷積運算:(其他演員 是輸入矩陣的配量)。卷積濾鏡是指 與輸入矩陣相同排名,但形狀較小。 舉例來說,如果是 28x28 的輸入矩陣,篩選器可以是任何 2D 矩陣 小於 28x28

進行攝影處理時,卷積濾波器中的所有儲存格都 通常設為 1 和 0 的常數模式在機器學習領域 卷積篩選器通常會以隨機數字種子,接著 網路訓練理想的值。

請參閱卷積 請參閱「圖片分類」課程

卷積層

#image

深層類神經網路卷積濾波器傳輸輸入資料 矩陣例如,假設下列 3x3 卷積濾鏡

具有下列值的 3x3 矩陣:[[0,1,0], [1,0,1], [0,1,0]]

以下動畫顯示由 9 個 涉及 5x5 輸入矩陣的捲積運算。請注意 卷積運算適用於不同 3x3 配量輸入矩陣。 產生的 3x3 矩陣 (位於右側) 由 9 個 卷積運算:

顯示兩個矩陣的動畫。第一個矩陣是 5x5
          矩陣:[[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182]、[33,28,92,195,179], [31,40,100,192,177]]。
          第二個矩陣是 3x3 矩陣:
          [[181,303,618]、[115,338,605]、[169,351,560]]。
          第二個矩陣是用卷積來計算
          篩選 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          3x3 子集的 5x5 矩陣

請參閱「已完全連結 圖層 請參閱「圖片分類」課程

卷積類神經網路

#image

一個類神經網路,其中至少有一個層為 卷積層。典型的捲積 類神經網路是由下列層的幾種組合組成:

卷積類神經網路在特定領域取得了顯著的成果 例如圖片辨識

卷積運算

#image

下列兩步驟數學運算:

  1. 元素的乘積 卷積濾鏡和 輸入矩陣(輸入矩陣的區塊有相同的排名 乘以卷積濾波器大小)
  2. 產生的產品矩陣中所有值的總和。

以下列 5x5 輸入矩陣為例:

5x5 矩陣:[[128,97,53,201,198]、[35,22,25,200,195]、
          [37,24,28,197,182]、[33,28,92,195,179], [31,40,100,192,177]]。

現在,請設想以下 2x2 卷積濾波器:

2x2 矩陣:[[1, 0], [0, 1]]

每次卷積運算都包含在 輸入矩陣舉例來說,假設我們在 。這裡的捲積運算 這個切片如下所示:

在左上方套用卷積濾鏡 [[1, 0], [0, 1]]
          輸入矩陣的 2x2 區段,即 [[128,97], [35,22]]。
          卷積濾波器會保留 128 和 22 個,但保留 0
          這 97 和 35 之間的差異因此,卷積運算會產生
          的值為 150 (128+22)。

卷積層包含 一系列卷積運算,分別針對不同的片段執行 輸入矩陣

費用

loss 的同義詞。

共同訓練

半監督式學習方法 這項做法特別適用於以下情況:

共同訓練基本上能將獨立信號增強為更強的信號。 比方說,假設有一個分類模型 將個別二手車歸類為「良好」或「不良」。一組 預測特徵可著重於彙整特徵,例如年份 以及車輛的廠牌和型號另一組預測功能可能會著重 上車主的駕駛記錄和車輛的維修記錄。

共同訓練的週邊文件是將已加上標籤和未加上標籤的資料 共同訓練 Blum and Mitchell。

反事實公平性

#fairness

用於檢查分類器的公平性指標 個人會看到與另一個人相同的結果 除了與一或多個主題完全相同的使用者 敏感屬性。評估以下項目的分類器: 要找出潛在來源, 找出模型產生的偏誤

詳情請參閱以下任一資訊:

涵蓋率偏誤

#fairness

請參閱選擇偏誤

衝刺風潮

#language

意思不清楚的句子或詞組。 爆裂物的「自然」問題 語言理解程度。 舉例來說,紅色 Tape 保持摩天大樓這個標題是 NLU 模型能直接解讀標題文字 跳脫現實的框架

評論

#rl

Deep Q-Network 的同義詞。

交叉熵

對數遺失的一般化 多元分類問題。交叉熵 量化兩個機率分佈之間的差異其他參考資訊 複雜度

交叉驗證

一種用來推估模型一般 針對一或多個非重疊資料子集測試模型 從訓練集中移除。

累積分佈函式 (CDF)

這個函式可定義取樣頻率小於或等於 目標值。例如以常態分佈為模式分配值。 CDF 表示約 50% 的樣本應小於或等於 並根據平均值,約有 84% 的樣本應小於或等於 與平均值以上的一個標準差

D

資料分析

考慮樣本、測量、 和圖表資料分析特別有用 模型會先接收資料集,然後再建構第一個模型。 而對於瞭解實驗及偵錯的問題,也十分重要 以及系統

資料擴增

#image

手動增強範圍和數量 訓練範例 方法是將現有 建立其他範例的 examples。例如: 假設您其中一張 features,但您的資料集沒有 包含足夠的圖片範例,讓模型學習實用的關聯。 在理想情況下 對資料集已加上標籤的圖片,以便: 才能正確訓練模型如果不可行,資料擴增 可以旋轉、延展及反映每張圖片 可能會產生足夠的標籤資料 訓練而成

DataFrame

#fundamentals

這是一種常見的 pandas 資料類型,用於表示 記憶體中的資料集

DataFrame 類似於表格或試算表。每一欄 DataFrame 具有名稱 (標頭),且每個資料列都由 專屬號碼

DataFrame 中的每個資料欄都採用類似 2D 陣列的結構,除了 您可以為各個資料欄指派專屬資料類型。

另請參閱官方 pandas.DataFrame 參考資料 頁面

資料平行處理

擴充訓練推論的方式 將整個模型複製到 ,然後將部分輸入資料傳遞至每部裝置。 資料平行處理能在極大量的情況下進行訓練和推論 批次大小;然而,資料平行處理需要 是否足以支援各種裝置

資料平行處理通常能加快訓練和推論速度。

另請參閱模型平行處理一文。

資料集或資料集

#fundamentals

原始資料的集合,通常 (非唯一) 整理成單一項目 以下格式:

  • 試算表
  • 檔案為 CSV (逗號分隔值) 格式

Dataset API (tf.data)

#TensorFlow

用於讀取資料和和讀取資料的高階 TensorFlow API 並轉換為機器學習演算法所需的形式 tf.data.Dataset 物件代表元素序列, 每個元素都包含一或多個 Tensortf.data.Iterator 物件提供 Dataset 元素的存取權。

決策邊界

分隔符 類別 中的 model 二元類別多元分類問題。例如: 下圖表示二元分類問題 決策邊界是橘色類別和 藍色類別:

類別與另一個類別之間定義明確的界線。

Declaration Forest

#df

以多個決策樹建立的模型。 決策樹系將預測結果 決策樹決策樹相當熱門的類型包括 隨機樹系梯度增強樹木

查看決策 森林 一節。

決策門檻

分類門檻的同義詞。

決策樹狀圖

#df

監督式學習模型,由多個 以階層方式整理條件離開。 例如,以下為決策樹:

由四個條件排列的決策樹
          階層結構,最後到達 5 葉

解碼器

#language

一般來說,任何機器學習系統 透過經過處理、稠密或稠密的方式 產生更原始、稀疏或外部表示法的內部表示法。

解碼器通常是較大型模型的元件 與編碼器配對。

在「序列至序列工作中,解碼器 開頭是編碼器產生的內部狀態 序列

如要瞭解在Transformer Transformer 架構

請參閱大型語言模型

深度模型

#fundamentals

包含多個類神經網路的「類神經網路」 隱藏的圖層

深層模型又稱為「深層類神經網路」

廣角模型的對比度。

便相當熱門的

深度模型的同義詞。

深度 Q-網路 (DQN)

#rl

Q-learning 中,深層類神經網路 能夠預測 Q 函式

「Critic」是「Deep Q-Network」的同義詞。

客層對等

#fairness

符合以下條件的公平性指標: 模型的分類結果不受因素影響 輸入的敏感屬性

舉例來說,如果「 Lilliputians」和「Brbdingnagians」都適用 Glubbdubdrib University (格盧布杜比大學) 指出,如果 的 Lilliputians 所允許之百分比與布丁那吉亞人的百分比相同 允許,無論一個群組的平均效益是否較高

等數勝負機會相等, 匯總分類結果,其仰賴敏感屬性 但不允許某些指定的分類結果 真值標籤用於依據敏感屬性。詳情請見 "攻擊 運用智慧機器學習技術進行歧視」,產生深入分析結果 評估哪些方法能維持客層對等性。

請參閱「公平性:客層」 對等

雜訊

#language

自監督學習的常見做法 出現以下情況:

  1. 您會在資料集中手動新增雜訊
  2. 「模型」會嘗試移除雜訊。

去除雜訊有助於從未加上標籤的範例中學習。 原始的資料集會做為目標 label 和 做為輸入內容

某些遮蓋的語言模型會採用去除雜訊功能 如下所示:

  1. 為無標籤的句子加上雜訊, 符記
  2. 模型會嘗試預測原始符記。

稠密特徵

#fundamentals

多數或所有值都不是零的功能,通常是 浮點值的 Tensor。例如,下列 10 元素的 Tensor 較為密集,因為其中 9 個值為非零:

8 3 7 5 2 4 0 4 9 6

稀疏功能的對比。

稠密層

全連接層的同義詞。

深度

#fundamentals

類神經網路中的下列項目總和:

例如,有五個隱藏層和一個輸出層的類神經網路 深度為 6

請注意,輸入層不會 影響深度

深度可分裂卷積類神經網路 (sepCNN)

#image

卷積類神經網路 基礎架構式服務 預告, 但可將 Inception 模組換成可分離的深度模組 卷積。也稱為 Xception。

深度可分卷 (也稱為可分段卷積) 會將標準 3D 卷積轉成兩個不同的捲積運算 具備更高的運算效率:首先是深度卷積 厚度為 1 (n × n × 1),第二個為順位的捲積 長度和寬度為 1 (1 × 1 × n)。

詳情請參閱「Xception: Deep Learning with Depthwise Disparable 卷積

衍生標籤

Proxy 標籤的同義詞。

裝置

#TensorFlow
#GoogleCloud

過載的字詞具有以下兩個可能定義:

  1. 可執行 TensorFlow 工作階段的硬體類別,包括 CPU、GPU 和 TPU
  2. 使用加速器晶片訓練機器學習模型時 也就是系統實際操作系統的部分 張量嵌入。 裝置是透過加速器晶片運作。相較之下,主機 通常在 CPU 上執行

差異化隱私

在機器學習中,會以去識別化的方式保護任何機密資料 納入模型的 訓練集。這種做法 表示模型無法瞭解或記住某個 。方法是在模型期間取樣及加上雜訊 進行訓練來遮蓋個別資料點,以降低 機密訓練資料

此外,在機器學習以外,也會使用差異化隱私。例如: 數據資料學家有時會使用差異化隱私來保護個別使用者 計算不同客層的產品使用統計資料時,可保障隱私權。

維度縮減

降低用於表示特定特徵的維度數量 通常會以特徵向量表示 轉換為嵌入向量

尺寸

超載字詞具有下列任一定義:

  • Tensor 中的座標層級數量。例如:

    • 純量具有零維度例如 ["Hello"]
    • 向量有一個維度例如 [3, 5, 7, 11]
    • 矩陣有兩種維度例如 [[2, 4, 18], [5, 7, 14]]。 您可以在一維向量中明確指定特定儲存格 只用一個座標;您需要兩個座標來明確指定 特定儲存格,位於二維矩陣
  • 特徵向量中的項目數量。

  • 嵌入層中的元素數量。

直接提示

#language
#generativeAI

零樣本提示的同義詞。

離散特徵

#fundamentals

具有一組有限可能值的功能。例如: 此特徵的值可能僅為動物蔬菜礦物 離散 (或類別) 特徵。

對比連續功能

判別式模型

模型,可從以下集合中預測標籤: 更多功能。更正式的判別式模型會定義 依據特徵和特徵 weights;也就是:

p(output | features, weights)

例如,模型會預測電子郵件是否為垃圾郵件, 權重和權重便是判別式模型

絕大多數的監督式學習模型,包括分類模型 和迴歸模型都是判別式模型

生成式模型的差異。

鑑別器

判斷例子為真實或造假的系統。

或者,生成對抗程序中的子系統 也就是網路 產生器所建立的範例均是假或造假。

詳情請參閱鑑別器 請參閱 GAN 課程的內容

不同影響

#fairness

針對影響不同族群的使用者做出決定 子群組這通常是指 演算法的決策過程會大打折扣 讓部分子群組的成效較其他群組高

舉例來說,假設有一套演算法能判定 Lilliputian 的 申請小型房屋貸款的資格 標記為「不符合資格」如果對方的郵寄地址包含 郵遞區號。如果北端 Lilliputians 員工 相較於 Little-Endian Lilliputians 的郵寄地址, 所以這種演算法可能造成不同的影響

相較於不同的治療方式, 著重於細分特徵時造成的 是演算法決策流程的明確輸入內容。

獨立治療

#fairness

因式分解敏感屬性 並轉換為演算法決策流程 的人會採取不同的處理方式

例如,假設有一種演算法 判斷利普特人是否符合申請小型房屋貸款資格 提供貸款服務如果演算法使用 與 Lig-Endian 或 Little-Endian 的聯盟關係, 都是以該維度為主 採取不同處理方式

與著重於不同影響的情形相反: 演算法決策對子族群的影響 無論這些子群組是否為模型的輸入內容。

蒸餾

#generativeAI

縮減一個模型大小的程序 (稱為 「授課老師」) 轉為較小型的模型 (稱為「學生」) 和原始模型的預測結果蒸餾 較大型的模型有兩項主要優勢 模型 (教師):

  • 推論速度更快
  • 降低記憶體和能源用量

但學生的預測準確度通常不如預期 並呈現出教師預測結果

精煉能訓練學生模型,盡量減少 損失函式,以輸出內容之間的差異 學生和教師模型的預測結果

使用下列術語比較及對照蒸餾:

請參閱「大型語言模型:微調、精煉和提示」一文 工程技術

發布

值替指定值的頻率和範圍 featurelabel。 分佈情形會擷取特定值的可能性。

下圖顯示兩種不同分佈的直方圖:

  • 左邊是權力與人數的權力分配 擁有財富
  • 右側是人物人數的正常分佈情形 就是站在那高度

兩個直方圖,其中一個直方圖顯示了
          X 軸的財富和人數
          Y 軸的值大多數人的財富不多
          擁有大量財富另一個直方圖則顯示常態分佈
          x 軸高,符合該高度的人人數
          顯示在 Y 軸上大多數人都已聚集在平均值附近,

瞭解各項功能和標籤的分佈情形,可協助您判斷 將值正規化,然後偵測離群值

「非發行」這個詞組代表 或極少發生的情況例如,一張星球的圖片是 相較於由貓咪圖片組成的資料集,請避免分佈。

潛水分群法

#clustering

請參閱階層分群法

降低取樣

#image

過載的字詞可能為下列任一值:

  • 減少 才能更有效率地訓練模型例如: 先對高解析度取樣 取得解析度較低的圖片
  • 訓練比例太低,代表比例過高 類別 範例,以改善對弱勢類別的模型訓練成效。 例如,在 class-imbalanced 資料集,模型往往會深入瞭解 主要類別,但缺乏足夠資訊 少數類別。降低取樣率 平衡多數類別和少數類別的訓練量。

請參閱 Datasets:不平衡 資料集

DQN

#rl

Deep Q-Network 的縮寫,

丟棄正則化

在訓練過程中實用的正則化形式 類神經網路。丟棄正則化 在聯播網中隨機選取固定數量的廣告單元 單一梯度步驟捨棄的單位越多,越好 一般化這類似於訓練網路來模擬 規模龐大的小型網路組合。 如需完整詳細資料,請參閱 丟棄:有效防止類神經網路 過度配適

動態

#fundamentals

某些操作頻繁或持續執行, 「動態」和「線上」是機器學習技術的同義詞。 以下是機器的動態線上常見用途 學習中:

  • 動態模型 (或線上模型) 則是模型 訓練週期數
  • 動態訓練 (或線上訓練) 是訓練程序 更新頻率相當高
  • 動態推論 (或線上推論) 是 如何視需求產生預測結果

動態模型

#fundamentals

頻繁 (可能還會持續) 的模型 重新訓練動態模型是「終身學習者」並 不斷適應不斷變化的資料動態模型又稱為 線上模型

靜態模型的對比。

E

Eager Execution

#TensorFlow

用於作業的 TensorFlow 程式設計環境 執行。相反地,在 圖形執行只會在明確表示執行後才會執行 。Eager Execution 命令式介面 就像大部分程式設計語言的程式碼一樣積極執行程式 通常比圖形執行程式更容易偵錯。

提早中止訓練

#fundamentals

正則化的方法,包括 在訓練損失完成 之前訓練 下降中。在提早停止訓練時,您會刻意停止訓練模型 驗證資料集開始損失 increase;也就是 一般化效能會降低,

地球移動器的距離 (EMD)

評估兩個分佈的相對相似度。 地球移動器的距離越低,分佈就越相似。

編輯距離

#language

測量兩個文字字串彼此相似程度的測量結果。 在機器學習中,編輯距離是很實用的做法 ,並有效比較兩個已知且 或找出與指定字串類似的字串

編輯距離有幾種定義,每個欄位分別使用不同的字串 作業。舉例來說, Levenshtein 距離 會考量最少的刪除、插入和替代作業

例如「Heart」字詞之間的 Levenshtein 距離和「飛鏢」 是 3,因為後續 3 次修改是轉化成一個字的最少 複製到另一個:

  1. Heart → deart (以「d」取代「h」)
  2. deart → dart (刪除「e」)
  3. 飛鏢 → 飛鏢 (輸入「s」)

假設符號

一種有效率的標記法,說明何謂兩個張量 結合。系統會將張量乘以一個張量的元素 然後加總其他張量的元素 假設標記法使用符號識別每個張量的軸, 相同符號也重新安排,以指定新產生的張量的形狀。

NumPy 提供常見的 Einsum 實作,

嵌入層

#language
#fundamentals

特殊隱藏層,可在 高維度類別特徵 會逐漸學習較低維度的嵌入向量一個 嵌入層可讓類神經網路 比單純訓練高維度類別特徵來得有效率

舉例來說,Google 地球目前大約支援 73,000 種樹木。假設 樹種是模型中的特徵, 輸入層包括一個 one-hot 向量 73,000 個元素。 例如,也許 baobab 應表示如下:

包含 73,000 個元素的陣列。前 6,232 個元素保有價值
     0.下一個元素包含值 1。最終的 66,767 個元素
     並將值設為零

73,000 元素的陣列太長。如未新增嵌入層 因此訓練非常耗時 乘以 72,999 個零您可以選擇要納入的嵌入層 12 個維度因此嵌入層會逐漸學習 為各個樹種建立全新的嵌入向量

在某些情況下,雜湊處理是合理的替代方案 加入嵌入層

請參閱「嵌入」一節 。

嵌入空間

#language

來自較高維度的 DD 向量空間 對應至向量空間在理想情況下,嵌入空間會包含 產生有意義的數學結果例如 在理想的嵌入空間中,加上加減法 就能完成文字類比任務

內積產品 是兩個嵌入的相似度。

嵌入向量

#language

大致上來說,這是從任何值中擷取的浮點數陣列 隱藏層,用於描述該隱藏層的輸入內容。 通常,嵌入向量是由 包括嵌入層舉例來說,假設嵌入層必須學習 為地球上 73,000 棵樹 1 個嵌入向量。或許是 下列陣列是麵包樹的嵌入向量:

12 個元素的陣列,每個元素都有一個浮點數
          介於 0.0 和 1.0 之間

嵌入向量並非隨機數字。嵌入層 透過訓練決定這些值 類神經網路會在訓練過程中學習其他權重該元件的每個元素 是樹木物種特定特性的評分模型哪一個? 元素代表特性?這太難了 以便人類判斷

以數學向量來說 項目的浮點數集合相近。例如 樹類物種的浮點數會比 不同的樹種紅木和紅杉是相關的樹種 因此會擁有一組比浮點數更相似的浮點數 紅木和椰子棕櫚樹嵌入向量的數字 每次重新訓練模型時都要變更 輸出的內容

經驗累積分佈函式 (eCDF 或 EDF)

累積分佈函式 以真實資料集的實驗測量結果為依據。如果 函式是資料在 X 軸上任何一點 小於或等於指定值的資料集。

經驗風險最小化 (ERM)

選擇可將訓練集減至最低的函式。對比度 培養結構風險最小化

編碼器

#language

一般而言,任何機器學習系統 可從原始、稀疏或外部 會以較經過處理、較密集或較內部的方式呈現。

編碼器通常是較大型模型的元件,且常用於 與解碼器配對。部分轉換器 將編碼器與解碼器配對,但其他 Transformer 只會使用編碼器 或只用解碼器

部分系統會使用編碼器的輸出內容做為分類或分類的輸入內容 迴歸網路

在「序列至序列工作中,編碼器 會接收輸入序列,並傳回內部狀態 (向量)。接著, 解碼器會使用內部狀態預測下一個序列。

請參閱Transformer,瞭解 Transformer 架構

請參閱 LLM:什麼是大型語言模型? 模型

集成

一系列獨立訓練的模型,且預測結果 是平均值或匯總值在許多情況下,整體能 而非單一模型舉例來說 隨機森林是由多個 決策樹。請注意 決策樹系是聚合物。

請參閱隨機 森林

#df

資訊理論 說明無法預測的可能性 那就是:另一方面,熵的定義也是指 (每個範例所含的資訊)。發布版本具有 當隨機變數的所有值都達到 則可能性居高不下

集合包含兩個可能值「0」的集合和「1」(例如 二進位分類問題中的標籤) 公式如下:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」的分數範例。
  • q 是「0」內的分數範例。請注意,q = (1 - p)
  • log 通常是記錄2。在這個例子中,熵 有點複雜

舉例來說,假設:

  • 100 個範例包含值「1」
  • 300 例包含「0」這個值

因此,熵值為:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每個範例 0.81 位元

非常平衡的組合 (例如,200「0」和 200「1」) 每個範例都有 1.0 位元的熵組合愈多 不平衡,其熵已轉向 0.0。

「決策樹」中,熵可協助制定公式 取得資訊 Splitter 選取 conditions 但在分類決策樹狀圖的發展過程中

比較熵:

熵通常稱為「香農的熵」

請參閱使用數值二元分類的確切分割器 功能

環境

#rl

在強化學習中,含有代理程式的世界 並允許代理程式觀察世界的狀態。例如: 可能是西洋棋等實體世界 迷宮代理程式對環境套用動作時, 那麼環境就會在狀態之間轉換

劇集

#rl

在強化學習中,每位攻擊者都會反覆嘗試 代理程式瞭解環境

Epoch 紀元時間

#fundamentals

完整的訓練內含完整訓練集 確保每個範例都處理過一次。

週期代表 N/批量 訓練 iterations,其中 N 是 範例總數。

舉例來說,假設:

  • 資料集包含 1,000 個範例。
  • 批量為 50 個範例。

因此,在單一週期內,必須疊代 20 次:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

請參閱線性迴歸: 超參數

Epsilon 貪婪政策

#rl

在強化學習中,一項政策必須遵循 隨機政策,包含 Epsilon 機率或 在其他情況下則是貪婪政策。例如,如果 Epsilon 是 0.9,則政策遵循隨機政策,且有 90% 的時間採用貪婪 10% 的時間套用政策

若是連續的集數,這個演算法會依序降低 Epsilon 的值 改變是採取隨機政策,轉向遵循貪婪政策。變更者: 改變政策時,代理程式會先隨機探索環境 然後實地入侵隨機探索的結果

機會平等

#fairness

評估模型是否符合需求的公平性指標 對所有值 敏感屬性。也就是說 模型的理想結果是「肯定類別」, 而是將真陽率是 設定。

機會平等與等號平均數有關, 因此必須「同時」取得真陽率和 所有群組的偽陽率都相同。

假設古盧布杜布德里大學 (Lilliputians and Brobdingnagians) 皆承認了利普斯敦大學 實行嚴謹的數學程式利利普特人中學 完善的數學課程,而且絕大多數的學生 符合大學計畫的參與資格兄弟會中學 所以幾乎是提供數學課的學生人數 資格。符合偏好的標籤 「已允許」(與國籍相關) 不論學生是否參加本競賽,都有機會成為合格學生 他們是賴利普特人或兄弟弟姊妹

舉例來說,假設有 100 位 Lilliputians 和 100 Brobdingnagians 適用於 格盧布杜比布大學 (Glubbdubdrib University) 及其招生決策方法如下:

表 1. 利利普特人 (90% 符合資格)

  晉級 不合格
已允許 45 3
已拒絕 45 7
總計 90 10
合格學生佔比:45/90 = 50%
不符資格的學生百分比:7/10 = 70%
承受的立陶宛學生佔比:(45+3)/100 = 48%

 

表 2. 英國境內的申請者 (10% 符合資格):

  晉級 不合格
已允許 5 9
已拒絕 5 81
總計 10 90
合格學生佔比:5/10 = 50%
不符資格的學生百分比:81/90 = 90%
布丁那基學生入學的總學生百分比:(5+9)/100 = 14%

前述例子滿足了接受接受條款的機會, 因為符合資格的 Lilliputians 和 Brobdingnagians 有 50% 的機率會獲得允許

雖然享有機會平等,但下列兩項公平性指標 不符合要求:

  • 客層對等性:利利普特人和 兄弟姊妹在大學入學時,分屬比例各異; 48% 的 Lilliputians 學生可參加課程,但僅佔 14% 可參加英國兄弟會 (Bubdingnagian) 學生認可。
  • 等值機率:雖然符合資格的 Lilliputian 不相上下 和兄弟弟姊妹在接受指導時 與不合格 Lilliputians 合作 兄弟姊妹都會遭到拒絕 滿意不符資格的 Lilliputian 的拒絕率為 70%, 不合格的 Brobdingnagians 拒絕率為 90%。

請參閱公平性:平等 商機

等值勝率

#fairness

評估模型是否公平預測結果的公平性指標 敏感屬性的所有值都同樣適用於 有關正向類別負面類別:不只是單一類別或其他類別 。也就是真陽率偽陰性率應相同 所有群組。

均等值與下列項目有關 機會平等: 提高單一類別的錯誤率 (陽性或負數)。

舉例來說,假設格魯布杜布德里大學 (Lilliputians) 和 育有高難度的數學程式。利利普特人次要 學校提供完善的數學課程,而且絕大多數 學生即符合大學學程資格。兄弟會次要 而且所有學校都不提供數學課 才能符合學生認證資格如果不符合 不論申請人是利利普特人還是兄弟會 符合計畫資格,他們就同樣有可能加入計畫 但如果不符合這些資格,則遭到拒絕的機率也同樣可能提高。

假設有 100 位利普特人和 100 位兄弟姊妹提出申請 大學入學及招生決策決定如下:

表 3. 利利普特人 (90% 符合資格)

  晉級 不合格
已允許 45 2
已拒絕 45 8
總計 90 10
合格學生佔比:45/90 = 50%
不符資格的學生百分比:8/10 = 80%
承受的立陶宛學生佔比:(45+2)/100 = 47%

 

表 4. 英國境內的申請者 (10% 符合資格):

  晉級 不合格
已允許 5 18
已拒絕 5 72
總計 10 90
合格學生佔比:5/10 = 50%
不符資格的學生百分比:72/90 = 80%
布丁那基學生入學的總學生百分比:(5+18)/100 = 23%

由於合格的利普特人和兄弟弟姊妹會同意均等的勝率 學生會有 50% 入會,且不符資格的 Lilliputian 和 Brobdingnagian 獲得拒絕的機率 是 80%

均等值的正式定義 "相等 「Opportunity in Supervised Learning」的訊息如下: "預測者 → 能夠滿足平等的賠率 這兩個結果是獨立的屬性 A 和結果 Y 之間 (如果 nginx 和 A 各自獨立)。 是條件之一。」

Estimator

#TensorFlow

已淘汰的 TensorFlow API。請改用 tf.keras 估算器數量

Evals

#language
#generativeAI

主要做為 LLM 評估作業的縮寫, 廣泛來說,evals 是任何形式的縮寫 評估

評估版

#language
#generativeAI

評估模型品質或比較不同模型的程序 互相對抗

如要評估監督式機器學習 通常您會根據驗證集進行判斷 和測試集評估 LLM 通常涉及更廣泛的品質與安全評估

範例

#fundamentals

features 其中一列的值,但有可能 標籤。範例 監督式學習可分為兩種 一般類別:

例如,假設您正在訓練模型,藉此判斷影響 顯示學生測驗成績的天氣狀況。以下是三個加上標籤的範例:

功能 標籤
溫度 溼度 氣壓 測驗分數
15 47 998 不錯
19 34 1020 極佳
18 92 1012 不佳

以下提供三個未加上標籤的範例:

溫度 溼度 氣壓  
12 62 1014  
21 47 1017  
19 41 1021  

例如,資料集的資料列通常是原始來源。 也就是說,範例通常由資料欄的 此外,範例中的功能可能還包括 合成功能,例如 跨項目

請參閱監督式學習: 請參閱「機器學習簡介」課程

體驗重播

#rl

在強化學習中,DQN 技術用於 可減少訓練資料中的時間相關性代理程式 會在重播緩衝區中儲存狀態轉換,然後 樣本會從重播緩衝區轉換,以建立訓練資料。

實驗者偏誤

#fairness

請參閱「確認偏誤」一節。

爆炸漸層問題

#seq

「梯度」的傾向 「深層類神經網路」 (尤其是 循環類神經網路) 就會造成意外的陡降 (高)。陡降的梯度通常會造成極大的更新 是值區內每個節點權重 深層類神經網路

出現爆破梯度問題的模型變得困難 或是無法訓練漸層裁剪 才能解決這個問題

消失漸層問題相比。

F

F1

「綜覽」「二元分類」指標 必須同時採用精確度喚回度。 公式如下:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

舉例來說,假設有以下項目:

  • 精確度 = 0.6
  • 喚回度 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

如果精確度和喚回度相近 (如上例所示), F1 接近其平均值。精確度和喚回度不同時 明顯,F1 會更接近較低的值。例如:

  • 精確度 = 0.9
  • 喚回度 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性限制

#fairness
將限制套用至演算法,確保一或多個定義 確保公正性公平性限制的例子包括:

公平性指標

#fairness

「公平性」的數學定義可衡量 一些常用的公平性指標包括:

許多公平性指標互斥;看 公平性指標不相容

偽陰性 (FN)

#fundamentals

以下例子:模型誤將 排除類別。例如 預測特定電子郵件不是垃圾郵件 (排除類別),但該電子郵件確實為垃圾郵件

偽陰率

模型發生錯誤的實際陽性樣本比例 預測出負類以下公式計算了 負率:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

請參閱門檻與混淆 矩陣

偽陽性 (FP)

#fundamentals

以下例子:模型誤將 「正面類別」。舉例來說,模型會預測 特定電子郵件是垃圾郵件 (正類),但這種現象 電子郵件不是垃圾郵件

請參閱門檻與混淆 矩陣

偽陽率 (FPR)

#fundamentals

模型未正確排除的實際排除樣本比例 預測出的陽性類別以下公式計算了 正值:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽率是指 ROC 曲線中的 X 軸。

請參閱分類:ROC 和 AUC

功能

#fundamentals

機器學習模型的輸入變數。範例 由一個或多個功能組成。舉例來說,假設您要訓練一個 模型判斷天氣狀況對學生測驗分數的影響。 以下表格列出三個範例,每個範例都含有 三個功能及一個標籤

功能 標籤
溫度 溼度 氣壓 測驗分數
15 47 998 92
19 34 1020 84
18 92 1012 87

標籤的對比度。

請參閱「監督式學習」 請參閱「機器學習簡介」課程

交錯組合特徵

#fundamentals

由「交叉比對」組成的合成特徵 分類統計值區特徵。

舉例來說,你可以考慮使用 「心情預測」代表的是 溫度從以下四個區間之一:

  • freezing
  • chilly
  • temperate
  • warm

並且以下列三個區間之一表示風速:

  • still
  • light
  • windy

如果沒有交錯組合,線性模型會在各個 測試前 7 個不同的值區舉例來說 freezing,而且不受訓練內容的影響,例如: windy

或是建立跨隨機性參數 風速這項合成功能提供下列 12 個可能 值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

多功能交叉性功能,可讓模型學習情緒差異 介於 freezing-windy 天到 freezing-still 天之間。

如果你透過兩個特徵建立合成功能,且兩者俱備 因此產生的特徵交錯組合就會有龐大的數量 組合起來。舉例來說,如果某個特徵有 1,000 個值區 另一個特徵有 2,000 個值區,因此交叉特徵會達到 2,000,000 Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區

正式上來說 笛卡兒產品

特徵交錯組合最常搭配線性模型使用,而且很少使用 這種模型會使用類神經網路

請參閱類別資料:功能 十字架

特徵工程

#fundamentals
#TensorFlow

這項程序包含下列步驟:

  1. 判斷哪些功能可能很實用 訓練模型
  2. 將資料集的原始資料轉換為有效的版本 這些特徵的相對重要性

舉例來說,您可能會判定 temperature 可能很實用 而不是每個特徵的分數接著,您可以嘗試特徵分塊實驗 ,讓模型從不同的 temperature 範圍內學習到的內容,達到最佳成效。

特徵工程有時也稱為 擷取功能「特徵化」

請參閱數值資料:模型如何使用特徵擷取資料 向量

擷取特徵

具有下列其中一項定義的過載字詞:

特徵重要性

#df

變數重要性的同義詞。

特徵集

#fundamentals

用來機器學習的一組功能 模型用於訓練。 舉例來說,郵遞區號、屬性大小和屬性條件 包含一個簡單的特徵組合,用於預測房價的模型。

特徵規格

#TensorFlow

說明擷取功能資料所需的資訊 來自 tf.Example 通訊協定緩衝區。由於 tf.Example 通訊協定緩衝區只是資料的容器,您必須指定 包括:

  • 要擷取的資料 (也就是特徵的鍵)
  • 資料類型 (例如浮點或 int)
  • 長度 (固定或可變動)

特徵向量

#fundamentals

feature 值陣列構成 範例。特徵向量 訓練推論。 例如,模型的特徵向量具有兩個獨立特徵 可以是:

[0.92, 0.56]

四個圖層:一個輸入層、兩個隱藏層,以及一個輸出層。
          輸入層包含兩個節點,其中一個包含
          0.92 和另一個包含 0.56 的值。

每個範例會為特徵向量提供不同的值,因此 下一個範例的特徵向量如下:

[0.73, 0.49]

特徵工程會決定如何呈現 建立特徵向量的功能例如,帶有以下字詞的二元類別特徵 五個可能的值 one-hot 編碼。在這個範例中, 這個範例的特徵向量是含有 4 個 0 一個 1.0 的值,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再舉一個例子,假設您的模型包含三個特徵:

  • 二元類別特徵,其中有 5 個可能的值,以 one-hot 編碼;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一個二元類別特徵,含 3 個可能的值。 採用 one-hot 編碼;例如:[0.0, 0.0, 1.0]
  • 浮點功能;例如:8.3

在本例中,每個範例的特徵向量 除以 9 值以上述清單中的範例值來說, 特徵向量如下:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

請參閱數值資料:模型如何使用特徵擷取資料 向量

特徵化

從輸入來源擷取特徵的程序。 並將這些功能對應到 特徵向量

部分機器學習專家會將特徵化做為 特徵工程擷取功能

聯合學習

分散式機器學習方法可訓練 使用去中心化的機器學習模型 智慧型手機等裝置上顯示的例子。 在聯合學習中,部分裝置會下載目前的模型 透過中央協調伺服器取用裝置會使用儲存的樣本 改進模型成效之後將上傳資料的裝置 如何改善模型的表現 (但不是訓練範例) 再與其他更新彙整在一起 全域模型匯總完成後,模型就會更新由裝置計算的結果 並予以捨棄

由於訓練範例一律不會上傳,因此聯合學習會遵循 隱私權原則:資料收集和資料最小化原則。

如要進一步瞭解聯合學習 請參閱這個教學課程

回饋循環

#fundamentals

在機器學習中,模型的預測會影響 搭配相同模型或其他模型的訓練資料例如,模型 系統推薦電影 之後,人們觀賞的電影 影響後續的電影推薦模型

參閱實際工作環境機器學習系統:問題 提問

前饋類神經網路 (FFN)

不含循環或遞迴連線的類神經網路。例如: 傳統的深層類神經網路 前饋類神經網路對比循環類神經 網路,也就是循環

少量樣本學習

採用機器學習技術,通常用於物件分類 僅透過一小部分內容訓練有效的分類器 訓練樣本

另請參閱單樣本學習零樣本學習

少量樣本提示

#language
#generativeAI

包含多個提示 (「少數」) 的範例 示範大型語言模型 回應。舉例來說, 顯示大型語言模型如何回答查詢的範例。

單一提示的組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:EUR 我們來看個個例子
英國:GBP 另一個例子
印度: 實際查詢。

少量樣本提示產生的結果通常比 零樣本提示單樣本提示。不過,少量樣本提示 就需要較長的提示

少量樣本提示是少量樣本學習的形式 適用於提示式學習

詳情請參閱提示 工程技術

小提琴

#language

以 Python 優先的設定程式庫,目的是設定 完全不需要侵入式程式碼或基礎架構。 以 Pax 和其他機器學習程式碼集來說,這類函式和 類別代表模型訓練 「超參數」

小提琴 假設機器學習程式碼集通常分為:

  • 程式庫程式碼,可定義圖層和最佳化器。
  • 資料集「glue」程式碼,用於呼叫程式庫並將所有內容連接在一起。

Fiddle 會在未評估的 可變動的形式

微調

#language
#image
#generativeAI

並在 預先訓練模型來修正參數 特定用途舉例來說 大型語言模型的運作方式如下:

  1. 預先訓練:使用龐大的「一般」資料集訓練大型語言模型。 例如所有英文的 Wikipedia 網頁
  2. 微調:訓練預先訓練模型來執行「特定」工作。 例如回應醫療查詢微調通常包括 或成千上萬個以特定工作為主的範例。

再舉一個例子,大型圖片模型的完整訓練序列是 如下:

  1. 預先訓練:使用龐大一般圖片訓練大型圖片模型 例如 Wikimedia Commons 的所有圖片
  2. 微調:訓練預先訓練模型來執行「特定」工作。 例如產生虎鯨的圖片

微調功能可以將下列策略組合搭配運用:

  • 修改「所有」預先訓練模型的現有模型 參數。這有時也稱為「完整微調」
  • 只修改部分預先訓練模型的現有參數 (通常是最接近輸出層的層)。 同時保留其他現有參數 (通常為 最接近輸入層)。詳情請見 具參數運用效率的調整作業
  • 新增更多圖層,通常是在最靠近 輸出層

微調是遷移學習的一種方式, 因此,微調可能會使用不同的損失函式或不同的模型 而不是用於訓練預先訓練模型的類型例如,您可以 微調預先訓練的大型圖片模型,產生迴歸模型 會傳回輸入圖片中的鳥類數量。

下列詞彙的比較及對比:

請參閱微調相關說明 。

亞麻色

#language

高效能的開放原始碼 程式庫JAX 為基礎建構的深度學習技術。Flax 提供函式 適用於訓練 類神經網路 評估廣告成效

Flaxformer

#language

開放原始碼 Transformer library 建構於 Flax,主要用於自然語言處理 以及多模態研究

忘記大門

#seq

長期記憶體的一部分 儲存格,規範儲存格中的資訊流動。 決定要捨棄的資訊,讓閘門保持背景資訊 而非儲存格狀態

完整 softmax

softmax 的同義詞。

候選抽樣比較。

全連接層

隱藏層,其中每個節點是 會連線至後續隱藏層中的每個節點。

完全連接的圖層又稱為密集層

函式轉換

將函式做為輸入並傳回轉換後的函式的函式 做為輸出內容JAX 使用函式轉換。

G

GAN

生成對抗模型的縮寫 網路

一般化

#fundamentals

模型對新的、 先前未顯示的資料可一般化的模型則相反 過度配適的模型

Gemini

#language
#image
#generativeAI

集結 Google 最先進 AI 技術的生態系統。這個生態系統的要素 包括:

,瞭解如何調查及移除這項存取權。

Gemini 模型

#language
#image
#generativeAI

Google 最先進的 Transformer 技術 多模態模型:具體來說 與代理程式整合的設計。

使用者可以透過多種方式與 Gemini 模型互動,包括: 還是透過 SDK 建立互動式對話方塊

一般化曲線

#fundamentals

訓練損失驗證損失疊代

一般化曲線可協助您 過度配適。例如,下列 一般化曲線指出過度配適是因為驗證損失 最終遠大於訓練損失。

以購物車圖為例,Y 軸表示損失,X 軸
          已標記為「疊代」畫面上會出現兩張圖。一張圖表顯示
          分別代表訓練損失及驗證損失
          這兩份圖表一開始看起來很類似,但訓練損失最終會
          低點則遠低於驗證損失。

一般線性模型

最小平方迴歸的一般化 基礎模型 高斯文 雜音 和其他類型的雜訊 波松噪音 或 類別雜訊一般化線性模型的範例包括:

您可以透過 對話最佳化

一般線性模型具有下列屬性:

  • 最佳最小平方迴歸模型的平均預測結果為 等於訓練資料的平均標籤
  • 最佳邏輯迴歸預測的平均機率 等於訓練資料的平均標籤

一般化線性模型的威力受到其特徵限制。取消喜歡 一般化線性模型無法「學習新功能」

生成對抗網路 (GAN)

一種系統建立新資料,由產生器在當中建立 資料和鑑別器會判斷 建立的資料無效或無效。

生成式 AI

#language
#image
#generativeAI

沒有正式定義的新興轉換欄位。 不過,多數專家都認同生成式 AI 模型可以 建立 (「產生」) 符合下列所有條件的內容:

  • 複雜
  • 連貫性
  • 原始圖片

例如生成式 AI 模型 文章或圖片

某些早期技術,包括 LSTMsRNN 也能產生 連貫的內容部分專家認為這些早期技術是 有些人則認為,真正的生成式 AI 需要更複雜 這些模型產生的輸出內容會比早期技術

預測式機器學習相反。

生成式模型

具體來說,模型可以執行下列作業之一:

  • 從訓練資料集建立 (產生) 新範例。 舉例來說,生成式模型可能會在訓練完成後 詩詞資料集產生器部分 生成對抗網路 就屬於這個類別
  • 判斷新樣本來自 訓練集,或沿用先前建立的機制 訓練集舉例來說 生成式模型則由英文語句組成 判斷新輸入內容是有效英文語句的機率。

生成式模型理論上可判斷範例的分佈情形 或資料集的特定特徵也就是:

p(examples)

非監督式學習模型皆為生成式模型

判別模型相比。

產生器

生成對抗模型內的子系統 網路 建立新的範例

歧視模型相反。

奇異無敵

#df

entropy 的指標類似。分割器 使用來自 Gini 不盡或熵的值 分類的條件 決策樹資訊獲利是源自熵。 沒有普遍接受的指標 原汁原味但這類未命名指標 資訊增加

原住民也稱為「gini index」,或簡稱「gini」

黃金資料集

一組手動收錄的資料,用來擷取真值。 團隊可以使用一或多個黃金資料集來評估模型品質。

有些黃金資料集會擷取不同的基準真相。例如: 圖片分類的黃金資料集可能會捕捉到光線條件 以及圖片解析度

GPT (生成式預先訓練 Transformer)

#language

Transformer 為基礎 由 Google 開發的大型語言模型 OpenAI

GPT 變化版本可適用於多種模式,包括:

  • 圖像生成 (例如 ImageGPT)
  • 生成文字轉圖片 (例如 DALL-E)。

gradient

部分導數的向量 所有自變數在機器學習技術中 模型函數部分導數的向量漸層點 朝最陡峭的方向移動

梯度累積

反向傳播技術, 每個訓練週期只會使用一次參數,而非每個週期一次 處理每個迷你批次後,漸層 累計僅會更新梯度的執行總數。然後,在 處理週期中最後一個迷你批次時,系統會最終更新 根據所有漸層變更的總數來計算參數。

批量為 因此遠大於訓練用記憶體容量 當記憶體有問題時,自然傾向於縮減批次大小。 然而,在正常反向傳播的情況下降低批次大小增加 參數更新次數採用梯度累計功能可啟用模型 才能避免記憶體問題,同時仍可有效率地訓練

梯度提升 (決策) 樹 (GBT)

#df

一種決策樹系,其中:

梯度提升

#df

一種訓練演算法,其中較弱的模型反覆接受訓練 改善強大模型的品質 (降低損失)。例如: 弱模型可能是線性或小型的決策樹狀圖 高強度模型會成為先前訓練所有低強度模型的總和。

在最簡單的梯度增強中,每次疊代時,較弱的模型 模型經過訓練,可預測高強度模型的損失梯度接著, 將預測的漸層減去 類似梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 是初始的強大模式。
  • $F_{i+1}$ 是下一個功能強大的模型,
  • $F_{i}$ 是目前強大的模型。
  • $\xi$ 是一個介於 0.0 和 1.0 之間的值,稱為「shrinkage」。 類似於 學習率: 梯度下降法
  • $f_{i}$ 是經過訓練的弱模型,用來預測 $F_{i}$。

梯度增強的新型變化版本也包括 (Hessian) 導入作業的損失。

決策樹經常用來做為 以及梯度提升詳情請見 梯度提升 (決策) 樹狀圖

漸層裁剪

#seq

為降低 以人為方式爆炸漸層問題 限制 (裁剪) 使用 梯度下降法訓練模型。

梯度下降法

#fundamentals

盡可能減少損失的數學技巧。 漸進式下降法 權重偏誤、 逐漸找出最佳組合,將損失降到最低。

梯度下降法比機器學習更舊,比機器學習更舊。

圖表

#TensorFlow

TensorFlow 的運算規格圖表中的節點 代表作業邊緣會指示並代表傳遞結果 是作業 (Tensor) 其他作業。使用 TensorBoard 以視覺化方式呈現圖表。

Graph Execution

#TensorFlow

由程式最初建構的 TensorFlow 程式設計環境 圖表,然後執行該圖表的所有或部分資料。圖表 執行作業是 TensorFlow 1.x 中的預設執行模式。

執行式執行相比。

貪婪政策

#rl

在強化學習中,政策一律會選擇 動作應最高的退貨

基準真相

#fundamentals

實際發生的情形。

比方說,請考慮使用二元分類 預測學生是否攻讀大學 會在六年內升級這個模型的真值 而不是實際上在六年內畢業

團體歸因偏誤

#fairness

假設個人對個人而言都是如此 加入該群組團體歸因偏誤的影響可能會更加嚴重 如果是便利取樣 用於資料收集在無代表性的樣本中,歸因 可能無法反映實際情況

另請參閱外部同質性偏誤。 和群組內偏誤

H

幻覺

#language

產生的看似合理,但輸出內容與事實不符 生成式 AI 模型 對現實世界的聲明 舉例來說,生成式 AI 模型宣稱歐巴馬在 1865 年過世 減碳

雜湊

在機器學習中,這是特徵分塊的機制 類別型資料,特別是在 類別數量很多,但實際顯示的類別數量 就會相當小

舉例來說,地球是大約 73,000 種樹種的家園。您可以 在 73,000 個不同分類法中分別呈現 73,000 種樹木 Cloud Storage 也提供目錄同步處理功能 方便您同步處理 VM 目錄與值區另外,如果只有 200 種植物 就可以使用雜湊將樹木物種劃分成 大約 500 個值區

一個值區可以包含多個樹種。例如雜湊處理 可能會放置「baobab」和「紅色對映」,但兩者的基因互不相似 複製到同一個值區無論如何,雜湊處理仍是 將大型類別集對應至所選數量的值區。雜湊有助於 類別特徵具有大量可能的值 也可以將多個值分組 確定性

經驗法則

以簡單快速的方式解決問題。例如: 「採用經驗法則,我們的準確率高達 86%。當我們改用 深層類神經網路的準確率提升了 98%。」

隱藏層

#fundamentals

「類神經網路」中的一層 輸入層 (特徵) 和 「輸出層」 (預測結果)。 每個隱藏層都含有一或多個「神經元」。 例如,下列類神經網路包含兩個隱藏層 第一個包含三個神經元,第二個則帶有兩個神經元:

四層。第一個層是輸入層
          接著介紹網際網路通訊層
包括兩項主要的安全防護功能第二層是隱藏層
          神經元第三層是隱藏層
          神經元第四層是輸出層每項地圖項目
          包含三個邊緣,每個邊緣分別指向不同的神經元
          指定初始層第二層中的每個神經元
          包含兩個邊緣,每個邊緣分別指向不同的神經元
          第三層的結構第三層中的每個神經元
          一個邊緣,每個邊緣都指向輸出層

深層類神經網路包含多個 隱藏層舉例來說,上圖是深層類神經網路的 因為模型包含兩個隱藏層

階層分群

#clustering

用來建立樹狀結構的「叢集」演算法類別 叢集階層分群法非常適合階層式資料 例如植物分類階層有兩種 分群演算法:

  • 聚合式分群法會先將每個範例指派給自己的叢集 反覆合併最近的叢集 。
  • 多元分群法會先將所有範例分入一個叢集, 反覆將叢集分割為階層式樹狀結構

群集型分群法的對比。

轉軸損失

一系列的 loss 函式 分類能找出 盡可能遠離決策界線 每個訓練示例中的字詞 因此,將範例與邊界之間的邊界最大化。 KSVM 使用轉軸損失或相關函式,例如 平方轉軸損失)。以二元分類來說,轉軸損失函式 定義如下:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 為實際標籤 (-1 或 +1),y' 則是原始輸出 部分分類:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此,轉軸損失與 (y * y') 的走勢圖如下所示:

由兩個已連接的線段組成的笛卡兒圖。第一個
          線段從 (-3, 4) 開始,並在 (1, 0) 結束。第二行
          區隔從 (1, 0) 開始,並以斜率無限期持續
          值。

歷史偏見

#fairness

世界上存在且已改變的偏誤 傳入資料集這類偏誤往往會反映現有的 文化刻板印象、人口不平等和對特定偏見 社群群組。

比方說,假設有一個分類模型 預測貸款申請人是否會預設貸款 1980 年代當地銀行的歷史貸款預設資料 更是如此如果社群 A 的申請者 比其他社群成員多 6 倍 預設貸款金額,可能會低於社群 B 的申請者 可能因此學習到歷來偏誤,導致模型降低 核准社區 A 貸款, 預設費率已不適用

保留資料

訓練期間刻意不使用 (「刻意保留」) 的範例驗證資料集測試資料集是保留資料的例子。保留資料 有助於評估模型對資料進行一般化處理的能力 多種資料來訓練保留組合上的損失可改善 未知資料集的損失估計值高於 訓練集

主機

#TensorFlow
#GoogleCloud

使用加速器晶片訓練機器學習模型時 (GPU 或 TPU),是系統的一部分 同時可控管下列事項:

  • 程式碼的整體流程。
  • 輸入管道的擷取及轉換。

主機一般是在 CPU 上執行,而非加速晶片;這個 device 操控裝置上的張量 加速器晶片

超參數

#fundamentals

您或超參數調整服務的變數 在連續執行模型時調整例如: 「學習率是超參數。您可以 先將學習率設為 0.01,再進行訓練課程如果發生以下情況: 假設 0.01 過高 下個單元的學習分數為 0.003

相較之下,參數是各種 模型的權重偏誤 會在訓練過程中學習

超平面

將空格分隔成兩個子空格的界線。例如,一行是 平面上有兩個維度,平面是三個維度的超平面 水平面圖更常見於機器學習 太空船使用核心支援向量機器 超平面可將正類別與負面類別分開,通常在 太空船

I

i.i.d.

獨立且均勻分佈的縮寫,

圖片辨識

#image

分類圖片中物件、圖案或概念的程序。 圖片辨識也稱為「圖片分類」

若需更多資訊,請參閲 ML Practicum:圖片分類

不平衡資料集

class-imbalanced 資料集的同義詞。

隱性偏誤

#fairness

自動建立關聯或假設 模型和記憶隱性偏誤可能會影響下列事項:

  • 資料的收集和分類方式。
  • 機器學習系統的設計與開發方式。

例如建立分類器來識別婚禮相片時 工程師可在相片中呈現白色洋裝,以視為地圖項目。 不過,白色洋裝只有在特定年代才有 特定文化中的重大知識

另請參閱「確認偏誤

插補

短形式的值計算

公平性指標不相容

#fairness

某些公平性的概念互不相容, 無法同時滿足因此 用於量化公平性的通用指標 可套用至所有機器學習問題

雖說這個做法可能令人感到不適,但公平性指標也不相容 不表示公平性努力是無庸置疑的。而是建議 每個機器學習問題都必須根據背景定義公平性 目標是防止特定用途遭受危害。

請參閱 (即「可能性」的可能性),進一步瞭解這個主題。

情境學習

#language
#generativeAI

少量樣本提示的同義詞。

獨立且均勻分佈 (i.i.d)

#fundamentals

從未改變的分佈情形取得的資料,以及每個值 繪製的性質不受先前繪製的值影響。是 i.i.d。 理想氣體 機器 學習—實用的數學結構,但幾乎永遠找不到 實際體驗例如網頁訪客的分佈情形 可以是 i.i.d。縮短時間也就是說 並在短暫的時間內產生變化 相互獨立但若您延長這段時間 兩個不同版本的網頁訪客

另請參閱非期待性

個人公平性

#fairness

檢查類似個人是否歸類的公平性指標 舉例來說,Brabdingnagian Academy 希望滿足這些需求 確保兩位年級相同的學生 且標準化的測驗成績同樣有可能獲得門票。

請注意,個別公平性完全取決於您對於「相似度」的定義 例如成績與測驗分數),而您可以承擔 如果相似度指標缺少重要資訊,則會導入新的公平性問題 資訊 (例如學生課程的嚴格)。

請參閱 Fairness Through 認識」,進一步討論個人公平性。

推論

#fundamentals

在機器學習中,產生預測結果的過程 將經過訓練的模型套用至未加上標籤的範例

在統計資料中,「推論」的含意略有不同。 詳情請參閱 有關統計推論的維基百科文章。

推論路徑

#df

決策樹中,推論期間 特定範例根層級變更為其他條件節能綠葉。以下方的決策樹狀圖為例, 粗箭頭表示推論路徑,範例如下: 特徵值:

  • x = 7
  • y = 12
  • z = -3

下圖中的推論路徑通過三個 條件移動至節能綠葉 (Zeta) 前。

由四個條件和五個葉子組成的決策樹。
          根條件為 (x > 0)。由於答案是「是」,因此
          推論路徑是從根層級到下一個條件 (y > 0)
          答案為「是」,因此推論路徑接著會前往
          下一個條件 (z > 0)。答案是「否」
          便進入了「葉子」(Zeta) 的終端機節點

三個粗箭頭顯示推論路徑。

獲取資訊

#df

「決策樹系」中,差異 節點的和加權計算 (按樣本數) 所有子節點的熵總和節點的熵 該節點的範例

以以下熵值為例:

  • 父項節點的熵 = 0.6
  • 具有 16 個相關範例的單一子節點熵 = 0.2
  • 含有 24 個相關範例 = 0.1 的另一個子節點

因此 40% 的範例位於一個子節點,60% 都位於 其他子節點因此:

  • 子節點的加權熵總和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,資訊吸收的價值是:

  • 資訊增益 = 父項節點的熵 - 子節點的加權熵總和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大部分分割器會尋找建立條件 才能獲得最高的資訊

團體內偏誤

#fairness

展現自己與某個群組或自身特徵的部分特徵。 如果測試人員或評分者隸屬於機器學習開發人員的朋友 就連家人或同事也沒關係,產品測試可能會因此失效 或資料集

團體內偏誤是一種 團體歸因偏誤。 另請參閱外部團體同質性偏誤

輸入產生器

將資料載入至何種機制 類神經網路

輸入產生器可視為負責處理的元件 將原始資料反覆處理到張量中 訓練、評估和推論

輸入層

#fundamentals

類神經網路 包含特徵向量。也就是輸入層 提供 訓練 範例推論。例如,下圖中的輸入層 類神經網路包含兩項功能

四個圖層:一個輸入層、兩個隱藏層,以及一個輸出層。

設定條件

#df

決策樹中,狀況 測試一組項目是否存在單一項目。 舉例來說,以下是插邊條件:

  house-style in [tudor, colonial, cape]

在推論期間,如果房屋樣式特徵的值 為 tudorcolonialcape,則這項條件評估為「是」。如果 房屋風格地圖項目的值是其他值 (例如 ranch)。 則此條件會傳回「否」

事先設定的條件通常能使決策樹效率提高, 測試 one-hot 編碼功能的條件。

執行個體

example 的同義詞。

指導微調

#generativeAI

一種微調,來提升 生成式 AI 模型 操作說明。如要調整指示,則需以系列方式訓練模型 通常涵蓋 代表不同工作訓練微調過的模型 針對零樣本提示生成實用回應 能在各種任務中運作

比較各項目:

可解釋性

#fundamentals

能夠解釋或呈現機器學習模型的推論能力 人類能夠理解的詞彙

例如,大多數線性迴歸模型 才會具有可解釋性(您只需查看每個 feature.)決策樹也具有高度可解釋性。不過有些模型 需要複雜的圖表才能呈現出可解釋性

您可以使用 可解釋性學習工具 (LIT) 解釋機器學習模型

資料標註者協議

評估人員在執行工作時的同意頻率。 如果評分者不同意,工作指示可能需要改善。 有時也稱為互動者協議,或 資料間隔的穩定性。其他參考資訊 小柯 kappa、 這是最熱門的跨評估指標衡量方式之一。

聯集 (IoU) 交集

#image

兩組集合的交集除以聯集。機器學習技術 圖片偵測任務,IoU 可用來 預測定界框真值定界框。在這個例子中, 也就是重疊區域與總面積之間的比率 這個值的範圍介於 0 之間 (未與預測定界框和真值重疊) 定界框) 至 1 (預測定界框和真值定界框) 完全相同的座標)。

例如,如下圖所示:

  • 預測定界框 (用來分隔模型位置的座標) 以紫色為中心,就預測畫中夜桌的位置)。
  • 真值定界框 (用來界定夜晚位置的座標 實際上位於畫中的桌子) 會以綠色外框。

梵谷正畫出文森的《文森》在《阿勒》的臥室,總共有
          床邊桌子周圍的定界框。基本資料
          定界框 (綠色) 整整圍繞著夜桌。
          預測定界框 (紫色) 向右偏移 50% 以上
          基本資料定界框;包含右下角
          但漏掉桌子前的其他部分。

接下來,我們將針對預測和真值 的定界框交集 (左下方) 是 1,而邊界方塊的聯集可用於預測和 真值 (右下方) 為 7,因此 IoU 為 \(\frac{1}{7}\)。

同上圖,但每個定界框都劃分為四個
          象限。總共有七個象限,位於右下方
          真值定界框和左上方象限
          預測出的定界框彼此重疊。這個
          重疊的部分 (以綠色醒目顯示) 代表
          而且 面積為 1 同上圖,但每個定界框都劃分為四個
          象限。總共有七個象限,位於右下方
          真值定界框和左上方象限
          預測出的定界框彼此重疊。
          由兩個定界框包圍的整個內部
          (綠色標明) 代表聯集,且
          還有 7 的面積

IoU

聯集和聯集的縮寫。

項目矩陣

#recsystems

推薦系統中, 嵌入向量矩陣, 矩陣分解 保存每個項目的潛在信號。 項目矩陣的每一列都具有單一潛在值 這項功能 以電影推薦系統為例,每一欄 項目矩陣則代表單一電影。潛在信號 代表內容類型,或可能難以解讀 信號,其中包含在類型、星星、 或其他因素

項目矩陣與目標的欄數相同 。例如,針對某部電影 我們推薦系統評估 1 萬部電影作品, 項目矩陣有 10,000 欄。

項目

#recsystems

推薦系統中, 按照系統建議以影片來說,影片就是商店中的商品 書籍則是書店的推薦商品

疊代

#fundamentals

單次更新模型參數,也就是模型的 期間權重偏誤 訓練批量會決定 模型在單一疊代中處理多少樣本舉例來說: 如果批量為 20,則模型會先處理 20 個樣本 調整參數

訓練類神經網路時,只會執行一次 涉及以下兩條通道:

  1. 評估單一批次損失的前向傳遞。
  2. 反向傳遞 (反向傳播),用於調整 模型將依據損失和學習率調整參數。

J

JAX

結合在一起的陣列運算程式庫 XLA (加速線性代數) 和自動差異化 適合高效能數字運算JAX 提供簡單且強大的 透過可組合項轉換編寫加速數值程式碼的 API。 JAX 提供以下功能:

  • grad (自動差異化)
  • jit (及時編譯)
  • vmap (自動向量化或批次處理)
  • pmap (平行處理)

JAX 是一種語言,用於表達及撰寫數值的轉換 與 Python 的 NumPy 程式碼類似,但範圍更大 資源庫。(事實上,JAX 底下的 .numpy 程式庫是功能同等的 但完全重新編寫的 Python NumPy 程式庫版本)。

JAX 特別適合用於加速許多機器學習工作 將模型和資料轉換為適合平行處理的表單 且處於 GPU 和 TPU 加速晶片的情況下。

FlaxOptaxPax 和其他 程式庫建構在 JAX 基礎架構上

K

Keras

這個熱門的 Python 機器學習 API。 Keras 執行時間為 和 TensorFlow 等深度學習架構 是 tf.keras

核心支援向量機 (KSVM)

這個分類演算法會尋求最大化 正面和 對應輸入資料向量的負類別 變得不適當比方說 導致輸入資料集的問題 這項產品具備 10 個功能為了將 KSVM 可以在內部將這些特徵對應至這些特徵 而且在百萬像素空間KSVM 使用的損失函式稱為 轉軸損失

關鍵點

#image

圖片中特定地圖項目的座標。舉例來說 圖片辨識模型 花卉物種,關鍵點可能是每個花瓣、莖 看守護者等等

k-fold Cross 驗證

一種演算法可預測模型 對新資料一般化。k-fold 中的 k 指的是 將資料集樣本分成的等同組數;也就是說 並測試模型 K 次每輪訓練和測試都有 為測試集,其餘群組都是用於訓練的 設定。經過 K 輪的訓練和測試後 所選測試指標的標準差。

舉例來說,假設資料集包含 120 個範例。除此之外 因此你決定將 k 設為 4。因此,在重新排列範例後 將資料集分成四組,分別包含 30 個樣本,並分為 4 組 訓練與測試作業:

將資料集分成四組等值的樣本。在第 1 輪
          前三個組用於訓練,最後一個組則是
          是用於測試在第 2 輪,前兩組和最後兩組
          第 3 個群組用於訓練
          進行測試。在第 3 輪,第一組和後兩組分別為
          而第二個群組則用於測試
          在第 4 輪中,第一組用於測試,而最後一個組則用於測試
          三個群組是用於訓練

例如平均值平方錯誤 (MSE), 是線性迴歸模型最有意義的指標因此 會找出所有四回合的 MSE 平均值和標準差。

k-means

#clustering

用來將範例分組的熱門叢集演算法 非監督式學習中的一部分k-means 演算法基本上可以執行下列作業:

  • 反覆判斷最佳的 k 中心點 (已知 質心)。
  • 將每個範例指派給最接近的群集中心。最鄰近的項目範例 相同的群集屬於同一個群組。

k-means 演算法會挑選群集中心位置,將累計值降到最低 平方

例如,請思考以下圖中狗的身高到狗寬度的圖:

含有數十個資料點的笛卡兒圖。

如果 k=3,則 k-means 演算法會決定三個質心。每個範例 會指派給其最接近的群集,會產生三個群組:

與上一圖相同的笛卡兒,除了
          加入三個星座。
          先前的資料點會分成三個不同的群組
          每個群組都代表
最接近特定資料點的資料點
          群集中心。

假設製造商想針對 中、大、小毛衣三個群集中心點出 叢集內每隻狗的高度和平均寬度製造商 應該把毛衣尺寸放在這三個核心肌群上。請注意, 叢集的群集通常「不是」叢集中的一個例子。

上圖顯示的 k-means 範例只包含 也就是高度和寬度請注意,k-means 可將範例分組 這項特色

K 中位數

#clustering

k-means 密切相關的分群演算法。 這兩種指標的實際差異如下:

  • 以 k-means 來說,分群物的化和最小化 平方:公分候選人和 範例。
  • 在 K-中位數中,系統會將人物和 中心型候選人與其各範例之間的距離。

請注意,距離的定義也不同:

  • k-means 仰賴 歐幾里德距離 和範例進行質性工作(在兩個維度中 距離是指使用畢氏定理來計算 這種假設性)。例如 k-means 與 (2,2) 之間的 k-means 距離。 而 (5,-2) 會是:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 仰賴 曼哈頓距離 從質心轉換為範例這個距離是指 計算每個維度的絕對差異值例如 k-median (2,2) 和 (5,-2) 之間的距離如下:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 正則化

#fundamentals

一種正則化, 會影響非零的權重「總數」 模型例如 11 個非零權重的模型 會比權重 10 不為零的相似模型更受到懲罰。

L0 正則化有時稱為 L0 正規化

L1 損失

#fundamentals

計算絕對值的損失函式 實際標籤值與 也就是模型預測的值。舉例來說,以下是 以五分之一的批次 L1 損失計算 例子

範例的實際值 模型的預測值 Delta 的絕對值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = 損失 1

L1 損失對離群值敏感度較低 少於 L2

平均絕對錯誤是平均值 每個範例 L1 損失。

L1 正則化

#fundamentals

會懲罰的一種正則化類型 權重,其與 權重值L1 正則化有助於彌補不相關的權重 或幾乎不相關的特徵或等於 0功能 系統會從模型中有效移除權重 0。

L2 正則化對比。

L2 損失

#fundamentals

計算平方的損失函式 實際標籤值與 也就是模型預測的值。舉例來說,以下是 計算五分之批次的 L2 損失計算結果 例子

範例的實際值 模型的預測值 差異遷移廣場
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = 損失2

由於質量的關係,L2 損失代表 離群值: 換句話說,相較於不良預測,L2 損失對預測結果的反應強烈 L1 流失。例如:L1 損失 前一批數量是 8 而不是 16請注意 就是 16 中的 9。

迴歸模型通常使用 L2 損失 做為損失函式

均方誤差是平均值的 每個例子的 L2 損失率。 「平方損失」是 L2 損失的另一個名稱。

L2 正則化

#fundamentals

會懲罰的一種正則化類型 權重,佔權重正方形的總和。 L2 正則化可協助提升離群值 (也就是 許多數值都很接近 0,但並非相當 0。 值非常接近 0 的特徵會保留在模型中 但不會影響模型的預測結果

L2 正則化一律會改善 線性模型

L1 正則化對比。

標籤

#fundamentals

監督式機器學習中 「接聽」或「result」範例部分。

每個已加上標籤的範例都含有一或多個 地圖項目和一個標籤。例如垃圾郵件 則標籤可能是「spam」或 「非垃圾內容」。在雨量資料集中,標籤可以是 特定時期下降的雨量

有標籤樣本

#fundamentals

包含一或多個地圖項目label。舉例來說,下表顯示三個 根據房屋估值模型加上標籤的範例,每個模型都包含三項特徵 和一個標籤:

臥室數量 浴室數量 房屋年齡 房屋價格 (標籤)
3 2 15 $345,000 美元
2 1 72 $179,000 美元
4 2 34 $392,000 美元

監督式機器學習中 模型會根據加上標籤的樣本進行訓練 未加上標籤的範例

對比有未加上標籤的範例的對比標籤。

標籤外洩

模型設計缺陷,其中功能代表 label。舉例來說,假設 「二元分類」模型 用來吸引潛在客戶購買特定產品 假設模型的其中一項特徵是名為 SpokeToCustomerAgent。此外,假設客戶服務專員 是在潛在客戶實際購買 產品。在訓練期間,模型會快速學習關聯 介於 SpokeToCustomerAgent 和 標籤之間

lambda

#fundamentals

正規化率的同義詞。

Lambda 是一個超載的字詞。這裡我們把重點放在 正則化中的定義。

LaMDA (對話應用程式的語言模型)

#language

Transformer 為基礎的 由 Google 開發的大型語言模型 能生成真實對話回應的大型對話資料集。

LaMDA:我們的突破性對話 技術大致介紹

地標

#image

鍵點的同義詞。

語言模型

#language

估算符記機率的模型 或一組符記的序列中。

大型語言模型

#language

語言模型至少會有非常高的數字 的參數。較非正式的 Transformer 為基礎的語言模型,例如 GeminiGPT

潛在空間

#language

嵌入空間的同義詞。

圖層

#fundamentals

一組神經元類神經網路。三種常見的圖層類型 如下:

舉例來說,下圖中的類神經網路 一個輸入層、兩個隱藏層,以及一個輸出層:

一個類神經網路,其中有一個輸入層、兩個隱藏層和
          輸出層輸入層包含兩項特徵。第一個
          由三個神經元和第二個隱藏層
          由兩個神經元組成輸出層由單一節點組成。

TensorFlow 中,圖層是 Python 函式, 使用 Tensor 和設定選項做為輸入和 會產生其他張量做為輸出內容

圖層 API (tf.layers)

#TensorFlow

用於建構類類神經網路的 TensorFlow API 構成圖層的組合Layers API 可讓您 圖層類型,例如:

Layers API 遵循 Keras 層 API 慣例。 也就是除了不同的前置字元外,Layers API 中的所有函式 名稱與簽名與 Keras 中的對應項目相同 Layers API

葉子

#df

決策樹中的任何端點。取消喜歡 condition 屬性不會執行測試。 事實上,葉子是可能的預測結果。節能綠葉也是終極的 推論路徑節點

例如,下列決策樹含有三個葉子:

一條決策樹,有兩個條件,形成三個葉子。

學習技術可解釋性工具 (LIT)

一種視覺化、互動式模型理解與資料視覺化工具。

您可以使用開放原始碼 LIT解讀模型,或是以視覺化方式呈現文字、圖像和 表格型資料

學習率

#fundamentals

指出梯度下降法的浮點數 演算法對每個符記的權重和偏誤 疊代。舉例來說,如果學習率為 0.3 調整權重和偏誤的調整效果比學習率高出三倍 0.1。

學習率是重要的超參數。如果您為 學習率過低,訓練時間太長如果 將學習率設為過高時,梯度下降法經常發生問題 觸及對話

最小平方迴歸

最小化完成訓練的線性迴歸模型 L2 損失

線性

#fundamentals

兩個以上可以單純表示的變數之間的關係 可以結合加法和乘法

線性關係圖是以線條表示。

nonlinear對比。

線性模型

#fundamentals

為每個模型指派一個權重feature 進行預測。 (線性模型也包含偏誤)。相對地 深度模型中的特徵與預測之間的關係 通常都是nonlinear

線性模型通常較容易訓練, 比深度模型可解讀。不過 深度模型可以學習特徵之間的複雜關係。

線性迴歸邏輯迴歸是兩種線性模型的類型。

線性迴歸

#fundamentals

這種機器學習模型符合下列兩種條件:

  • 模型為線性模型
  • 預測結果為浮點值。(這是 迴歸部分屬於線性迴歸)。

使用邏輯迴歸的對比線性迴歸。 此外,使用分類時則適合使用迴歸。

LIT

以下字詞的縮寫: 可解釋性學習工具 (LIT), 這個 API 舊稱「語言可解釋性工具」

LLM

#language
#generativeAI

大型語言模型的縮寫。

LLM 評估 (評量)

#language
#generativeAI

這組指標和基準可用於評估 大型語言模型 (LLM)。概略來說 LLM 評估:

  • 協助研究人員找出大型語言模型需要改善的領域。
  • 比較不同的大型語言模型,以及判斷 對特定工作而言
  • 確保 LLM 安全且符合道德規範。
,瞭解如何調查及移除這項存取權。

邏輯迴歸

#fundamentals

用來預測機率的迴歸模型。 邏輯迴歸模型具有下列特性:

  • 這個標籤為類別。「物流」一詞 迴歸通常是指「二元邏輯迴歸」,也就是 模型來計算標籤機率。 較不常見的變體「多項式邏輯迴歸」會計算 具有超過兩個可能值標籤的機率。
  • 訓練時的損失函式為記錄損失。 (標籤可同時放置多個記錄檔遺失單元) 超過兩個可能的值)。
  • 模型採用線性架構,而非深層類神經網路。 然而,此定義的其餘部分 預測機率的深度模型 以分類標籤

舉例來說,假設有一個邏輯迴歸模型 輸入電子郵件遭歸類為垃圾郵件或非垃圾郵件的機率。 假設模型在推論期間預測為 0.72,因此, 正在估算的模型

  • 電子郵件被歸類為垃圾郵件的機率為 72%。
  • 電子郵件非垃圾郵件的機率為 28%。

邏輯迴歸模型採用下列兩步驟架構:

  1. 模型會套用線性函數來產生原始預測結果 (y') 輸入特徵
  2. 模型會使用該原始預測結果做為輸入內容 sigmoid 函式,可用於轉換原始 傳回 0 到 1 之間的值 (不含 0 和 1)。

如同任何迴歸模型,邏輯迴歸模型可預測數字。 然而,這個數字通常會成為二元分類的一部分 如下所示:

  • 如果預測數字大於 分類門檻, 二元分類模型會預測正類
  • 如果預測的數量小於分類門檻, 二元分類模型會預測負類別

Logits

要分類的原始 (非正規化) 預測向量 模型產生後,通常會傳送給正規化函式 如果模型解析多元分類 記錄事件通常會成為 softmax 函式,藉此調整 API 的運作狀態。 接著 softmax 函式會產生 (正規化) 的向量 每個可能類別都有一個值的可能性

對數損失

#fundamentals

用於二進位檔的損失函式 邏輯迴歸

對數勝算比

#fundamentals

部分事件機率的對數。

長短期記憶 (LSTM)

#seq

是一種 循環類神經網路 應用程式中的資料序列,例如手寫辨識、機器 以及生成圖片說明文字LSTM 會說明 導致梯度問題 訓練 RNN 是因為很長的資料序列, 根據新輸入內容和先前儲存格背景資訊產生的內部記憶體狀態 循環類神經網路

LoRA

#language
#generativeAI

低階適應性的縮寫。

損失

#fundamentals

完成這項操作的訓練期間 監督式模型,可測量 模型的預測結果來自其標籤

損失函式會計算損失。

損失集結網站

一種機器學習演算法, 提升模型效能 方法是結合多個模型的預測結果 來做出單一預測因此 損失匯總器可以減少預測結果的變異數,並 提高預測的準確率

損失曲線

#fundamentals

損失表示訓練次數的函式圖 疊代。下圖顯示一般損失率 曲線:

呈現損失與訓練疊代的笛卡兒圖,
          初期疊代的損失迅速減少 然後逐漸下降
          最後反覆練習時是平緩下降的曲線

損失曲線可協助您判斷模型 收斂過度配適

損失曲線可繪製以下所有類型的損失:

另請參閱一般化曲線

損失函式

#fundamentals

訓練或測試期間, 計算 在批次中執行損失。損失函式會傳回較低的損失 對於具有良好預測 預測結果不佳。

訓練的目的通常是將損失函數的損失降至最低 就會傳回值。

損失函式有很多種。挑選適當的損失選項 函式。例如:

損失表面

體重與損失的圖表。漸層下降: 找出損失表面達到本地下限的權重。

低階適應性 (LoRA)

#language
#generativeAI

用於執行相關作業的演算法 「有效調整參數」, 只有一小部分的媒體內容 大型語言模型的參數。 LoRA 優點如下:

  • 相較於需要微調模型「所有」的技術,加速微調作業速度 參數。
  • 降低推論的計算成本 經過微調的模型

透過 LoRA 調整的模型會維持或提升預測品質。

LoRA 支援單一模型的多個專屬版本。

LSTM

#seq

長短期記憶的縮寫。

M

機器學習

#fundamentals

訓練 輸入資料中的 model。經過訓練的模型 根據新的 (前所未見) 資料 與用來訓練模型的分佈相同。

機器學習也是指研究領域 提供這些程式或系統的相關資訊

多數類別

#fundamentals

class-imbalanced 資料集:例如: 如果某個資料集含有 99% 的負標籤和 1% 陽性標籤, 負標籤是多數類別

少數類別的對比。

馬可夫決策程序 (MDP)

#rl

決策模式的圖表,其中做出決策 (或「動作」) 導覽序列 狀態,並假設 馬可夫屬性會保留。於 強化學習,藉此推動 狀態之間會傳回數值獎勵

馬可夫屬性

#rl

特定環境的屬性,其中 轉換作業完全取決於 目前狀態和代理程式的動作

遮蓋的語言模型

#language

一種語言模型,能預測 序列中要填入的候選符記。舉例來說 遮蓋的語言模型可以計算候選字詞的機率 取代下一句的底線:

帽子的 ____ 回來了。

文獻使用字串「MASK」而不是底線 例如:

《MASK》帽子又回來了

大多數新型遮蓋的語言模型都是雙向遮蓋語言。

matplotlib

開放原始碼 Python 2D 繪圖程式庫。 matDrawlib 能讓您以視覺化方式呈現資料 機器學習的不同面向

矩陣分解

#recsystems

在數學中,一種用來找出內心積相近 目標矩陣

建議系統中,目標矩陣 經常擁有使用者對商品的評分。例如 電影推薦系統的矩陣會類似於 然後,其中正整數為使用者評分,0 則是 0 表示使用者未對電影評分:

  卡薩布蘭加 費城的故事 黑豹 神力女超人 啦啦隊
使用者 1 5.0 3.0 0.0 2.0 0.0
使用者 2 4.0 0.0 0.0 1.0 5.0
使用者 3 3.0 1.0 4.0 5.0 0.0

電影推薦系統的用意是預測使用者評分 未分級的電影。舉例來說,使用者 1 喜歡「黑豹」嗎?

推薦系統的一種方法是使用矩陣 分解來產生下列兩個矩陣:

例如,對三名使用者和五個項目使用矩陣分解 就能產生下列使用者矩陣和項目矩陣:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

使用者矩陣的內積和項目矩陣的內積會產生建議 不僅包含原始使用者評分,還包含預測 顯示使用者不曾看過的電影 舉例來說,假設使用者 1 的「Casablanca」評分為 5.0。圓點 與建議矩陣中該儲存格相對應的產品 大約是 5.0,計算方式為:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是,使用者 1 是否喜歡「黑豹」?購買內積 而第三列則會產生預測值 4.3 顆星:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩陣分解通常會產生使用者矩陣和項目矩陣 比起目標矩陣,

平均絕對錯誤 (MAE)

每例 L1 損失時的平均損失率: 計算平均絕對誤差的方法如下:

  1. 計算批次的 L1 損失。
  2. 將 L1 損失除以批次中的樣本數量。

舉例來說,請考慮將 L1 並收錄五組範例

範例的實際值 模型的預測值 損失 (實際與預測之間的差異)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = 損失 1

因此,L1 損失為 8,樣本數為 5。 因此,平均絕對誤差為:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

出現平均平方誤差的對比平均絕對錯誤, 均方根誤差

平均平方錯誤 (MSE)

每個範例在 L2 損失時,平均損失率為 按照以下方式計算均方誤差:

  1. 計算批次的 L2 損失。
  2. 將 L2 損失除以批次中的樣本數量。

例如,假設下列五個例子中的損失結果:

實際值 模型的預測結果 損失 平方損失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = 損失2

因此,均方誤差為:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均平方錯誤是熱門的訓練最佳化工具 特別是線性迴歸

對比平均平方錯誤: 平均絕對錯誤均方根誤差

TensorFlow Playground 使用平均值方框錯誤 來計算損失值。

網格

#TensorFlow
#GoogleCloud

在機器學習平行程式設計中,與指派資料和 複製到 TPU 晶片,並定義這些值的資料分割或複製方式。

網格是超載的詞彙,可能代表下列其中一項:

  • TPU 晶片的實體配置。
  • 一種抽象邏輯結構,可將資料和模型對應至 TPU 方塊。

不論是哪一種情況,網格都會指定為「形狀」。

中繼學習

#language

是機器學習技術的分支,可探索或改進機器學習演算法。 元學習系統也可以用來訓練模型,快速學習新的 少量資料或先前工作所獲得的經驗 中繼學習演算法通常會嘗試達到以下目標:

  • 改善或學習手動工程的功能 (例如初始化或 最佳化器)。
  • 提高資料效率和運算效率。
  • 提升一般化。

中繼學習與少量樣本學習有關。

指標

#TensorFlow

您重視的統計資料。

「目標」是機器學習系統的指標 嘗試進行最佳化

Metrics API (tf.metrics)

用於評估模型的 TensorFlow API。例如:tf.metrics.accuracy 會決定模型預測結果比對標籤的頻率。

迷你批次

#fundamentals

隨機選擇的少數批次子集 疊代。 迷你批次的「批次大小」通常 10 至 1,000 個範例。

舉例來說,假設整個訓練集 (完整批次) 包含 1,000 個範例此外,假設您將 將每個迷你批次的批次大小降至 20。因此,每項 疊代後,從 1,000 個樣本中隨機決定 20 個可能的損失,然後 並據此調整權重偏誤

用迷你批次計算損失的效率比 所有樣本的損失

迷你批次隨機梯度下降法

使用梯度下降法演算法 換句話說 梯度下降法會根據一小部分的 訓練資料一般隨機梯度下降: 大小為 1 的最小批量

最小損失

這兩個值的損失函式 生成對抗網路 根據交叉熵 產生的資料和實際資料

最小損失值是用於 要介紹的第一份文件 生成對抗網路

少數類別

#fundamentals

中較不常見的標籤 class-imbalanced 資料集:例如: 如果某個資料集含有 99% 的負標籤和 1% 陽性標籤, 則為少數類別

主要類別的對比。

專家組成

#language
#generativeAI

可提高類神經網路效率的機制, 只使用部分參數 (也稱為「專家」) 處理 指定的輸入符記example。A 罩杯 gating network 將每個輸入符記或範例轉送至適當的專家。

詳情請參閱下方任一論文:

ML

機器學習的縮寫,

綜合格鬥

#language
#image
#generativeAI

以下字詞的縮寫 多模態指令微調

MNIST

#image

由 LeCun、Cortes 和 Burges 彙整的公開領域資料集,內含 每張 6 萬張圖片,分別顯示人類如何手動撰寫特定文件 介於 0 到 9 之間的數字。每張圖片都會儲存為 28x28 的整數陣列, 每個整數都是介於 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集,通常用於 所扮演的角色詳情請參閱 手寫數字 MNIST 資料庫

形態

#language

概略資料類別。例如數字、文字、圖片、影片 音訊有兩種形式

模型

#fundamentals

一般而言,任何處理輸入資料並傳回的數學結構 輸出內容詞組不同,模型是指由參數和結構組成的集合 以及系統進行預測所需的資料 在監督式機器學習中 模型會將範例做為輸入內容, 以 predict 形式建立預測。在監督式機器學習中 稍有不同例如:

  • 線性迴歸模型包含一組權重 以及偏誤
  • 「類神經網路」模型包含:
    • 一組隱藏圖層,每個圖層都包含一個或 更多神經元
    • 與各個神經元相關聯的權重和偏誤。
  • 決策樹模型包含:
    • 樹木的形狀;也就是條件 葉子彼此相連
    • 條件和葉子。

您可以儲存、還原或複製模型。

非監督式機器學習 產生的模型,通常是將輸入範例對應至 最適當的叢集

模型容量

模型可學習的問題複雜度。越複雜的 模型的處理能力就越高模型的 容量通常會隨著模型參數數量而增加換 分類器容量的正式定義,詳情請參閱 VC 尺寸

系列模型

#generativeAI

根據特定推論選擇理想模型的系統 。

想像一組大型模型 parameters) 和較小 (較少參數)。 非常大型的模型會耗用較多 推論時間。但非常大 與小型模型相比,模型能推斷出更複雜的要求。 串聯模型會決定推論查詢的複雜程度, 挑選合適的模型來執行推論。 串聯模型的主要動機是 一般而言,我們會選擇較小的模型 更複雜的查詢

假設有一個小型模型在手機上運作 而該型號更大 它會在遠端伺服器上運作良好的模型階層式架構,可減少成本和延遲時間, 讓較小的模型處理簡單的要求並只呼叫 處理複雜要求

另請參閱模型路由器

模型平行處理

#language

一種是調度訓練或推論資源,將不同部分 型號模型平行處理 就能讓太大的模型無法支援單一裝置。

如要實作模型平行處理,系統通常會執行以下操作:

  1. 將模型分割為更小的部分。
  2. 將這些較小部分的訓練分散於多個處理器上。 每個處理器都會訓練自己的模型部分。
  3. 合併結果以建立單一模型。

模型平行處理會降低訓練速度。

另請參閱資料平行處理

模型路由器

#generativeAI

決定最佳模型的演算法 模型串聯中的推論。 模型路由器本身通常是機器學習模型 會逐漸學習如何根據輸入內容挑選最佳模型。 不過,模型路由器有時比較簡單 非機器學習演算法

模型訓練

決定最佳模型的程序。

累積熱度

精密的梯度下降法演算法,可依循學習步驟 不單靠目前步驟的導數,也包括導數 加入其餘步驟目標在於計算 在一段時間內,漸層的指數加權移動平均值,類似 並期待物理現象成長有時是阻礙學習 困在當地的 小米歐。

MOE

#language
#image
#generativeAI

多位專家的縮寫。

多元分類

#fundamentals

在監督式學習中,會發生分類問題 資料集中包含超過兩個 類別的標籤。 例如,Iris 資料集中的標籤必須是下列其中一項 三個類別:

  • 伊里斯馬索薩
  • 伊利斯.維吉尼卡 (Iris virginica)
  • 虹彩

以 Iris 資料集訓練而成的模型,可針對新的範例預測 Iris 類型 也就是執行多元分類

相對的,分類問題則能區分 類別為「二元分類模型。 例如預測「垃圾郵件」或「非垃圾郵件」的電子郵件模型 是一種二元分類模型

在分群問題中,「多類別分類」是指 兩個叢集

多類別邏輯迴歸

在以下區域中使用邏輯迴歸多元分類問題。

多頭自我注意力

#language

自註意力的延伸,會套用 自我注意力機制會多次影響輸入序列中的每個位置。

Transformer 導入多頭自我注意力機制。

多模態模型

#language

輸入和/或輸出內容包含多個項目的模型 modality:舉例來說,假設模型可同時接收 圖片和文字說明文字 (兩種形式) 為「功能」,以及 會輸出一個分數,指出文字說明文字是否適合該圖片。 因此,這個模型的輸入內容屬於多模態,且輸出內容為單模。

多模態教學調整

#language

可處理輸入內容的經過訓練調整模型 不再只是圖片、影片和音訊

多項式分類

多元分類的同義詞。

多項式迴歸

的同義詞 多類別邏輯迴歸

多工處理

一種機器學習技術,也就是單一模型 執行多項工作的相關訓練。

建立多工模型時,您需要使用資料來訓練資料, 不同的任務這樣一來,模型就能學習 處理任務的資訊就能提升模型的學習效率

針對多項任務訓練的模型,通常可以提升一般化能力 且更健全地處理不同類型的資料

NaN 陷阱

當模型中的一個數字變成 NaN 時 導致模型中的許多或所有其他數字 最終變成 NaN

NaN 是「N」「N」的縮寫,

自然語言理解

#language

根據使用者輸入或說話的內容判斷使用者的意圖。 舉例來說,搜尋引擎會利用自然語言理解技術 根據使用者輸入或說話的內容,判斷要搜尋什麼內容。

負類

#fundamentals

「二元分類」中,一個類別是 另一個字詞是「負面」,另一個則是「負面」。正類為 模型正在測試的內容或事件,而負類別 例如:

  • 醫療檢測中的陰性類別可能為「非腫瘤」。
  • 電子郵件分類器中的排除類別可能為「非垃圾郵件」。

正向類別的對比。

負取樣

候選抽樣的同義詞。

類神經架構搜尋 (NAS)

自動設計 AI 架構的 「類神經網路」NAS 演算法可以減少 花費時間和資源來訓練類神經網路

NAS 一般會使用:

  • 搜尋空間,這是一組可能的架構。
  • 健身功能,衡量特定程度 會針對特定任務執行何種架構

NAS 演算法通常會從少數可能的架構著手 逐漸擴大搜尋空間,因為演算法進一步瞭解 有效的架構健身功能通常會根據 訓練集的架構效能 訓練基礎模型通常會透過 強化學習技巧。

NAS 演算法經證實能有效找出高效能 各種工作的架構,包括映像檔 分類、文字分類 以及機器翻譯

輸出內容

#fundamentals

含有至少一個內容的模型 隱藏的圖層。 「深層類神經網路」是一種類神經網路 含有多個隱藏層例如,下圖 會顯示包含兩個隱藏層的深層類神經網路

一個類神經網路,其中有輸入層、兩個隱藏層
          輸出層

類神經網路中的每個神經元都會連線至下一層中的所有節點。 例如,在上圖中,有三個神經元 分別連結至 第二個隱藏層

在電腦上實作的類神經網路有時也稱為 人工類神經網路 腦力激盪和其他神經系統中的類神經網路

某些類神經網路可以模擬非常複雜的非線性關係 區分特徵和標籤

另請參閱卷積類神經網路循環類神經網路

神經元

#fundamentals

在機器學習中,隱藏層中的不同單位 類神經網路的變體。每個神經元都會執行下列 雙步驟動作:

  1. 計算輸入值相乘的加權總和 計算依據的權重
  2. 將加權總和做為輸入內容傳送至 活化函數

第一個隱藏層中的神經元接受來自特徵值的輸入 輸入層神經元會隱藏在 第一個值會接受來自先前隱藏層中神經元的輸入內容。 舉例來說,第二個隱藏層中的神經元會接受來自 產生第一個隱藏層的神經元

下圖標明兩個神經元 輸入內容

一個類神經網路,其中有輸入層、兩個隱藏層
          輸出層並醒目顯示兩個神經元:一個
          另一個隱藏層醒目顯示的
          第一個隱藏層的神經元會從兩個特徵接收輸入內容
          特定物件第二個隱藏層中醒目顯示的神經元
          會從第一個隱藏的神經元中的三個神經元
接收輸入內容
          執行

類神經網路中的神經元會模仿神經元在大腦中的行為 其他部分

N 克

#seq
#language

N 個字詞的排序序列。例如,「truly madly」是 2 公克由於 順序相關,但「必須真正」與「完全瘋狂」不同的 2 公克圖像。

這類 N 元語法的名稱 範例
2 Biram 或 2 公克 去、吃午餐、吃晚餐
3 三角形或 3 公克 丟了太多葉子、三個盲滑鼠、鈴鐺
4 4 公克 公園裡的步道、風吹灰塵、男孩放著扁豆

多重自然語言理解 模型會根據 N 元語法預測使用者接下來要輸入的 或說出來例如,假設使用者輸入「three blind」。 以三角為基礎的 NLU 模型 下一個使用者輸入 mice

比較 N 克和詞袋的對比度, 字詞集

自然語言理解

#language

自然語言的縮寫

節點 (決策樹)

#df

決策樹狀圖中,任何 condition分葉

包含兩個條件和三個葉子的決策樹。

節點 (類神經網路)

#fundamentals

隱藏層中的神經元

節點 (TensorFlow 圖形)

#TensorFlow

TensorFlow 圖表中的運算。

雜訊

普遍來說,任何遮蔽資料集信號的內容。雜音 能以多種方式帶入資料中例如:

  • 評估人員在加上標籤時會出錯。
  • 人類和工具記錄錯誤或省略特徵值。

非二元條件

#df

條件包含超過兩個可能結果。 舉例來說,下列非二進位條件包含三種可能性 成果:

條件 (number_of_legs = ?) 促成三個可能
          成果一結果 (number_of_legs = 8) 促成一片分葉
          名為「自動尋檢程式」第二次結果 (number_of_legs = 4) 促成
          一片名為狗的葉子第三個結果 (number_of_legs = 2) 促成
          名為企鵝的葉子。

nonlinear

#fundamentals

兩個或多個無法單獨表示的變數之間的關係 可以結合加法和乘法線性關係 能以線條表示不能是nonlinear關係。 以線條表示舉例來說,假設兩個模型都具有 將單一特徵套用至單一標籤左側模型為線性 右側模型為非線性

兩圖。其中一張圖是線條,就屬於線性關係。
          另一條圖為曲線,因此是非線性關係。

非回應偏誤

#fairness

請參閱選擇偏誤

非穩定性

#fundamentals

這類特徵的值會隨著一或多個維度改變,通常是時間。 例如,請考慮下列非持久性的例子:

  • 特定商店的泳裝數量會因季節而異。
  • 特定區域採集的水果數量 這個期間的大部分時間為 0,但短期內的值會大於 0。
  • 每年平均溫度因氣候變遷而持續改變。

stationarity 相反。

正規化

#fundamentals

大致來說,轉換變數的實際範圍 轉換為標準值範圍,例如:

  • -1 到 +1
  • 0 至 1
  • Z 分數 (大約 -3 至 +3)

舉例來說,假設某個特徵值的實際範圍是 800 到 2,400 之間。做為特徵工程的一部分 都能將實際值正規化為標準範圍 例如 -1 到 +1。

正規化是 特徵工程:模型訓練速度通常更快 訓練資料中每個數值特徵 特徵向量大致相同。

新奇偵測

判斷新 (小說) 樣本是否來自於 設為 訓練集。換句話說, 新模型的訓練,創新的偵測功能會判定 (在推論或額外訓練期間) 就是 離群值

離群值偵測比較。

數值資料

#fundamentals

特徵,以整數或實值表示。 舉例來說,房屋估價模型可能代表 以數值資料表示的房屋 (平方英尺或平方公尺)。代表 數值資料表示特徵的值 與標籤之間的「數學」關係。 也就是房子的平方公尺 以及房屋價值的數學關係

並非所有整數資料都應以數字資料表示。例如: 全球某些地區的郵遞區號為整數;但如果是整數郵政 在模型中,請勿將代碼顯示為數值資料。這是因為 20000 的郵遞區號不是兩倍 (或半) 的郵遞區號, 10,000。此外,雖然不同的郵遞區號「確實」與不同 房地產價值,我們無法假設郵遞區號中的房地產價值 20000 年的價值是房地產價值的兩倍,以郵遞區號 10000 表示。 郵遞區號應以類別型資料表示 。

數字特徵有時稱為 持續推出的功能

NumPy

開放原始碼數學程式庫 ,提供高效率的 Python 陣列操作。 pandas 以 NumPy 為基礎。

O

目標

演算法嘗試最佳化的指標。

目標函式

模型要進行最佳化的數學公式或指標。 例如目標函式 線性迴歸通常是 平均平方損失:因此,在訓練類神經網路時 線性迴歸模型,訓練旨在盡量減少平均平方損失。

在某些情況下,目標是將目標函式「最大化」。 舉例來說,如果目標函式是準確率,目標則是 以盡量提高準確度

另請參閱「loss」。

斜體條件

#df

決策樹狀圖中, 有多個狀況 功能。例如,如果高度和寬度都是地圖項目 下列是斜體條件:

  height > width

軸對齊條件的對比。

離線

#fundamentals

static 的同義詞。

離線推論

#fundamentals

模型產生批次預測結果的程序 然後快取 (儲存) 這些預測資料這樣一來,應用程式就能存取推測 而非重新執行模型

舉例來說,假設某個模型可以產生當地天氣預報 (預測) 每四小時一次。每個模型執行完畢後,系統會 快取所有當地天氣預報資訊。天氣應用程式擷取預報資訊 從快取中取得

離線推論也稱為「靜態推論」

線上推論的差異。

one-hot 編碼

#fundamentals

以向量表示類別資料,方法如下:

  • 1 個元素設為 1,
  • 所有其他元素則設為 0。

one-hot 編碼通常用於代表 可能的值數量有限 例如,假設某項類別特徵的名稱是 Scandinavia 有五個可能的值:

  • 「丹麥」
  • 「瑞典」
  • 「挪威」
  • 「芬蘭」
  • 「冰島」

one-hot 編碼可代表這五個值,如下所示:

country 向量
「丹麥」 1 0 0 0 0
「瑞典」 0 1 0 0 0
「挪威」 0 0 1 0 0
「芬蘭」 0 0 0 1 0
「冰島」 0 0 0 0 1

透過 one-hot 編碼,模型可學習不同的連線 製作不同國家/地區的實驗

以「數字資料」表示特徵是 one-hot 編碼的替代方法不幸的是 不建議在斯堪地那維亞國家使用數字。例如: 看看以下的數值:

  • 「丹麥」為 0
  • 「瑞典」1 是
  • 「挪威」2 是
  • 「芬蘭」是 3 個
  • 「冰島」4 是

使用數字編碼時,模型會解讀原始數字 然後嘗試根據這些數字進行訓練。 不過,冰島實際上並非兩倍 (或一半) 所以模型會得出一些奇怪的結論,

單樣本學習

採用機器學習技術,通常用於物件分類 ,且主要透過單一訓練範例來學習有效的分類器。

另請參閱少量樣本學習零樣本學習

單樣本提示

#language
#generativeAI

提示,內含一個範例,以便示範 大型語言模型應該會有所回應。例如: 在以下提示中,有一個範例顯示了大型語言模型 應能回答查詢

單一提示的組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
法國:EUR 我們來看個個例子
印度: 實際查詢。

比較並對照下列字詞:單樣本提示

一對多

#fundamentals

由於 N 類別的分類問題, 由 N 個獨立的元件組成 二進位分類器—一種二進位分類程式,用於 各項可能的結果例如,假設某個模型會分類範例 無論是動物、蔬菜或礦物,哪種解決方案都能提供 下列三種不同的二進位分類器:

  • 動物之對不是動物
  • 蔬菜與非蔬菜
  • 礦物與非礦物

線上

#fundamentals

動態的同義詞。

線上推論

#fundamentals

根據需要產生預測。例如: 假設應用程式將輸入內容傳遞至模型,並向 預測結果 使用線上推論的系統以 將預測結果傳回應用程式

離線推論比較。

作業 (op)

#TensorFlow

在 TensorFlow 中 操弄或破壞 Tensor。適用對象 矩陣乘法則是指將兩張 Tensor 驅動的運算 並產生一個 Tensor 做為輸出內容

Optax

JAX 的梯度處理和最佳化程式庫。 Optax 提供可靈活運用的構成元素,幫助使用者進行研究 以自訂方式重組,讓參數模型 (例如 深層類神經網路其他目標包括:

  • 提供易於閱讀、測試良好且有效率的 核心元件
  • 可以結合低階食材,提高工作效率 轉換為自訂最佳化工具 (或其他梯度處理元件)
  • 任何人都能輕鬆採用新點子,加速採用新點子 貢獻一己之力

最佳化工具

梯度下降法的特定實作方式 演算法。常用的最佳化工具包括:

  • AdaGrad 代表 ADAptive GRADient 下降法。
  • Adam,這是「ADAptive with Momentum」。

外團體同質性偏誤

#fairness

比起群組成員,非群組成員的可能性更明顯 有助於比較信仰、價值觀、人格特質 「群組內部」是指您經常互動的使用者; out-group 是指您未經常互動的使用者。如果發生以下情況: 先請大家提供 這些特質可能較不精細 而不是參與者在群組成員清單中顯示的屬性。

舉例來說,利普特人可能會描述其他利普特人的房屋 細膩描繪出建築風格、窗戶和窗戶的少許差異 門和尺寸不過,相同的 Lilliputian 可能會 兄弟姊妹都住在相同的房子中。

外團體的同質性偏誤是一種 團體歸因偏誤

另請參閱群組內偏誤

離群值偵測

找出變數中的離群值 訓練集

創新偵測功能的差異。

成效突出的影片

偏離大多數其他值。在機器學習領域中 下列是離群值:

  • 輸入資料值超過約 3 個標準差的值 。
  • 採用高絕對值的「權重
  • 預測值與實際值間的距離相對遠。

舉例來說,假設 widget-price 是特定模型的特徵。 假設 widget-price 為 7 歐元,請使用標準差 1 歐元。包含 widget-price 為 12 歐元或 2 歐元的範例 系統會將這些價格視為離群值 與平均值相差五個標準差

異常值通常是因為錯字或其他輸入錯誤所致。有些情況下 「離群值」並不是錯誤;之後,數值是五個標準差 並非不可能的任務

離群值通常會導致模型訓練發生問題。剪輯 是管理離群值的方法之一

自帶式評估 (OOB 評估)

#df

評估服務品質時 決策樹系 比對 範例 不包含於 對該決策樹狀圖進行訓練。例如,在 請注意,系統會訓練每個決策樹 然後比較 其餘均將保留三分之一

由三個決策樹組成的決策樹系。
          其中一個決策樹會使用三分之二的樣本訓練
          然後使用第三分之一的 OOB 評估。
          第二種決策樹是以不同三分之二的背景訓練
          前面的決策樹狀圖中的範例,
          進行 OOB 評估時使用的是三分之一的
          上一個決策樹狀圖

現成評估是運算效率和保守的 交叉驗證機制的近似值。 在交叉驗證中,針對每個交叉驗證回合訓練一個模型 (例如,以 10% 的交叉驗證方式訓練 10 個模型)。 評估 OOB 時,系統會訓練單一模型。因為行李 會在訓練期間保留每個樹狀圖的部分資料,因此 OOB 評估可使用 以便估算出交叉驗證的結果。

輸出層

#fundamentals

「最終」類神經網路層的架構輸出層包含預測結果。

下圖顯示一個小型深層類神經網路 兩個隱藏層,和輸出層:

一個類神經網路,其中有一個輸入層、兩個隱藏層和
          輸出層輸入層包含兩項特徵。第一個
          由三個神經元和第二個隱藏層
          由兩個神經元組成輸出層由單一節點組成。

過度配適

#fundamentals

建立符合 訓練資料,導致模型無法 對新資料做出正確的預測

正規化可減少過度配適的情況。 提供多種訓練集的訓練,也有助於減少過度配適。

過度取樣

重複使用少數類別例子 不平衡資料集,這樣才能 建立較為平衡的訓練集

比方說,請考慮使用二元分類 主要類別與 少數類別為 5,000:1如果資料集含有百萬個樣本 資料集只包含約 200 個少數類別的範例 有效的訓練樣本數量過少如要克服這種缺口,您必須 可能會多次過度取樣 (重複使用) 這 200 個樣本 足以發出實用的訓練範例

當您發現下列情況時,請務必小心過度配適。 過度取樣

低取樣的情形比較。

P

完備的資料

更有效率的資料儲存方法。

封裝資料儲存庫使用壓縮格式或 以更有效率的方式存取檔案 封裝的資料能將所需的記憶體和運算量降到最低 進而加快訓練速度及提高模型推論效率

包裝資料通常與其他技術搭配使用,例如 資料擴增一般化,進一步改善 模型

pandas

#fundamentals

numpy 為基礎建構而成的資料欄導向資料分析 API。 許多機器學習架構 包括 TensorFlow,支援 pandas 資料結構做為輸入內容。詳情請參閱 pandas 說明文件

參數

#fundamentals

模型在訓練期間學習的權重偏誤 訓練。例如,在 線性迴歸模型,這類參數由 產生偏誤 (b) 和所有權重 (w1w2、 以此類推:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相反地,「超參數」是指 您提供給模型的「您」 (或超參數調整服務)。 舉例來說,「學習率」是超參數。

高效參數調整

#language
#generativeAI

大規模微調 預先訓練的語言模型 (PLM) 比完整微調更有效率。具參數運用效率 調整作業的參數通常比完整參數少 一般而言 能執行工作負載的大型語言模型 以及幾乎也能採用 微調的部分

比較具參數運用效率的調整方法:

具參數運用效率的調整方法,也稱為「具參數運用效率的微調」

參數伺服器 (PS)

#TensorFlow

追蹤模型的參數 以及分散式設定

參數更新

在這段期間,調整模型參數的作業 通常是在單一疊代作業中 梯度下降法

偏導數

除了其中一個變數之外,所有變數都視為常數的導數。 例如,f(x, y)x 相關的部分導數是 f 的導數會視為單獨的 x 函式 (即保留 y) 常數)。f 的部分導數 (相對於 x) 只會著重於 x 的變更方式,並忽略方程式中的所有其他變數。

參與偏誤

#fairness

非回應偏誤的同義詞。請參閱選擇偏誤

分區策略

將變數除以變數後得出的演算法 參數伺服器

Pax

專為大規模訓練作業設計的程式設計架構 大型類神經網路 模型 且範圍涵蓋多個 TPU 加速器方塊 切片Pod

Pax 是以 JAX 為基礎建構的 Flax 之基礎。

顯示 Pax 在軟體堆疊中的位置的圖表。
          Pax 是以 JAX 為基礎打造而成,Pax 本身包含三個
          包含四個不同的層底層包含 TensorStore 和 Flax,
          中間層包含 Optax 和 Flaxformer。首頁頂端
          包含 Praxis Modeling Library內建 Fiddle
          在 Pax 樓梯層上

感知

接收一或多個輸入值的系統 (硬體或軟體); 會對輸入的加權總和執行函式,然後計算單個 輸出值。在機器學習中,函式通常為非線性,例如 ReLUsigmoidtanh。 例如,下列感知中依賴 S 函數來處理 三種輸入值

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下圖中,識別證會接受三個輸入資料 會在進入感知前經過權重修改:

會取用 3 個輸入內容的感知,會乘以個別儲存格
          權重感知輸出單一值。

神經元是神經元類神經網路

performance

超載字詞,含下列含義:

  • 軟體工程界的標準意義。Namely:速度多快 這個軟體可以順利執行嗎?
  • 機器學習的意義。在這個階段,效能可以解答 問題:這個模型的正確性為何?也就是說 模型的預測結果有多好?

排列變數重要性

#df

用來評估的一種變數重要性。 將模型排列在「之後」後,模型的預測誤差增加 特徵的值排列變數重要性與模型無關 指標。

複雜性

一種衡量模型完成工作的能力。 舉例來說,假設您的工作是讀出某個字詞的前幾個字母 使用者正在手機鍵盤上輸入內容,並提供一份可能的清單 自動完成字詞這個工作的複雜度 (P) 約為 您需要提供這個猜測,才能在清單中包含 使用者嘗試輸入的字詞

複雜性與交叉熵相關,如下所示:

$$P= 2^{-\text{cross entropy}}$$

管道

採用機器學習演算法的基礎架構。管道 包括收集資料、將資料放入訓練資料檔案 訓練一或多個模型,並將模型匯出至實際工作環境。

管道

#language

一種模型平行處理形式, 會分為多個連續階段 在其他裝置上階段會處理一個批次 處理下一個批次工作

另請參閱階段訓練

便捷

JAX 函式,可分割程式碼以便在多個執行個體中執行 加速器晶片。使用者傳送函式到 pjit 會傳回具有對等語意但經過編譯的函式 轉換為在多部裝置上執行的 XLA 運算 (例如 GPU 或 TPU 核心)。

透過 pjit,使用者不需重新編寫 SPMD 分區。

截至 2023 年 3 月,pjit 已與 jit 合併。詳情請參閱 分散式陣列和自動 平行處理 ,掌握更多詳細資訊。

PLM

#language
#generativeAI

預先訓練的語言模型的縮寫。

圖片圖

JAX 函式,用於執行輸入函式複本 同時在多部基礎硬體裝置上 (CPU、GPU 或 TPU),則具有不同的輸入值。 pmap 採用 SPMD 技術。

政策

#rl

在強化學習中,代理程式機率分佈圖 從狀態actions

集區

#image

減少前一層建立的矩陣 (或矩陣) 卷積層至較小的矩陣 集區通常包含取值上限或平均值 整體舉例來說,假設 下方 3x3 矩陣:

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

池化運算的作用就像卷積運算一樣 然後將卷積運算 。舉例來說,假設 卷積矩陣以 1x1 步長除以 2x2 切片。 如下圖所示,進行了四項集區作業。 假設每項集區運算都會選出 其中四個

輸入矩陣為 3x3,值為:[[5,3,1], [8,2,5], [9,4,3]]。
          輸入矩陣的左上角 2x2 子矩陣是 [[5,3], [8,2],所以
          左上角集區運算會產生 8 值 (即
          最多 5 個、3 個、8 個和 2 個)。輸入資料的右上方 2x2 子矩陣
          矩陣是 [[3,1], [2,5]],所以右上方集區運算會產生
          將值設為 5輸入矩陣的左下 2x2 子矩陣是
          [[8,2], [9,4]],因此左下方的池化運算會產生值
          9.輸入矩陣的右下角 2x2 子矩陣是
          [[2,5], [4,3]],所以右下方的集區運算會產生值
          5. AI 必須採行
隱私保護設計原則總而言之,池化運算會產生 2x2 矩陣
          [[8,5], [9,5]]。

集區能協助強制執行 平移變異

視覺應用程式集區的正式名稱為「空間集區」。 時間序列應用程式通常稱為「時間集區」。 更正式的說法就是,彙整作業通常稱為「向下取樣」或「降低取樣」

位置編碼

#language

一種用於新增序列符記「位置」相關資訊的技巧, 符記嵌入Transformer 模型使用位置 編碼,深入瞭解不同部分 序列

位置編碼的常見實作使用 Sinusoidal 函式。 (具體來說,正弦函數的頻率和振幅為 而取決於序列中符記的位置)。這項技巧 Transformer 模型能學習訓練 根據其位置排列

正類

#fundamentals

您要測試的類別。

舉例來說,癌症模型的正類可能為「tumor」。 電子郵件分類器中的正類別可能是「垃圾郵件」。

負面類別比較。

後續處理

#fairness
#fundamentals

在執行模型「之後」調整模型的輸出內容。 後續處理可用於強制執行公平性限制,而不 以及模型本身

例如將後續處理套用至二元分類器 並設定分類門檻 機會平等 確認某項屬性的真陽率 該屬性的所有值都相同。

PR AUC (PR 曲線下的區域)

內插式 精確度與喚回度曲線,可透過繪圖取得 (喚回度、精確度) 專屬的 分類門檻:這取決於 計算方式等於 PR AUC 等於 模型的平均精確度

Praxis

Pax 核心高效能機器學習程式庫。普拉克斯經常 名為「圖層程式庫」

Praxis 不僅包含圖層類別的定義,也包含大多數 其他支援元件,包括:

Praxis 提供 Model 類別的定義。

精確性

需要回答分類模型的指標 下列問題:

當模型預測出正面類別時, 預測結果的正確百分比為何?

公式如下:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中:

  • 真陽性代表模型「正確」預測出正類。
  • 偽陽性代表模型錯誤預測為正類。

舉例來說,假設某個模型做出了 200 次正向預測, 在 200 次正向預測中:

  • 其中 150 人為真陽性。
  • 其中 50 則為偽陽性。

在這種情況下:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

準確率喚回度相比。

請參閱分類:準確率、喚回度、精確度和相關 指標 瞭解詳情

精確度與喚回度曲線

不同位置的精確度喚回度曲線 分類門檻

預測

#fundamentals

模型的輸出內容。例如:

  • 二元分類模型的預測結果為正數 或負類別
  • 多元分類模型的預測結果為單一類別。
  • 線性迴歸模型的預測結果是數字。

預測偏誤

代表 預測取自標籤的平均值

不要和機器學習模型的偏誤用語混淆 或倫理和公平性有偏見。

預測式機器學習

任何標準 (「傳統」) 機器學習系統。

「預測性機器學習」一詞沒有正式定義。 相反地,此字詞區分了機器學習系統類別,「並非」基於 生成式 AI

預測相似度

#fairness

一種公平性指標,用來檢查 查看特定分類器的精確度率 都等同於考量的子群組。

例如,預測大學接受度的模型 如果國籍的精確度相同,則預測國籍的精確度 。

預測一致性有時也稱為「預測率同步」

請參閱公平性定義 已說明」 (第 3.2.1 節) 查看「預測對等性」的詳細討論

預測率同步

#fairness

「預測性一致性」的另一個名稱。

預先處理

#fairness
先處理資料,再用於訓練模型。預先處理可能會 只需從不需要的英文文字語料庫中移除 發生在英語字典中,但也可能與重新表達 以排除大量與資料相關的屬性 搭配敏感屬性使用。 預先處理有助於滿足公平性限制

預先訓練模型

#language
#image
#generativeAI

模型或模型元件 (例如 嵌入向量)。 有時候,您會將預先訓練的嵌入向量提供給 「類神經網路」其他時候,模型就會訓練 嵌入向量,而非依賴預先訓練的嵌入。

「預先訓練模型」一詞是指 目前已經歷的大型語言模型 預先訓練

預先訓練

#language
#image
#generativeAI

以大型資料集訓練模型的初始訓練。某些預先訓練模型 通常都是笨蛋,必須通過額外訓練才能加以修正 舉例來說,機器學習專家可能會預先訓練 大型文字資料集的大型語言模型 例如維基百科中的所有英文網頁預先訓練後 而產生的模型可能會透過下列任一指令進一步修正 技巧:

先信

在開始訓練資料前,您認為這些資料的可信度。 舉例來說,L2 正則化必須仰賴 我們先前認為權重應是小型,且 分散在 0 左右

機率迴歸模型

不單獨使用迴歸模型 每個功能體重體重,還有 這些權重的不確定性機率迴歸模型 以及預測結果的不確定度舉例來說 機率迴歸模型可能產生 325 的預測結果 標準差為 12如要進一步瞭解機率迴歸 請參閱這個 Colab tensorflow.org.

機率密度函式

這個函式可用來識別資料取樣頻率,且「確定」具有 特定值。資料集的值為連續浮點值時 但完全比對項目很少發生但「整合」機率 從 xy 的密度函式,會產生以下結果的預期頻率: xy 之間的資料樣本。

舉例來說,假設常態分佈的平均值為 200 標準差為 30判斷資料樣本的預期頻率 介於 211.4 到 218.7 之間的 從 211.4 到 218.7 的常態分佈的密度函式。

提示

#language
#generativeAI

大型語言模型中輸入的任何文字 條件,讓模型以特定方式運作。提示可以很簡短 詞組或任意長度 (例如小說中的完整文字)。提示 可歸入多個類別,如下表所示:

提示類別 範例 附註
問題 鴿子可以飛多快?
操作說明 撰寫有關套利的有趣詩詞。 提示,要求大型語言模型「執行」特定操作。
範例 將 Markdown 程式碼翻譯成 HTML。例如:
Markdown:* 清單項目
HTML:<ul><li>清單項目</li>&lt;/ul&gt;
這個範例提示的第一句是指令, 提示的其餘部分就是範例。
角色 說明為何在機器學習訓練中使用梯度下降法 以及物理學博士 句子的第一部分是指令;詞組 「到物理博士」則是職務的部分
待模型完成的部分輸入內容 英國總理 部分輸入提示有可能突然結束 (如本範例所示) 或是以底線結尾。

生成式 AI 模型能以文字、提示、 程式碼、圖像、嵌入影片等,幾乎什麼都一樣。

提示式學習

#language
#generativeAI

特定模型的功能,可自行調整模型 回應任意文字輸入內容而的行為 (提示)。 在典型的提示式學習範例中 大型語言模型會藉由回應 生成文字舉例來說,假設使用者輸入下列提示:

總結牛頓第三運動定律

未特別訓練 先前的提示而是模型「知識」許多物理知識 以及一般語言規則,以及整體語言規範的許多內容 實用解答這樣的知識足以提供 (非常有幫助) 回答的問題其他人類回饋 (「答案太複雜」或 「什麼是反應?」)可讓部分提示型學習系統逐漸 提供更實用的答案

提示設計

#language
#generativeAI

提示工程的同義詞。

提示工程

#language
#generativeAI

建立可產生所需回應的提示的技巧 從大型語言模型建立起人類執行提示 在這階段,您必須先上傳並備妥資料 透過特徵工程將資料用於模型訓練撰寫條理分明的提示是確保使用者 以大型語言模型產生實用回應提示工程取決於 許多因素,包括:

詳情請見 提示設計簡介 進一步瞭解如何撰寫實用提示。

提示設計是提示工程的同義詞,

提示調整

#language
#generativeAI

有效調整參數機制 也就是下一個字詞的開頭會加上 實際的提示

提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 請在「每個資料層」前方加上前置字元相反地,大部分提示調整作業 將前置字串加入輸入層

Proxy 標籤

#fundamentals

用來估算資料集中無法直接提供的標籤的資料。

舉例來說,假設您必須訓練模型來預測員工 壓力水平。您的資料集包含許多預測功能 沒有名為「stress level」的標籤。 就算你選了「工作場所意外」做為 壓力水平。畢竟,處於高壓力的員工會變得更加健康 而非冷靜的員工還是實際行動?可能會發生職場意外 究竟是出於多種原因而攀升

第二個例子:假設您希望「它是雨天嗎?」使用布林值標籤 但資料集不含雨資料如果 使用者可以拍攝人物相片 隨便攜帶雨傘做為標籤標籤,請問它正在下雨嗎?請問 適當的 Proxy 標籤?有可能,但某些文化的人 比起雨,更有可能攜帶遮陽傘來保護太陽的機率。

Proxy 標籤通常不夠完善。如果可以的話,請將實際標籤 Proxy 標籤如果沒有實際標籤,請選擇 Proxy 並謹慎選擇最不可能的 Proxy 標籤

Proxy (敏感屬性)

#fairness
用作 敏感屬性。舉例來說 郵遞區號可用來判斷收入 種族或族裔。

純函式

此函式的輸出僅以其輸入內容為基礎,沒有側邊 效果。具體來說,純函式不會使用或變更任何全域狀態 例如檔案內容,或函式外部的變數值。

Pure 函式可用來建立安全執行緒程式碼,這有利於 對多個 model 程式碼進行資料分割時 加速器晶片

JAX 的函式轉換方法需要 輸入函數只是純函式

Q

Q 函式

#rl

在「強化學習」中, 可預測從 action狀態,然後追蹤特定政策

Q 函式也稱為「狀態動作值函式」

Q-learning

#rl

強化學習中,這種演算法 允許代理程式 以瞭解最佳 Q 函式馬可夫決策程序,在 Bellman 方程式。馬可夫決策程序模型 環境

分位數

分位數值區中的每個值區。

分位數值區

將特徵的值發布至值區,讓每個值區 值區中的樣本數量相同 (或幾乎相同)例如: 下圖將 44 點分為 4 個區塊, 共有 11 點。為了讓圖中的每個值區都能包含 點,某些值區橫跨不同的 x 值寬度

這 44 個資料點分為 4 個區塊 (每個 11 個點)。
          每個值區所包含的資料點數量相同
          某些值區所含的特徵值範圍比其他值區
          Cloud Storage 也提供目錄同步處理功能
方便您同步處理 VM 目錄與值區

量化

過載字詞,可能以下列任何方式使用:

  • 實作分位數值區 特定功能
  • 將資料轉換為零和 1,加快儲存、訓練 並推論出布林資料比雜訊和錯誤更可靠 量化也有助於提高模型的正確性 量化技術包括四捨五入、截斷 bining
  • 減少用於儲存模型的位元數 參數。舉例來說,假設模型的參數是 並以 32 位元浮點數儲存量化功能可將 將參數從 32 位元降至 4、8 或 16 位元量化可減少 包括:

    • 運算、記憶體、磁碟和網路用量
    • 推論述詞的時間
    • 耗電量

    不過,量化有時會降低模型的 預測結果

佇列

#TensorFlow

實作佇列資料的 TensorFlow Operation 成本中心的架構通常用於 I/O。

R

RAG

#fundamentals

以下字詞的縮寫 擷取評估產生版本

隨機森林

#df

一種組合決策樹 每個決策樹都使用特定隨機雜訊來訓練 ,例如行李

隨機樹係是一種決策樹系

隨機政策

#rl

在「強化學習中, 選擇一項政策 隨機動作

排名

這是一種監督式學習,且 目標是排序項目清單

rank (基數)

類別在機器學習問題中的序數位置 將類別從最高到最低舉例來說 便能將狗的獎勵由最高 (牛排) 以及 最低 (雨刷)。

rank (Tensor)

#TensorFlow

Tensor 中的維度數量。例如: 純量排名為 0,向量排名為 1,矩陣則排名為 2。

請別與「排名 (序數)」混淆。

資料標註者

#fundamentals

提供範例標籤的真人。 「註解者」是評分者的另一個名稱

召回

需要回答分類模型的指標 下列問題:

基準真相 陽性類別,有多少百分比的預測 模型正確判定為正類?

公式如下:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中:

  • 真陽性代表模型「正確」預測出正類。
  • 偽陰性代表模型誤認預測 負面類別

舉例來說,假設模型針對 真值是正類在這 200 項預測中:

  • 其中 180 個是真陽性。
  • 20 是偽陰性。

在這種情況下:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

請參閱分類:準確率、喚回度、精確度和相關 指標 瞭解詳情

推薦系統

#recsystems

替每位使用者選擇數量相對較少的系統 從大型語料庫擷取的 items。 舉例來說,影片推薦系統可能會推薦兩部影片 從 10 萬部影片的語料庫中挑選出「Casablanca」, 《The Philadelphia Story》單人、Wonder Woman黑色 Panther。影片推薦系統 並根據以下因素推薦內容:

  • 同類使用者評分或觀看過的電影。
  • 類型、導演、演員、目標客層...

線性整形單元 (ReLU)

#fundamentals

啟用函式,行為如下:

  • 如果輸入為負數或零,則輸出值為 0。
  • 如果輸入為正數,則輸出結果等於輸入內容。

例如:

  • 如果輸入是 -3,則輸出為 0。
  • 如果輸入是 +3,則輸出結果是 3.0。

ReLU 的情節如下:

兩條折線圖。第一行具有常數
          y 值為 0,沿著 X 軸 (-infinity,0 到 0,-0) 計算。
          第二行的起始值為 0,0。這條線的斜率為 +1
          介於 0,0 到 +infinity 之間

ReLU 是很受歡迎的活化函數。儘管它的單純行為很簡單 ReLU 仍可讓類神經網路學習nonlinear Featurelabel 之間的關係。

循環類神經網路

#seq

刻意執行多個 每個執行作業都會在下次執行時提供動態饋給。具體而言 而先前執行中的隱藏層 下一次執行時,這個隱藏層會輸出至同一個隱藏層循環類神經網路 這個做法特別適合評估序列,因此隱藏層 可以透過先前的類神經網路先前執行過的部分 序列。

舉例來說,下圖顯示的循環類神經網路會 執行 4 次請注意,在隱藏層中取得的值 第一個執行作業會成為輸入中相同隱藏層的一部分 第二次執行時同樣地,在 第二次執行會成為輸入中同一個隱藏層的一部分 第三次執行透過這種方式,循環類神經網路會逐步訓練 會預測整個序列的含義 代表個別字詞的組合

會執行四次來處理四個輸入字詞的 RNN。

迴歸模型

#fundamentals

非正式的模型,可以產生數值。(相對地, 分類模型會產生類別 prediction.)例如,以下是所有迴歸模型:

  • 用來預測特定房屋價值的模型,例如 423,000 歐元。
  • 預測特定樹木的壽命,例如 23.2 年。
  • 預測特定城市的降雨量模型 ,例如 0.18 英寸

迴歸模型有兩種常見的類型:

  • 線性迴歸:找出 將標籤值對應到特徵
  • 邏輯迴歸: 則系統通常會對應至特定類別的機率為 0.0 至 1.0 的機率 預測結果

並非每個輸出數值預測的模型都是迴歸模型。 在某些情況下,數字預測結果實際上只是分類模型 會發生的數字類別名稱例如 數值郵遞區號是分類模型,不是迴歸模型。

正則化

#fundamentals

任何可減少過度配適的機制。 常見的正規化類型包括:

正規化也可以定義為模型複雜度的懲罰。

正則化率

#fundamentals

這個數字用來指定 正則化形式。提高 正則化率可降低過度配適,但可能會 降低模型的預測能力相反地,如果減少或省略 正則化率會增加過度配適。

強化學習 (RL)

#rl

一套可學習最佳政策的演算法,旨在 盡量提高與消費者互動時的報酬環境, 舉例來說,大多數遊戲的終極獎勵都是勝利。 強化學習系統能夠充分掌握複雜的遊戲技巧 評估玩家在遊戲中移動的 創造出最終導致損失的成果。

人類回饋增強學習 (RLHF)

#generativeAI
#rl

運用評估人員的意見回饋,提升模型回應的品質。 舉例來說,RLHF 機制可要求使用者為模型的品質評分 以 👍? 或 👎? 表情符號回應。之後就能調整日後的回應 是根據這些意見回饋製作而成

ReLU

#fundamentals

「Rectified Linear Unit」的縮寫。

重播緩衝區

#rl

在類似 DQN 的演算法中,代表代理程式使用的記憶體。 儲存狀態轉換,以便用於 體驗重播

備用資源

訓練集模型的副本 通常在另一部機器上舉例來說,系統可能會使用以下參數: 資料平行處理的策略:

  1. 將現有模型的備用資源放入多部機器。
  2. 將訓練集的不同子集傳送至各個備用資源。
  3. 匯總參數更新。

通報偏誤

#fairness

使用者編寫動作的發生頻率 結果或性質與實際情況不符 屬性的特性或程度 一群人報表偏誤可能會影響組成 供機器學習系統學習的資料

舉例來說,在書籍中,「笑」這個字詞較普遍 呼吸。一種機器學習模型,可預估 一對大笑和呼吸法則能判斷 笑聲比呼吸更為常見

兩者的向量表示法

將資料對應至實用「功能」的程序。

重新排名

#recsystems

推薦系統的最後階段 在此期間,評分項目可能會根據其他部分需要重新評分 (通常是非機器學習) 演算法重新排名時,系統會評估 產生的分數,並採取以下動作:

  • 排除使用者已購買的商品。
  • 提高新物品的分數。

檢索增強生成 (RAG)

#fundamentals

一個能改善 大型語言模型 (LLM) 輸出內容 方法以在模型訓練後所擷取的知識來源為基礎。 RAG 向訓練過的 LLM 提供 存取從信任的知識庫或文件擷取的資訊。

使用檢索增強生成技術的常見動機包括:

  • 提高模型生成回應的事實準確率。
  • 將非訓練目的知識提供給模型。
  • 變更模型使用的知識。
  • 讓模型能夠引用來源。

舉例來說,假設化學應用程式使用 PaLM API,以產生摘要 與使用者查詢有關的資訊當應用程式的後端收到查詢時,後端:

  1. 搜尋與使用者查詢相關的資料 (「擷取」)。
  2. 在使用者的查詢中附加 (「錯誤」) 相關化學資料。
  3. 指示 LLM 根據附加資料建立摘要。

回攻

#rl

特定政策和特定狀態的「強化學習」 return 是代理程式獲得的所有獎勵總和 預期會收到的政策 劇集結尾的 state。虛擬服務專員 以折扣提供獎勵,強調預期會延遲發放的獎勵 取決於取得獎勵所需的狀態轉換。

因此,如果折扣係數為 \(\gamma\)和 \(r_0, \ldots, r_{N}\) 表示獎勵直到這集結束,才會計算收益 如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中,以數字表示 處於狀態中的 action,如 在環境中,

橋接器正規化

L2 正則化的同義詞。字詞 橋接器正規化在純統計資料中更常使用 情境,而 L2 正則化則較常使用 機器學習領域

RNN

#seq

循環類神經網路的縮寫,

ROC (接收者操作特徵) 曲線

#fundamentals

真陽率與 不同人的偽陽率 二進位的分類門檻 例如單一語句分類

ROC 曲線的形狀表明二元分類模型的能力 將正類與負類別區分開來舉例來說 二元分類模型 來自所有正類的類別:

數字行右側有 8 個正面範例
          左邊是 7 個負面示例。

上述模型的 ROC 曲線如下所示:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率曲線的 L 形狀為反轉 L。曲線
          會從 (0.0,0.0) 開始,直至 (0.0,1.0)。然後沿著曲線
          從 (0.0,1.0) 到 (1.0,1.0)。

相較之下,下圖呈現了原始邏輯迴歸 無法將負類別與 的正向類別:

有正例和負類的數值行
          完全排除。

這個模型的 ROC 曲線如下所示:

ROC 曲線,實際上是 (0.0,0.0) 的直線
          (1.0,1.0)。

同時,大多數二元分類模型也在現實世界中各自獨立 到某種程度的正面和負面類別,但這通常不盡完美所以 典型的 ROC 曲線在兩極極端之間:

ROC 曲線。X 軸為偽陽率,Y 軸
          是真陽率ROC 曲線接近弧形弧形
          從西到北進行指南針。

理論上最接近 (0.0,1.0) 的 ROC 曲線點,可識別出 理想的分類門檻不過,還有一些其他真實問題 決定理想的分類門檻例如: 偽陰性的情況比偽陽性更大的疼痛。

名為 AUC 的數值指標總結了 ROC 曲線 單一浮點值

角色提示

#language
#generativeAI

這是提示的選用部分,可用來識別目標對象 讓生成式 AI 模型的回應不具備角色 則大型語言模型提供的答案不一定實用 提問者可以輕鬆獲得解答角色提示來說 模型該如何回答 目標對象例如,下列所述的角色提示部分 會以粗體顯示提示:

  • 請總結這篇文章,瞭解經濟學博士
  • 說明 10 歲的眉毛如何。
  • 說明 2008 年金融危機。就像跟年幼的孩子一樣 或黃金擷取器

根號

#df

起始的節點 (第一個節點 決策樹狀圖中的 condition 物件。 按照慣例,圖表會將根層級置於決策樹狀圖的頂端。 例如:

包含兩個條件和三個葉子的決策樹。
          起始條件 (x > 2) 為根。

根目錄

#TensorFlow

您為託管 TensorFlow 子目錄指定的目錄 多個模型的查核點和事件檔案

均方根誤差 (RMSE)

#fundamentals

均方誤差的平方根。

旋轉不變性

#image

在圖片分類問題中,演算法 也可以將圖片分類例如: 演算法仍然能夠辨識網球拍,無論網球是否朝上 上下傾斜請注意,旋轉不變並非理想; 舉例來說,倒立的 9 不應歸類為 9。

另請參閱翻譯不相同大小差異

R 平方

迴歸指標會指出 label 原因:個別功能或特徵集。 R 平方值是介於 0 到 1 之間的值,可以按照以下方式解讀:

  • R 平方值為 0,表示標籤沒有因 特徵集
  • R 平方值為 1,表示標籤的所有變化版本是由 特徵集
  • R 平方值介於 0 和 1 之間,表示 可能由特定特徵或特徵集預測 舉例來說,R 平方值是 0.10,代表變異數的 10% 這是因為特徵集的 R 平方值 0.20 其中 20% 代表的是功能集,以此類推。

R 平方值是 皮爾森相關性 係數 介於模型預測的值和基準真相之間。

S

取樣偏誤

#fairness

請參閱選擇偏誤

取樣 (含取代)

#df

一種從一組候選項目中挑選項目的方法 使用者可以重複挑選項目「有取代」一詞意思是 每次選取後,所選項目就會傳回 候選項目。反之是「不含替換的取樣」, 這表示每個候選項目只能挑選一次。

以下列水果組為例:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假設系統會隨機選擇 fig 做為第一個項目。 如果使用取樣的方式進行取代,系統會選用 從下列集合中選取的第二個項目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是,這是與之前相同的設定 請再次選取 fig

如果未經替換就使用取樣,一旦選出取樣結果就無法 又再次挑出。舉例來說,如果系統會隨機選擇 fig 做為 第一項樣本,因此無法再次選取fig。因此,系統會 會從下列組合中挑選第二個樣本 (較低值):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

儲存及復原 TensorFlow 模型的建議格式。SavedModel 是一種語言中立且可復原的序列化格式, 產生、使用及轉換 TensorFlow 的高階系統與工具 我們來看評估分類模型成效時 的喚回度和精確度指標

請參閱儲存和還原章節

平價

#TensorFlow

TensorFlow 物件 而負責儲存模型查核點

純量

可以表示單一數字或單一字串, rank 0 的 tensor。例如,下列 每個程式碼行,都會在 TensorFlow 中建立一個純量:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

資源調度

會改變標籤範圍的數學轉換或技巧 和/或特徵值某些形式的資源調度功能對轉換來說非常實用 例如正規化

在機器學習領域中,常用的資源調度形式包括:

  • 線性資源調度,通常會使用減法和 以 -1 到 +1 之間的數字取代原始值,或是 介於 0 到 1 之間。
  • 對數縮放,將原始值替換為 對數。
  • Z 分數正規化:將 原始值,這個浮點值代表 標準差。

scikit-learn

熱門的開放原始碼機器學習平台。詳情請見 scikit-learn.org

計分

#recsystems

推薦系統的一部分, 提供的每個項目 生成候選內容階段。

選擇偏誤

#fairness

從取樣資料產生的結論有誤,因選取程序而發生錯誤 以根據資料中觀察到的樣本,產生系統化差異 而非觀察到的現象下列形式的選擇偏誤如下:

  • 覆蓋偏誤:資料集中的母體不含 與機器學習模型產生的人口 預測出類神經網路
  • 取樣偏誤:系統不會從目標群組隨機收集資料。
  • 非回應偏誤 (也稱為「參與性偏誤」):來自 部分群組選擇退出問卷調查的比率,與 和其他群組。

舉例來說,假設您建立的機器學習模型會 人們對電影的熱愛如要收集訓練資料, 你向劇院前排的所有人發送問卷調查 或是上映電影不過,這聽起來可能很合理 收集資料集;但這種資料收集方式 包含下列形式的選擇偏誤:

  • 涵蓋率偏誤:對選擇觀看資料的人口進行取樣 則模型的預測結果可能不會將一般人判讀為一般 他們對電影的興趣度 早 早已經 。
  • 取樣偏誤:而不是隨機抽樣 目標人口 (電影中的所有人物),您只會取樣 站在第一線的人有可能是人們坐著 第一排觀眾對電影的興趣比 。
  • 非回應偏誤: 一般而言,具有強烈意見的人往往 回覆選修問卷調查的頻率比接受程度低的學員 意見。由於電影問卷是選填內容,所以回覆 因此更有可能形成 生物分佈 比正常 (鈴鐺) 分佈情形。

自我注意力層 (也稱為自註意力層)

#language

一種可以轉換序列的類神經網路層 嵌入 (例如 token 嵌入) 轉換成另一個嵌入序列輸出序列中的每個嵌入項目 整合來自輸入序列元素的資訊 注意力機制來保護使用者隱私。

自註意的「自己」部分是指 而非其他情境資訊自我注意力是 轉換工具的構成元素,並使用字典查詢功能 術語,例如「query」、「鍵」和「value」。

自我注意力層從一系列輸入表示法開始 。字詞的輸入表示法 和嵌入的內容對於輸入序列中的每個字詞,網路 計算字詞與序列中每個元素的關聯性 還能分析語法及擷取語言資訊 例如字詞之間的關係關聯性分數會決定字詞最終呈現的程度 融合其他字詞的表示法。

以下列句子為例:

動物太累,所以沒有跨越街道。

下圖 (根據 Transformer:新型類神經網路架構 瞭解) 能顯示人稱代詞的自註意層的注意力模式, 每一行的暗度,代表每個字詞對 表示法:

下列句子出現兩次:動物並未跨越
          也太累人線條將代表人稱代名詞的連接
          一個語句到五種符記 (動物、街道、它和
          。代名詞之間的線
          這個詞也是最強的

自我注意力層會突顯與「它」相關的字詞。在本 注意力層已經學會如何突顯「它」可能 ,將最高權重指派給「animal」

對於一串 n 符記,自我注意力會轉換序列 嵌入 n 次,依序列中的每個位置分別輸入一次。

另請參閱「注意事項」和 多頭自我注意力

自主學習

轉換容器的一系列技術 非監督式機器學習問題 導致監督式機器學習問題 方法是從 未加上標籤的範例

某些以 Transformer 為基礎的模型,例如 BERT 自我監督式學習

「自我監督式訓練」 半監督式學習方法。

自我訓練

自監督學習的一種形式, 這項做法特別適用於以下情況:

自我訓練的運作方式為反覆執行下列兩個步驟,直到模型完成 停止改善:

  1. 使用監督式機器學習 透過有標籤的樣本訓練模型
  2. 使用步驟 1 建立的模型,產生 並將有高可信度的素材資源移至未加標籤的範例 帶有預測標籤的範例

請注意,步驟 2 的每次疊代都會增加步驟 1 有標籤的範例, 訓練好的模型

半監督式學習

使用某些訓練範例含有標籤的資料訓練模型, 其他機構則不會。半監督式學習的一項技巧是推論標籤 標籤,然後訓練推論標籤,以建立新的 模型如果使用標籤的取得成本高昂,採用半監督式學習技術就相當實用 但在各方面都很實用

自我訓練是半監督式學習技巧 學習模式

敏感屬性

#fairness
可能在法律上需要特別留意的人體屬性 或個人基於道德、社會或個人因素

情緒分析

#language

使用統計或機器學習演算法決定群組的 對服務、產品、服務或產品的整體態度 機構或主題舉例來說,使用 自然語言理解、 演算法可以根據文字回饋執行情緒分析 評估學生的學習程度 通常喜歡或不喜歡本課程。

序列模型

#seq

其輸入具有循序相依關係的模型。例如預測 從先前看過的一系列影片中觀看出的下一部影片。

序列對序列工作

#language

此工作可將 tokens 的輸入序列轉換為輸出。 符記序列以這兩種常見的序列至序列為例 工作為:

  • 譯者:
    • 輸入序列範例:「我愛你」。
    • 輸出序列範例:「Je t'aime」。
  • 回答問題:
    • 輸入序列範例:「我需要在紐約市準備我的車輛嗎?」
    • 輸出序列範例:「No.請留在家中。」

人份

透過以下程序,將訓練過的模型提供給我們,以提供預測結果: 線上推論離線推論

形狀 (Tensor)

報表中每個維度中的元素數量 張量形狀會以整數清單表示。例如: 以下二維張量的形狀是 [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow 使用資料列主要 (C 樣式) 表示 因此 TensorFlow 中的形狀是 [3,4] 而非 [4,3]。換句話說,在 2D 模型中,這個 2D 模型 是[「列數」和「欄數」]

靜態形狀是指編譯期間「已知」的張量形狀。

動態形狀在編譯期間「未知」,且 因此仰賴執行階段資料這個張量可能會以 預留位置維度,如 [3, ?] 所示。

資料分割

#TensorFlow
#GoogleCloud

訓練集模型。有些程序會將建立資料分割的方式 加入的 examplesparameters (通常) 相等的區塊然後為每個資料分割指派給不同的機器。

分割模型稱為「模型平行處理」 資料分割資料稱為「資料平行處理」

縮小

#df

「超參數」 控制項的梯度提升 過度配適。減少梯度提升 類似於 學習率梯度下降法。縮減為小數 值介於 0.0 和 1.0 之間縮減值越小可減少過度配適 大於縮減值

S 函數

#fundamentals

「擠壓」的數學函式限制多個輸入值 通常是 0 到 1,或 -1 到 +1。也就是說,您可以傳送任何數字 (2、100 個字元) 然後輸出小於零分的倒數 因此受到限制 S 函數的圖表如下所示:

具有 x 值橫跨網域的 2D 曲線圖
          -infinity 到 +正數,而 y 值跨越範圍近 0 到
          將近 1.當 x 為 0 時,y 為 0.5。曲線的斜率一律會
          正值,最高斜率為 0,0.5,然後逐漸下降
          隨著 x 的絕對值增加

S 函數在機器學習領域有幾項用途,包括:

相似度量測

#clustering

「叢集」演算法中,用來判定 看看另外兩個例子的相似度

單一節目 / 多個資料 (SPMD)

對不同輸入執行相同運算的平行處理技術 同時在不同裝置上同步資料SPMD 的目標是要取得結果 這是平行程式設計最常見的樣式。

大小不變

#image

在圖片分類問題中,演算法 即使圖片大小有所變更也不受影響例如: 演算法仍能找出 貓用 2000 萬像素或 200K 像素。請注意 圖片分類演算法在大小差異方面仍具有實際限制。 舉例來說,演算法 (或人類) 不太可能正確將 僅支援 20 像素的貓咪圖片

另請參閱翻譯不相同旋轉不變性

素描

#clustering

非監督式機器學習中 是執行初步相似度分析的演算法類別 參考範例草擬演算法會使用 縣市敏感雜湊函式 找出可能相近的分數,然後將 複製到值區

草圖有助於減少相似度計算所需的運算作業 訓練而成而不是計算每個 模型的相似度,只會計算每個樣本的相似度 一組對應的資料點

skip-gram

#language

可省略 (或「略過」) 原文字詞的 n-gram 換句話說,N 字的意思不一定是相鄰的字詞。更多內容 準確來說就是「k-skip-n-gram」是 n 元語法,最多 k 字 略過。

例如:「快速棕色狐狸」下列可能的 2 公克如下:

  • 「快速」
  • 「快速棕色」
  • 「棕色狐狸」

「1-skip-2 公克」是指兩個字詞中間最多 1 個字詞。 所以,我們要說的是「快速棕色狐狸」下列 1 - 略過 2 公克:

  • 「棕色」
  • "快速狐狸"

此外,所有 2 公克是 1-skip-2-grams,因為減少 就會略過

跳轉文字有助於進一步瞭解字詞的前後脈絡。 在這個範例中,「fox」與「快速」直接相關參數集 1-skip-2-grams,但 2 公克集合則否。

跳克數說明訓練 字詞嵌入模型。

軟性最高

#fundamentals

此函式可決定 中每個可能類別的機率 多元分類模型:機率加起來 確切來說是 1.0例如,下表顯示 softmax 的發布方式 各種機率:

圖片為... 機率
0.85
cat 0.13
0.02

Softmax 也稱為「full softmax」

候選抽樣比較。

軟提示調整

#language
#generativeAI

調整大型語言模型的技巧 以執行特定工作 微調。與其重新訓練所有 模型的權重、軟提示調整作業 自動調整提示以達成相同的目標。

收到文字提示時,請微調提示 通常會將額外的權杖嵌入附加至提示,並使用 反向傳播以最佳化輸入

一個「困難」提示含有實際符記,而非符記嵌入。

稀疏特徵

#language
#fundamentals

特徵的值主要為零或空白。 舉例來說,包含 1 個值和 100 萬個值的特徵是 稀疏。相反地,稠密特徵的值 通常不是零或空白

在機器學習領域,有許多令人驚訝的特徵是稀疏特徵。 類別特徵通常是稀疏的特徵。 舉例來說,以森林中有 300 種可能的樹種為例, 可能只會辨識楓樹。或是數百萬 一個範例可能會找出 就只要「Casablanca」即可。

在模型中,您通常會使用 one-hot 編碼。如果 one-hot 編碼太大 可以將嵌入層放在 one-hot 編碼來提高效率。

稀疏表示法

#language
#fundamentals

在稀疏特徵中僅儲存非零元素的 position(s)

舉例來說,假設名為 species 的類別特徵識別為 36 可以瞭解特定森林中的大樹種進一步假設 example 只能識別單一物種。

您可以使用 one-hot 向量來表示每個範例中的樹木種類。 單樣本向量會包含單一 1 (代表 在此範例中的特定樹種) 和 35 個 0 (代表 這個例子中「沒有」35 種樹種)。one-hot 表示法 的 maple 可能如下所示:

在 0 到 23 排名的向量中,值 0,位置。
          24 包含值 1,排名 25 到 35 則包含值 0。

或者,稀疏表示法只會找出 特定物種如果 maple 位於 24 的位置,則為稀疏表示法 maple 就是:

24

請注意,稀疏表示法比單一樣本更為精簡 這種表示法

稀疏向量

#fundamentals

值主要為零的向量。另請參閱稀疏度 特徵一致性

稀疏度

向量或矩陣中設為零 (或空值) 的元素數量除以 除以該向量或矩陣內的項目總數例如: 假設有 100 個元素的矩陣,其中有 98 個儲存格含有 0。計算 稀疏度如下:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

「特徵的稀疏度」是指特徵向量的稀疏度; 模型稀疏度是指模型權重的稀疏度。

空間集區

#image

請參閱集區相關說明。

分割

#df

決策樹狀圖中,這是另一個 condition

分割器

#df

訓練決策樹時,處理常式 和演算法) 會找出 每個節點condition 屬性。

SPMD

單一計畫 / 多個資料的縮寫,

平方轉軸損失

轉軸損失的平方。方形轉軸損失懲罰 比起一般轉軸損失,異常值更為嚴格。

平方損失

#fundamentals

L2 損失的同義詞。

階段訓練

#language

以連續階段訓練模型的方法。目標可以是 加快訓練程序,或提升模型品質

漸進式堆疊方法的插圖如下:

  • 第 1 階段包含 3 個隱藏層,第 2 階段含有 6 個隱藏層, 階段 3 含有 12 個隱藏圖層。
  • 第二階段從 3 個隱藏層中學到的權重開始訓練 第三階段一開始是利用 隱藏層的隱藏層

三個階段,分別標示為第 1 階段、第 2 階段和第 3 階段。
          每個階段都包含不同數量的圖層:第 1 階段包含
          第 2 層包含 3 個層,第 2 層包含 6 個層,第 3 層包含 12 個層
          第 1 階段的 3 層是第 2 階段的前 3 層。
          同樣地,第 2 階段的 6 層會成為前 6 層
          第三階段:

另請參閱直線符號

#rl

在強化學習中,描述目前情況的參數值 代理程式可用來 選擇動作

狀態動作值函式

#rl

Q-function 的同義詞。

靜態

#fundamentals

只完成一次這些動作,不會一直重複進行。 「靜態」和「離線」這兩個詞彙是同義詞。 以下是靜態離線機器的常見用法 學習中:

  • 靜態模型 (或「離線模型」) 則是經過一次訓練的模型 可能會需要一段時間
  • 靜態訓練 (或「離線訓練」) 是指訓練 靜態模型
  • 靜態推論 (或離線推論) 是 模型會一次產生一批預測結果

對比動態

靜態推論

#fundamentals

離線推論的同義詞。

穩定性

#fundamentals

此特徵的值在一個或多個維度中不會改變,通常是時間。 例如,下列特徵的值在 2021 年相同,且 2023 年展出的基地。

現實世界中,很少有展覽中心性展覽品。甚至功能 相當於隨著時間的穩定性 (例如海平面) 的變化。

非期待性的對比。

點選 [下一步]

單一批次的前向傳遞和向後傳遞。

詳情請參閱反向傳播一節 按下 [轉向] 選項

步距

學習率的同義詞。

隨機梯度下降法 (SGD)

#fundamentals

梯度下降法演算法: 批量是一。換句話說,SGD 以 並統一選擇 隨機擷取訓練集中的模型

步長

#image

在卷積運算或池化中, 下個系列的輸入配量以下方動畫為例 展示了卷積運算期間的 (1,1) 步。因此 下一個輸入片段 從上一個輸入片段右側開始一個位置 片段當作業到達右側邊緣時,就會執行下一個配量 就會縮小到左側,但有一個位置朝下

輸入 5x5 矩陣和 3x3 卷積濾鏡。由於
     步長為 (1,1),系統會套用卷積濾波器 9 次第一個
     卷積切片評估輸入中左上方的 3x3 子矩陣
     矩陣第二個片段用來評估前段的 3x3 圖像
     子矩陣第三個卷積切片評估的是右上方 3x3 度
     子矩陣第四個切片用來評估中間的 3x3 子矩陣。
     第五項用來評估中間的 3x3 子矩陣。第六項
     會評估中間右側 3x3 的子矩陣。第七項分析會評估
     左下角 3x3 子矩陣第 8 個片段會評估
     中間的 3x3 子矩陣第九段評估了右下角 3x3 的大小
     子矩陣

上述範例展示了二維步長。如果輸入內容 矩陣是三維,步長也是 3D。

結構風險最小化 (SRM)

在兩個目標間取得平衡的演算法:

  • 需要建構最可預測的模型,例如最低損失。
  • 必須盡量簡單 (例如 正則化)。

例如,若函式能盡可能減少 訓練集是一種結構風險最小化演算法

實際風險最小化不同。

向下取樣

#image

請參閱集區相關說明。

子字詞符記

#language

語言模型中,符記, 子字串,可以是整個字詞。

例如「itemize」這個字詞可細分為「item」項目 (根字詞) 和「ize」(後置字元),每個結尾都會 產生下一個符記將不常見的字詞拆成「子字詞」 針對更常見的組成部分運作語言模型 例如前置字串和後置字串

相反地,「往來」這類常用的字詞可能並未中斷 代表單一符記

摘要

#TensorFlow

在 TensorFlow 中,系統會針對特定 step,通常用於在訓練期間追蹤模型指標。

監督式機器學習

#fundamentals

使用特徵及其訓練方式訓練模型 對應的標籤。監督式機器學習 學習某個科目 對應的答案瞭解問題之間的對應關係 學生就能找出新問題的答案 同一個主題的問題

比較對象 非監督式機器學習

合成特徵

#fundamentals

輸入特徵中未出現的特徵,但 衍生的片段建立綜合特徵的方法 包括:

  • 將連續特徵特徵分塊化為範圍特徵分塊。
  • 建立跨功能
  • 將一個特徵值乘以 (或除以) 其他特徵值 或單用舉例來說,如果 ab 是輸入特徵,則 以下是綜合特徵的範例:
    • ab
    • a2
  • 將準函式套用至特徵值。舉例來說,如果 c 是輸入特徵,以下是合成特徵的範例:
    • sin(c)
    • ln(c)

透過正規化資源調度建立的功能 單靠模型不會視為合成特徵

T

T5

#language

文字轉文字遷移學習 模型 推出者: 2020 年 Google AI。 T5 是編碼器-解碼器模型,根據 以極大規模訓練而成的 Transformer 架構 這個模型能有效處理各種自然語言處理工作 例如生成文字、翻譯語言 以對話方式解讀對方

T5 會從「Text-to-Text Transfer Transformer」(文字轉文字轉換轉換) 中的五個 T 取得名稱。

T5X

#language

經過設計的開放原始碼機器學習架構 建構及訓練大規模的自然語言處理作業 (NLP) 模型T5 則是在 T5X 程式碼集上實作 (也就是 以 JAXFlax 為基礎而建構。

表格 Q 學習

#rl

強化學習中,導入 Q-learning 使用資料表來儲存 Q 函式適用於 stateaction

目標

label 的同義詞。

目標網路

#rl

Deep Q-learning 是穩定可靠的類神經網路 主要類神經網路的近似類神經網路 實作 Q 函式政策。 接著,您可以依據目標預測的 Q 值訓練主要聯播網。 更是如此因此,可避免在主要視窗 但聯播網本身會根據預測的 Q 值進行訓練避免提供這類回饋 提高訓練穩定性

任務

可使用機器學習技術解決的問題,例如:

溫度

#language
#image
#generativeAI

控制隨機程度的超參數 輸出內容隨機性參數越高,輸出量就會越多 降低隨機性參數則能產生較不隨機的輸出內容

最佳溫度的選擇取決於特定的應用和 模型輸出內容的偏好屬性。舉例來說 因此應該在建立應用程式時,調高溫度 產生廣告素材輸出內容反之,最好在 建構模型來分類圖像或文字 準確率與一致性

溫度通常會搭配 softmax 使用。

時序資料

記錄在不同時間點的資料。例如,冬季大衣特價 系統會記錄時效性資料

Tensor

#TensorFlow

TensorFlow 程式的主要資料結構。張量是 ND 其中 N 可能相當龐大) 資料結構,最常見的是純量、向量 或矩陣Tensor 的元素可以包含整數、浮點數、 或字串值

TensorBoard

#TensorFlow

資訊主頁會顯示系統執行 其他 TensorFlow 程式

TensorFlow

#TensorFlow

大規模的分散式機器學習平台。字詞也是指 TensorFlow 堆疊中的基本 API 層,支援一般運算 Dataflow 圖表

雖然 TensorFlow 主要用於機器學習作業,但您也可以使用 透過 TensorFlow 使用 TensorFlow,用於進行數值運算的非機器學習工作 Dataflow 圖表。

TensorFlow Playground

#TensorFlow

以視覺化方式 超參數影響模型 (主要為類神經網路) 訓練 前往 http://playground.tensorflow.org 試用 TensorFlow Playground

TensorFlow Serving

#TensorFlow

在實際工作環境中部署已訓練模型的平台。

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

可最佳化 機器學習工作負載的效能這些 ASIC 會在 多個 TPU 晶片搭配 TPU 裝置使用。

張量排名

#TensorFlow

請參閱「rank (Tensor)」。

張量的形狀

#TensorFlow

Tensor 內含各種維度的元素數量。 舉例來說,[5, 10] Tensor 的形狀是 1 個維度 5 和 10 另一個 VM

張量大小

#TensorFlow

Tensor 包含的純量總數。舉例來說 [5, 10] Tensor 的大小為 50。

TensorStore

可提高讀取效率的程式庫 編寫大型的多維陣列

終止條件

#rl

強化學習中, 判斷單集節目的結束時間,例如服務專員的回覆時間 或超過門檻性狀態轉換的情況。 例如,在 tic-tac-toe (也是 一集節目終止時 。

test

#df

決策樹狀圖中,這是另一個 condition

測試損失

#fundamentals

指標,代表模型的損失測試集。建構模型時, 通常都會盡量減少測試損失因為測試損失偏低 表示訊號是否良好 (低於訓練損失) 或 驗證損失偏低。

測試損失與訓練損失或驗證損失之間有時會存在明顯落差 表示您必須提高 正則化比率

測試集

預留用於測試的資料集子集 訓練好的模型

傳統上,您會將資料集中的範例分割成下列三個 不重複子集:

資料集中的每個範例都應屬於前述其中一個子集。 舉例來說,一個範例不應同時屬於訓練集和 測試集

訓練集和驗證集與模型訓練密切相關。 由於測試集只會間接與訓練作業相關聯, 測試損失訓練損失驗證損失

文字 Span

#language

與文字字串中特定子區段相關聯的陣列索引時距。 例如,Python 字串 s="Be good now" 中的 good 這個字詞會有人使用。 文字範圍從 3 到 6

tf.Example

#TensorFlow

標準 通訊協定緩衝區 說明用於訓練模型或推論的輸入資料

tf.keras

#TensorFlow

已整合 Keras 的做法, TensorFlow

門檻 (適用於決策樹)

#df

軸對齊條件中,也就是 比較 feature。例如 75 是 門檻值如下:

grade >= 75

時間序列分析

#clustering

機器學習與統計資料的子領域 暫時資料:機器學習有多種類型 您需要分析時間序列分析,包括分類、分群 預測和異常偵測等作業舉例來說,您可以使用 時間序列分析,依月份預測冬季外套未來的銷售量 。

時間步

#seq

1 個「無畫面」儲存格中的儲存格 「循環類神經網路」。 例如,下圖顯示三個時間步驟 (標示為 下標 t-1、t 和 t+1):

循環類神經網路中的三個時間步驟。模型的輸出內容
          會成為第二個時間步的輸入內容輸出結果
          第二個時間步的輸入會輸出至第三個時間步

token

#language

語言模型中,模型所屬的不可分割單位 來執行預測訓練權杖通常是 包括:

  • 例如「狗等貓」詞組由三個字組成 符記:「dogs」、「like」和「cats」。
  • 字元,例如「自行車魚」含有九個 字元符記(請注意,空格字元算是其中一個符記)。
  • 子字詞,單一字詞可以是單一符記或多個符記。 子字詞是由根字詞、前置字元或後置字元組成。例如: 使用子字詞做為符記的語言模型可能會瀏覽「dogs」一詞 視為兩個符記 (也就是根字詞「dog」和複數字尾「s」)。同理 語言模型可能會檢視「taller」這個單一字詞兩個子字詞 (即 根字詞「tall」加上「er」字尾

在語言模型以外的網域中,符記可以代表 不可分割的單位舉例來說,在電腦視覺中,符記可能是子集 圖片中的文字

深層類神經網路的元件, 本身就是深層類神經網路在某些情況下,每個塔樓會從 獨立資料來源,且那些塔據一直保持獨立,直到 輸出至最終層在其他情況下 (例如 編碼器解碼器基地台 許多 Transformer) 會產生跨連線連線, 互相交流

TPU

#TensorFlow
#GoogleCloud

Tensor Processing Unit 的縮寫。

TPU 晶片

#TensorFlow
#GoogleCloud

搭載晶片高頻寬記憶體的可程式線性代數加速器 最適合用於機器學習工作負載 單一 TPU 裝置中部署了多個 TPU 晶片。

TPU 裝置

#TensorFlow
#GoogleCloud

帶有多個 TPU 晶片的印刷電路板 (PCB), 以及系統冷卻硬體

TPU 主要執行個體

#TensorFlow
#GoogleCloud

中央協調程序在主體機器上執行,將與 接收資料、結果、程式、效能和系統健康資訊 提供給 TPU 工作站使用。TPU 主要執行個體也會管理設定 TPU 裝置和關機。

TPU 節點

#TensorFlow
#GoogleCloud

Google Cloud 上的 TPU 資源 TPU 類型。TPU 節點會連線至 虛擬私有雲網路 對等互連虛擬私有雲網路 TPU 節點是 Cloud TPU API

TPU Pod

#TensorFlow
#GoogleCloud

Google 中的 TPU 裝置特定配置 這些功能以虛擬方式整合為 類似實體資料中心的資源TPU Pod 中的所有裝置都互相連線 則可以透過專屬的高速網路TPU Pod 是 適用於特定 TPU 版本的 TPU 裝置

TPU 資源

#TensorFlow
#GoogleCloud

您在 Google Cloud 上建立、管理或使用的 TPU 實體。適用對象 例如 TPU 節點TPU 類型 使用 TPU 資源。

TPU 配量

#TensorFlow
#GoogleCloud

TPU 配量是 TPU 裝置的一部分 TPU Pod。已連結 TPU 配量中的所有裝置 然後再透過專用高速網路相互通訊

TPU 類型

#TensorFlow
#GoogleCloud

一或多個具有特定 TPU 裝置的配置 TPU 硬體版本。您可以在建立 Cloud TPU 時選取 TPU 類型 Google Cloud 上的 TPU 節點。例如 v2-8 TPU 類型是搭載 8 個核心的單一 TPU v2 裝置。一個 v3-2048 TPU 類型具有 256 個 連網 TPU v3 裝置,共 2,048 個核心。TPU 類型是一種資源 Cloud TPU API

TPU 工作站

#TensorFlow
#GoogleCloud

在主體機器上執行,並執行機器學習程式的程序 在 TPU 裝置上運作。

訓練

#fundamentals

決定理想參數 (權重和 則構成模型。在訓練期間,系統會讀取 範例,並逐漸調整參數。訓練會運用 從數次到數十億次情境

訓練損失

#fundamentals

指標,代表模型在一段期間內的損失 特定訓練疊代作業舉例來說,假設損失函式 就是平均值方框錯誤。也許是訓練損失 平方誤差),且第 10 次疊代的訓練損失為 2.2, 第 100 次疊代為 1.9

損失曲線:比較訓練損失和 疊代。損失曲線提供以下訓練提示:

  • 向下斜坡則代表模型持續改善。
  • 上升斜率則代表模型的成效越來越差。
  • 平斜率表示模型已達成目標 收斂

例如,以下是一些合理的損失曲線 顯示:

  • 初始的疊代期間,是一個陡峭的陡坡, 快速改善模型
  • 逐漸平緩 (但仍會朝下) 的斜坡直到底部 這代表模型在某種程度上持續改善模型 較慢的步調
  • 訓練結束時的平緩斜坡,表示收斂。

訓練損失與疊代的圖。損失曲線開始時
     有陡峭的緩坡斜率逐漸平緩,直到
     的斜率會變成零

雖然訓練損失很重要,但另請參閱 一般化

訓練/應用偏差

#fundamentals

模型在這段時間的成效差異 訓練,以及在訓練期間使用相同模型的成效 服務

訓練集

#fundamentals

用來訓練模型資料集子集。

傳統上,資料集中的範例分為下列三個 不重複子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,單一範例不應屬於某個群組 訓練集和驗證集

軌跡

#rl

在「強化學習中,一系列的 代表的元組 一系列狀態代理程式代理程式, 其中每個元組都會對應到狀態 action獎勵以及指定狀態轉換的下一個狀態。

遷移學習

在機器學習工作之間轉移資訊。 舉例來說,在多工學習中,單一模型可處理多項工作, 例如具有不同輸出節點的深度模型 不同的任務遷移學習可能需要轉移知識 從簡化作業到較複雜的工作 將知識從具有更多資料的工作中,轉移到具有更多資料的工作中 資料就會較少

大多數機器學習系統需要解決單一任務。遷移學習是一種 逐漸轉向人工智慧,單一程式就能解決 多個工作。

Transformer

#language

由 Google 開發的類神經網路架構, 仰賴自註意力機制來轉換 輸入嵌入序列 不必依靠卷積循環類神經網路。Transformer 可能是 形成一個自註意力層

轉換器可包含下列項目:

編碼器能將嵌入序列轉換成新的 則不必輸入長度相同的值編碼器包含 N 個相同層,每個層都包含兩個 子層這兩個子圖層會套用至輸入內容的每個位置 也就是將序列中每個元素轉換為新的 和嵌入的內容第一個編碼器子層會匯總 輸入序列第二個編碼器子層 輸出資訊至輸出嵌入

解碼器會將輸入嵌入序列轉換為 可能會擁有不同的長度解碼器也包含 包含三個子圖層的 N 個相同圖層,兩個子層相似 編碼器子層第三個解碼器子層會 並套用自註意力機制, 收集資料

網誌文章「Transformer:語言的新類類神經網路架構 瞭解 也提供 Transformer 的簡介

平移不變性

#image

在圖片分類問題中,演算法 即使圖片中的物件位置有所變更也仍會將圖片分類 舉例來說,無論關鍵字是屬於哪個狗,演算法都能夠辨識 影格中心或影格左側

另請參閱「大小差異旋轉不變性

三角形

#seq
#language

包含 N=3 的 N 語法

真陰性 (TN)

#fundamentals

「正確」預測模型 負面類別:舉例來說,模型會推論 特定電子郵件不是垃圾郵件,而且該電子郵件確實

真陽性 (TP)

#fundamentals

「正確」預測模型 正向類別。舉例來說,模型會推論 某封垃圾郵件可能是垃圾郵件, 但是該電子郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals

喚回度的同義詞。也就是:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

正向比率是指 ROC 曲線中的 Y 軸。

U

不知道 (屬於敏感屬性)

#fairness

敏感屬性的情況 但不包含在訓練資料中由於敏感屬性 資料的其他屬性通常與資料的其他屬性相關聯 若不清楚敏感屬性,可能仍 對該屬性各自影響 或違反其他公平性限制

配料不足

#fundamentals

產生預測能力不佳的模型,因為模型 尚未完全擷取訓練資料的複雜度。許多問題 可能造成配適的情況,包括:

低取樣

移除範例知名類別class-imbalanced 資料集,以便 建立較為平衡的訓練集

舉例來說,假設資料集中的主要類別 少數類別為 20:1克服本課程 不平衡,您可以建立訓練集,其中包含「所有」少數未成年人 類別範例,但只有大多數類別範例的「第十個」,因此 建立訓練集類別比例為 2:1多虧了取樣資料,多虧了 平衡的訓練集可能會產生更好的模型。此外,這個做法 平衡的訓練集可能包含足夠的範例 有效的模型

過度取樣比較。

單向

#language

這個系統只會評估文字「落在」目標區段之前的文字。 相較之下,雙向系統則會評估 前方後續文字的目標部分。 詳情請參閱雙向模式

單向語言模型

#language

這種語言模型僅會以 符記會顯示在目標符記「之前」,而非「之後」。 與雙向語言模型的對比。

未加上標籤的範例

#fundamentals

包含 features 但不含 label 的示例。 舉例來說,下表顯示房屋的三個未加上標籤的範例 評估模型,每個特徵都有三個特徵,但沒有房屋價值:

臥室數量 浴室數量 房屋年齡
3 2 15
2 1 72
4 2 34

監督式機器學習中 模型會根據加上標籤的樣本進行訓練 未加上標籤的範例

半監督式非監督式學習 會在訓練期間使用未加上標籤的範例

與未加標籤示例的對比已加上標籤的範例

非監督式機器學習

#clustering
#fundamentals

訓練模型找出資料集中的模式,通常是指 未加上標籤的資料集

非監督式機器學習最常見的用途是 叢集資料 按類似樣本分組例如非監督式機器 學習演算法可以依據不同屬性將歌曲分類 您的作品產生的叢集可能會成為其他機器的輸入內容 學習演算法 (例如音樂推薦服務)。 在實用標籤稀少或不存在時進行分群法, 例如,在反濫用和詐欺等領域中,叢集可以幫助 讓人類更好地理解資料

監督式機器學習的差異。

升幅模擬

一種行銷常用的模擬技巧,可模擬 「因果影響」(也稱為「成效增幅」) 「實驗組」而是將重點放在「個人」上我們來看看下面兩個範例:

  • 醫生可能會使用升幅模擬功能,預測死亡率 治療程序 (治療) 的因果影響, 病患 (個人) 的年齡和醫療歷史。
  • 行銷人可以運用升幅模擬,預測 因廣告而購買的機率 (因果影響) (實驗組)。

升幅模擬與分類或 部分標籤的迴歸 (例如 二元處理中的標籤) 在升幅模擬中總是缺少。 例如:患者可以接受或沒有接受治療; 因此,我們只能觀察患者是否會治療 不能只在其中之一解決 (但無論兩者都發生)。 升幅模型的主要優點是可以產生預測結果 並用來計算 因果關係

增加

將權重套用到相等的 downsampled 類別 減去取樣係數

使用者矩陣

#recsystems

推薦系統中, 由 產生嵌入向量矩陣分解 保存有關使用者偏好的潛在信號 使用者矩陣的每一列都會保留相對資訊 為單一使用者選擇各種潛在信號的強度 以電影推薦系統為例,在這個系統中 使用者矩陣中的潛在信號可能代表每位使用者的興趣 或可能難以理解的信號 以取得不同因素的複雜互動

使用者矩陣會有每個潛在特徵的欄,以及每位使用者的一列。 也就是說,使用者矩陣與目標的列數相同 。例如,針對某部電影 1,000,000 位使用者的推薦系統 使用者矩陣會有 1,000,000 列

V

驗證

#fundamentals

模型品質的初始評估作業。 驗證程序會根據 驗證集

驗證集與訓練集不同, 驗證有助於防範過度配適

建議您根據驗證集來評估模型 第一次測試並對照比較模型 測試集做為第二輪測試。

驗證損失

#fundamentals

代表模型損失指標指標 特定物件期間的驗證集 訓練的疊代

另請參閱一般化曲線

驗證集

#fundamentals

執行初始的資料集子集 針對訓練好的模型進行評估。一般而言,您應評估 根據多個驗證集修改訓練過的模型 再根據測試集評估模型。

一般來說,您將資料集中的範例分為下列三個 不重複子集:

在理想情況下,資料集中的每個範例應該僅屬於 。舉例來說,單一範例不應屬於某個群組 訓練集和驗證集

值計算

以可接受的替代值取代遺漏值的程序。 如果缺少值,可以捨棄整個範例或 可以使用價值計算功能 為範例填補範例

舉例來說,假設資料集包含 temperature 特徵,且 。不過,溫度讀數 在特定時段無法使用以下是資料集的一個部分:

時間戳記 溫度
1680561000 10
1680564600 12
1680568200 遺漏
1680571800 20
1680575400 21
1680579000 21

系統可能會刪除遺漏的範例或 12、16、18 或 20,視計算演算法而定。

消失的漸層問題

#seq

早期隱藏層的梯度傾向 幾個深層類神經網路 看起來是平坦的 (低)。梯度越低越好 對深層類神經網路的節點權重進行微幅變更 或完全沒學習出現漸進式漸層問題的模型 變得難以或無法訓練 針對長短期記憶體儲存格,已解決這個問題。

爆炸漸層問題比較。

變數重要性

#df

一組分數,指出各項分數的相對重要性 套用至模型的 feature

例如,假設有一個決策樹 預估房屋房價假設這個決策樹狀圖使用 地圖項目:尺寸、年齡及樣式如果一組變數重要性 這三項功能 {size=5.8, age=2.5, style=4.7},那麼大小就比 而非年齡或風格

有不同的變數重要性指標 瞭解模型不同面向的機器學習專家。

變分自動編碼器 (VAE)

#language

運用差異的自動編碼器 產生修改後的輸入值版本。 變分自動編碼器適合用於生成式 AI

VAE 是以變化版本推論為基礎,也就是 機率模型的參數

向量

超載字詞,意義因數學而異 和科學領域在機器學習中,向量具有兩種屬性:

  • 資料類型:機器學習中的向量通常會儲存浮點數。
  • 元素數量:向量的長度或尺寸

舉例來說,假設有一個特徵向量,其中含有八 浮點數這個地圖項目向量的長度或尺寸為 8。 請注意,機器學習向量通常具有多種維度。

您可以用向量表示多種不同類型的資訊。例如:

  • 地球表面的任何位置都可以用 2D 方式表示 向量,其中一個維度是緯度,另一個是經度。
  • 每 500 支股票的目前價格,都會以 500 維向量
  • 可表示在有限數量類別內機率分佈 作為向量舉例來說 多重分類系統 會預測 3 種輸出顏色 (紅、綠或黃色) 之一 向量 (0.3, 0.2, 0.5) 即可代表 P[red]=0.3, P[green]=0.2, P[yellow]=0.5

向量可以串連因此,各種不同的媒體 以單一向量來呈現有些模型會直接在 串連許多 one-hot 編碼

TPU 等專門處理器經過最佳化調整,能發揮最佳執行效能 向量上的數學運算

向量是張量中的排名1.

W

Wasserstein 損失

我們經常在 生成對抗網路 根據地球移動器與拍攝地點之間的距離 產生的資料和實際資料的分佈情形

重量

#fundamentals

模型乘以另一個值的值。 訓練是判斷模型理想權重的程序; 「推論」是指運用所學權重達成 最後是階段 5,如果對模型成效感到滿意 您就能使用該模型進行預測

最小交替的最小平方 (WALS)

#recsystems

在這段時期內 將目標函式最小化的演算法 矩陣分解 一方面是推薦系統 降低遺漏樣本的權重WALS 將加權計算在內 原始矩陣與重新建構之間的平方誤差 用於修正列分解和資料欄分解作業。 每項最佳化方法都可用最小的平方來解決 對話最佳化。詳情請參閱 推薦系統課程

加權總和

#fundamentals

所有相關輸入值的總和乘以相應的輸入值 權重舉例來說,假設相關輸入內容包含下列項目:

輸入值 輸入權重
2 1.3 號
-1 0.6
3 0.4

因此加權後的加總如下:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加權總和是 活化函數

寬模型

這類線性模型通常具備 稀疏輸入特徵。稱之為「寬版」自 是特殊的「類神經網路」 直接連線至輸出節點的大量輸入內容。寬模型 比深層模型更容易偵錯及檢查。 雖然寬幅模型 無法透過隱藏圖層表示非線性, 較寬的模型可以使用轉換 交錯組合特徵值區化以不同方式模擬非線性產業。

深度模型比較。

寬度

特定圖層中的神經元數量 一個類神經網路

觀眾智慧

#df

計算一般大眾的意見或估計值 的人 (「群眾」) 通常能產生出色的成果。 舉例來說,如果遊戲中有人猜測 果醬成大型罐子裡雖然大部分人 猜錯的話,所有猜測的平均值 其實際數量會出乎意料 罐子裡果醬

Ensembles 是群眾使用的軟體類比。 即使個別模型的預測準確度極差 平均來說,許多模型的預測結果都會產生意想不到的結果 但預測結果才會準確舉例來說 決策樹可能會導致預測結果不準確, 決策樹系通常會做出非常良好的預測。

字詞嵌入

#language

表示字詞集內字詞集內的每個字詞。 「嵌入向量」;也就是代表每個單字 介於 0.0 和 1.0 之間的浮點值向量相似的字詞 意義的表示法比含不同含意的字詞更多。 舉例來說,「胡蘿蔔」、「塞車」和「小黃瓜」都會是相對的 這兩者之間會非常不同 飛機太陽眼鏡牙膏

X

XLA (加速線性代數)

適用於 GPU、CPU 和機器學習加速器的開放原始碼機器學習編譯器。

XLA 編譯器會從熱門機器學習架構 (例如 PyTorchTensorFlowJAX,並為其進行最佳化調整 可在不同硬體平台上達到高效能執行 GPU、CPU 和機器學習加速器

Z

零樣本學習

一種機器學習訓練,其中 模型會推斷工作的「預測結果」 因此該模型尚未經過訓練也就是模型 可獲得零任務相關訓練範例,但 對該工作執行推論

零樣本提示

#language
#generativeAI

未提供範例的提示並未提供實際範例 大型語言模型加以回應。例如:

單一提示的組成部分 附註
指定國家/地區的官方貨幣為何? 您希望 LLM 回答的問題。
印度: 實際查詢。

大型語言模型可能會提供下列其中一項回應:

  • 盧比符號
  • INR
  • 印度盧比
  • 盧比
  • 印度盧比

以上皆是,不過您可能想使用特定格式。

比較零樣本提示與下列字詞:

Z 分數正規化

#fundamentals

取代原始原始檔的縮放技術 feature 值,以及代表浮點值 與該特徵平均值相差的標準差數。 舉例來說,假設某個特徵的平均值為 800,且 偏差為 100。下表顯示 Z 分數正規化方式 會將原始值對應到其 Z 分數:

原始值 Z 分數
800 0
950 +1.5
575 -2.25

接著機器學習模型以 Z 分數進行訓練 而不是原始值