機器學習詞彙:指標

本頁面包含指標詞彙表的相關用語。如要查看所有詞彙表術語,請按這裡

A

精確度

#fundamentals
#Metric

正確分類預測次數除以總預測次數。也就是:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

舉例來說,如果模型正確預測 40 次,錯誤預測 10 次,則準確率為:

Accuracy=4040 + 10=80%

二元分類會為正確預測錯誤預測的不同類別提供特定名稱。因此,二元分類的準確度公式如下:

Accuracy=TP+TNTP+TN+FP+FN

其中:

比較並對照準確率、查準率查全率

雖然準確度在某些情況下是實用的指標,但在其他情況下,準確度會造成極大的誤導。值得注意的是,對於處理類別不平衡資料集的分類模型而言,準確度通常是評估模型的糟糕指標。

舉例來說,假設某個亞熱帶城市每年只有 25 天下雪,由於無雪天數 (負向類別) 遠多於有雪天數 (正向類別),因此這個城市的降雪資料集是類別不平衡的資料集。假設有個二元分類模型,應該每天預測是否下雪,但每天都只預測「沒有下雪」。這個模型準確度極高,但沒有預測能力。下表總結了百年預測結果:

類別 數字
TP 0
TN 36499
FP 0
FN 25

因此,這個模型的準確度為:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

雖然 99.93% 的準確率似乎相當出色,但模型實際上並沒有預測能力。

在評估以類別不平衡資料集訓練的模型時,精確度回傳率通常比準確度更實用。


如需更多資訊,請參閱機器學習速成課程中的「分類:準確度、喚回率、精確度和相關指標」一文。

PR 曲線下的面積

#Metric

請參閱「PR AUC (PR 曲線下的面積)」一文。

ROC 曲線下面積

#Metric

請參閱「AUC (ROC 曲線下面積)」一文。

AUC (ROC 曲線下的面積)

#fundamentals
#Metric

介於 0.0 和 1.0 之間的數字,代表二元分類模型分離正類負類的能力。AUC 越接近 1.0,模型分類能力就越好。

舉例來說,下圖所示的分類器模型可完美區分正類 (綠色橢圓形) 和負類 (紫色矩形)。這個不切實際的完美模型 AUC 為 1.0:

數值線,一側有 8 個正面示例,另一側有 9 個負面示例。

相反地,下圖顯示的是產生隨機結果的分類器模型結果。這個模型的 AUC 為 0.5:

數學線包含 6 個正面和 6 個負面示例。示例的順序為正面、負面、正面、負面、正面、負面、正面、負面、正面、負面、正面、負面。

是的,先前的模型 AUC 為 0.5,而非 0.0。

大多數模型介於這兩種極端之間。舉例來說,下列模型可將正面和負面結果分開,因此 AUC 值介於 0.5 和 1.0 之間:

數學線包含 6 個正面和 6 個負面示例。示例的順序為負面、負面、負面、負面、正面、負面、正面、正面、負面、正面、正面、正面。

AUC 會忽略您為分類閾值設定的任何值。相反地,AUC 會考量所有可能的分類門檻。

AUC 代表ROC 曲線下的面積。舉例來說,如果模型能完美區分正例和負例,其 ROC 曲線如下所示:

笛卡爾圖表。X 軸為偽陽率,Y 軸為真陽率。圖表從 0,0 開始,直線往上到 0,1,然後直線往右,結束於 1,1。

AUC 是上圖灰色區域的面積。在這種不尋常的情況下,區域就是灰色區域的長度 (1.0) 乘以灰色區域的寬度 (1.0)。因此,1.0 和 1.0 的乘積會產生正確的 1.0 AUC,也是可能的最高 AUC 分數。

相反地,如果分類器完全無法區分類別,則 ROC 曲線如下所示。這個灰色區域的面積為 0.5。

笛卡爾圖表。X 軸為偽陽率,Y 軸為真陽率。圖表從 0,0 開始,以對角線延伸至 1,1。

較常見的 ROC 曲線大致如下所示:

笛卡爾圖表。X 軸為偽陽率,Y 軸為真陽率。圖表從 0,0 開始,並以不規則弧形到達 1,0。

手動計算曲線下的面積相當費時,因此程式通常會計算大部分的 AUC 值。


AUC 是指分類器對於隨機挑選的正向樣本確實是正向的信心,高於隨機挑選的負向樣本其實是正向的情況發生機率。


詳情請參閱機器學習速成課程中的「分類:ROC 和 AUC」一文。

k 的平均精確度

#language
#Metric

這項指標用於總結模型在單一提示 (產生排名結果,例如書籍推薦書的編號清單) 上的成效。k 的平均精確度是每個相關結果的精確度在 k 處值的平均值。因此,k 的平均精確度計算公式為:

average precision at k=1ni=1nprecision at k for each relevant item

其中:

  • n 是清單中的相關項目數量。

請比較recall at k

假設大型語言模型收到以下查詢:

List the 6 funniest movies of all time in order.

大型語言模型會傳回以下清單:

  1. 一般
  2. 辣妹過招
  3. Platoon
  4. 《伴娘我最大》
  5. Citizen Kane
  6. 這是 Spinal Tap
返回清單中的四部電影都很有趣 (也就是相關內容),但有兩部是戲劇 (不相關)。下表詳細說明結果:
位置 電影 相關嗎? 精確度為 k
1 一般 1.0
2 辣妹過招 1.0
3 Platoon 不相關
4 《伴娘我最大》 0.75
5 Citizen Kane 不相關
6 這是 Spinal Tap 0.67

相關結果的數量為 4。因此,您可以計算 6 的平均精確度,如下所示:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

基準

#Metric

模型:用於比較另一個模型 (通常是較複雜的模型) 效能優劣的參考點。舉例來說,邏輯迴歸模型可能會成為深度模型的良好基準。

針對特定問題,基準可協助模型開發人員量化新模型必須達到的最低預期成效,以便新模型發揮效用。

C

費用

#Metric

loss 的同義詞。

反事實公平性

#fairness
#Metric

公平性指標:檢查分類器是否會為某位使用者產生與另一位使用者相同的結果,前提是兩位使用者在某些敏感屬性方面相同。評估分類器的反事實公平性,是一種找出模型中潛在偏差來源的方法。

如需更多資訊,請參閱下列任一資源:

交叉熵

#Metric

對數損失推廣至多重分類問題。交叉熵可量化兩個機率分布之間的差異。另請參閱困惑

累積分佈函式 (CDF)

#Metric

這個函式會定義樣本頻率小於或等於目標值的頻率。舉例來說,請考慮連續值的常態分佈。CDF 會告訴您,約 50% 的樣本值應小於或等於平均值,而約 84% 的樣本值應小於或等於平均值加一標準差。

D

客層均等

#fairness
#Metric

公平性指標:如果模型分類結果不依賴特定敏感屬性,則符合此指標。

舉例來說,如果有小人和巨人申請入學,只要小人和巨人錄取的百分比相同,就算是達成客層平衡,無論兩者平均資格是否有差異皆然。

均等機率機會均等相比,這項原則允許匯總的分類結果取決於機密屬性,但不允許特定指定基準真相標籤的分類結果取決於機密屬性。請參閱「以更智慧的機器學習對抗歧視」一文,瞭解如何在最佳化客層平衡時,探索取捨之道。

如需更多資訊,請參閱機器學習速成課程中的「公平性:人口統計資料平衡」

E

地球移動距離 (EMD)

#Metric

衡量兩個分布的相對相似度。地球移轉距離越低,分布就越相似。

編輯距離

#language
#Metric

用於評估兩個字串的相似程度。在機器學習中,編輯距離有以下用途:

  • 編輯距離很容易計算。
  • 編輯距離可比較兩個已知相似的字串。
  • 編輯距離可判斷不同字串與特定字串的相似程度。

編輯距離有幾種定義,每種定義都使用不同的字串運算。請參閱Levenshtein 距離,瞭解相關範例。

經驗累積分佈函式 (eCDF 或 EDF)

#Metric

根據實際資料集的經驗測量值,建立累積分配函式。函式在 x 軸上任一點的值,是資料集中小於或等於指定值的觀測值比例。

#df
#Metric

資訊理論中,熵是用來描述機率分布的不可預測性。此外,熵也定義為每個示例所含的資訊量。當隨機變數的所有值都具有同等的可能性時,分布就會具有最高的熵。

熵的值集包含兩個可能的值「0」和「1」(例如 二元分類問題中的標籤),其公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是「1」個範例的分數。
  • q 是「0」例子的分數。請注意,q = (1 - p)
  • log 通常是 log2。在本例中,熵單位為位元。

舉例來說,假設以下情況:

  • 100 個示例包含值「1」
  • 300 個示例包含值「0」

因此,熵值為:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每個例項 0.81 位元

完全平衡的集合 (例如 200 個「0」和 200 個「1」) 每個示例的熵為 1.0 位元。隨著集合的不平衡程度增加,熵值會趨近 0.0。

決策樹中,熵可協助建立資訊增益,以利分割器在分類決策樹成長的過程中選取條件

熵與下列項目的比較:

熵經常稱為「Shannon 熵」

詳情請參閱決策樹課程中的「使用數值特徵的二元分類精確分割器」一節。

機會均等

#fairness
#Metric

公平性指標,用於評估模型是否能針對敏感屬性的所有值,同樣準確地預測理想結果。換句話說,如果模型的理想結果是正類,目標就是讓所有群組的真陽性率相同。

機會均等與均等機率相關,這項要求是真陽性率和偽陽性率都必須在所有群組中一致。

假設 Glubbdubdrib 大學同時招收來自小人國和巨人國的學生,讓他們就讀嚴謹的數學課程。小人國的中學提供完善的數學課程,絕大多數學生都能就讀大學。布羅迪龐人高中不提供數學課程,因此學生的合格率遠低於其他學校。若符合資格的學生,無論是小人國人或布羅卜丁人,都同樣有機會獲得錄取,則在國籍 (小人國人或布羅卜丁人) 方面,就符合「錄取」的機會均等原則。

舉例來說,假設 100 位小人和 100 位巨人申請入學 Glubbdubdrib 大學,而招生決定如下:

表 1. Lilliputian 申請者 (90% 符合資格)

  晉級 不合格
已錄取 45 3
已遭拒 45 7
總計 90 10
錄取資格學生百分比:45/90 = 50%
遭拒絕的資格不符學生百分比:7/10 = 70%
錄取的利立浦丹學生總百分比:(45+3)/100 = 48%

 

表 2. Brobdingnagian 申請者 (10% 符合資格):

  晉級 不合格
已錄取 5 9
已遭拒 5 81
總計 10 90
錄取資格學生百分比:5/10 = 50%
遭拒絕的非資格學生百分比:81/90 = 90%
錄取的 Brobdingnagian 學生總百分比:(5+9)/100 = 14%

上述範例符合錄取資格學生的機會均等原則,因為符合資格的利立浦坦人和布魯卜丁人都有 50% 的錄取機率。

雖然機會均等已滿足,但下列兩項公平性指標未滿足:

  • 群體均等:小人和巨人錄取大學的機率不同;錄取小人的學生有 48%,錄取巨人的學生只有 14%。
  • 機會均等:雖然符合資格的利立浦丹和布魯托尼亞學生都有相同的錄取機率,但未符合「不符合資格的利立浦丹和布魯托尼亞學生都有相同的拒絕機率」這項額外限制。不合格的 Lilliputians 拒絕率為 70%,而 Brobdingnagians 為 90%。

詳情請參閱機器學習速成課程中的「公平性:機會均等」一文。

均等賠率

#fairness
#Metric

公平性指標,用於評估模型是否能針對敏感屬性的所有值,針對正類別負類別預測出同樣準確的結果,而非只針對其中一個類別。換句話說,所有群組的真陽性率偽陰性率都應相同。

均等機率與機會均等相關,後者只著重於單一類別 (正面或負面) 的錯誤率。

舉例來說,假設 Glubbdubdrib 大學同時招收了小人和巨人,讓他們參加嚴格的數學課程。小人國的高中提供完善的數學課程,絕大多數學生都能順利進入大學。布羅迪尼亞的高中完全沒有開設數學課程,因此學生的合格率遠低於其他國家。只要申請人符合資格,無論身高是 Lilliputian 還是 Brobdingnagian,都有機會獲得錄取,如果不符合資格,也同樣有機會遭到拒絕,就符合「機會均等」原則。

假設 100 位小人和 100 位巨人申請入學,Glubbdubdrib 大學的招生決定如下:

表 3. Lilliputian 申請者 (90% 符合資格)

  晉級 不合格
已錄取 45 2
已遭拒 45 8
總計 90 10
錄取資格學生百分比:45/90 = 50%
遭拒的資格不符學生百分比:8/10 = 80%
錄取的利立浦丹學生總百分比:(45+2)/100 = 47%

 

表 4. Brobdingnagian 申請者 (10% 符合資格):

  晉級 不合格
已錄取 5 18
已遭拒 5 72
總計 10 90
錄取資格學生百分比:5/10 = 50%
不合格學生拒絕百分比:72/90 = 80%
錄取的 Brobdingnagian 學生總百分比:(5+18)/100 = 23%

符合「均等機會」原則,因為合格的 Lilliputian 和 Brobdingnagian 學生都有 50% 的錄取機率,而不合格的 Lilliputian 和 Brobdingnagian 學生則有 80% 的機率遭到拒絕。

在「監督式學習中的機會均等性」中,我們正式定義了「均等機率」一詞,如下所示:「如果 Ŷ 和 A 在 Y 的條件下為獨立,則預測器 Ŷ 就會滿足保護屬性 A 和結果 Y 的均等機率。」

evals

#language
#generativeAI
#Metric

主要用於縮寫大型語言模型評估。更廣義來說,evals 是任何形式的評估的縮寫。

評估版

#language
#generativeAI
#Metric

評估模型品質或比較不同模型的程序。

如要評估監督式機器學習模型,通常會根據驗證集測試集進行評估。評估 LLM 通常會涉及更廣泛的品質和安全評估。

F

F1

#Metric

這項「匯總」二元分類指標會同時採用精確度喚回率。公式如下:

F1=2 * precision * recallprecision + recall

假設精確度和召回率的值如下:

  • 精確度 = 0.6
  • recall = 0.4

您可以計算 F1,如下所示:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

當精確度和召回率相當相似時 (如上例所示),F1 會接近兩者的平均值。當精確度和召回率差異甚大時,F1 會更接近較低的值。例如:

  • 精確度 = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

公平性指標

#fairness
#Metric

可衡量的「公平性」數學定義。常用的公平性指標包括:

許多公平性指標互相衝突,請參閱公平性指標互相衝突

偽陰性 (FN)

#fundamentals
#Metric

模型誤判為負類的示例。舉例來說,模型預測某封電子郵件「不是垃圾郵件」(負面類別),但該郵件「其實是垃圾郵件」

偽陰率

#Metric

模型誤判為負類的實際正類示例比例。以下公式可計算假陰性率:

false negative rate=false negativesfalse negatives+true positives

詳情請參閱機器學習速成課程中的「閾值和混淆矩陣」。

偽陽性 (FP)

#fundamentals
#Metric

模型誤判為正類的示例。舉例來說,模型預測特定電子郵件為「垃圾郵件」 (正類),但該郵件「實際上並非垃圾郵件」

詳情請參閱機器學習速成課程中的「閾值和混淆矩陣」。

偽陽率 (FPR)

#fundamentals
#Metric

模型誤判為正類的實際負面例子比例。以下公式可計算偽陽性比率:

false positive rate=false positivesfalse positives+true negatives

偽陽率是ROC 曲線的 x 軸。

詳情請參閱機器學習速成課程中的「分類:ROC 和 AUC」一文。

特徵重要性

#df
#Metric

與「變數重要性」同義。

成功次數分數

#generativeAI
#Metric

用於評估機器學習模型產生的文字的指標。成功的比率是「成功」產生的文字輸出次數,除以產生的文字輸出總數。舉例來說,如果大型語言模型產生 10 個程式碼區塊,其中 5 個成功,則成功率為 50%。

雖然成功率在所有統計資料中都很實用,但在 ML 中,這項指標主要用於評估可驗證的任務,例如程式碼產生或數學問題。

G

吉尼不純度

#df
#Metric

類似於的指標。分隔器會使用從基尼不純度或熵衍生而來的值,組合條件,用於分類決策樹資訊增益是從熵衍生而來。對於從吉尼不純度衍生而來的指標,目前沒有普遍接受的等同用語;不過,這個未命名的指標與資訊增益一樣重要。

吉尼不純度也稱為「吉尼係數」,或簡稱「吉尼」

Gini 不純度是指從相同分布中取得新資料的錯誤分類機率。對於具有兩個可能值「0」和「1」的集合 (例如二元分類問題中的標籤),其基尼不純度可使用下列公式計算:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

其中:

  • I 是吉尼不純度。
  • p 是「1」個範例的分數。
  • q 是「0」例子的分數。請注意,q = 1-p

舉例來說,請看下列資料集:

  • 100 個標籤 (資料集的 0.25%) 包含值「1」
  • 300 個標籤 (資料集的 0.75%) 包含「0」值

因此,基尼不純度為:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

因此,同一個資料集的隨機標籤有 37.5% 的機率會被錯誤分類,並有 62.5% 的機率會被正確分類。

完全平衡的標籤 (例如 200 個「0」和 200 個「1」) 的吉尼不純度為 0.5。不平衡的標籤,其基尼不純度會接近 0.0。


H

轉折損失

#Metric

一系列用於分類損失函式,旨在找出與每個訓練範例盡可能遠的決策邊界,藉此盡可能擴大範例與邊界之間的邊界。KSVM 會使用 hinge loss (或相關函式,例如平方 hinge loss)。對於二元分類,邊界損失函式定義如下:

loss=max(0,1(yy))

其中 y 為真實標籤 (-1 或 +1),而 y' 則為分類器模型的原始輸出內容:

y=b+w1x1+w2x2+wnxn

因此,對齊損失與 (y * y') 的圖表如下所示:

笛卡爾圖表,包含兩個相連的線段。第一個線段的起點為 (-3, 4),終點為 (1, 0)。第二個線段從 (1, 0) 開始,以無限的斜率 0 持續延伸。

I

公平性指標互相衝突

#fairness
#Metric

某些公平性概念互相衝突,無法同時滿足。因此,沒有單一通用的指標可用於量化公平性,並套用至所有機器學習問題。

雖然這可能令人灰心,但公平性指標不相容,並不代表公平性努力沒有成效。相反地,這項研究建議,我們必須根據特定機器學習問題的發生情境來定義公平性,以免造成特定用途的傷害。

如要進一步瞭解公平性指標的互相衝突,請參閱「On the (im)possibility of fairness」

個人公平性

#fairness
#Metric

公平性指標,用於檢查類似的個人是否獲得類似的分類結果。舉例來說,Brobdingnagian Academy 可能會希望確保兩位成績和標準化測驗分數相同的學生,都有同樣錄取機會,以符合個人公平性。

請注意,個別公平性完全取決於您如何定義「相似性」(在本例中為成績和考試成績),如果相似性指標遺漏重要資訊 (例如學生課程的嚴謹程度),就可能導致新的公平性問題。

如要進一步瞭解個別公平性,請參閱「公平性與意識」一文。

資訊增益

#df
#Metric

決策樹中,節點的 與其子節點熵的加權 (以範例數量為依據) 之間的差異。節點的熵是該節點中樣本的熵。

舉例來說,請考量下列熵值:

  • 父節點的熵 = 0.6
  • 熵值為 0.2,其中一個子節點有 16 個相關示例
  • 另一個子節點的熵值 (有 24 個相關範例) = 0.1

因此,40% 的例項位於一個子節點,60% 位於另一個子節點。因此:

  • 子節點的加權熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,資訊增益為:

  • 資訊增益 = 父節點的熵 - 子節點的加權熵和
  • 資訊增益 = 0.6 - 0.14 = 0.46

大多數的分割器都會建立條件,以便盡可能提高資訊增益。

資料標註一致性

#Metric

這項指標可評估資料標註人員在執行任務時,意見一致的頻率。如果評估人員意見不一致,您可能需要改善工作說明。有時也稱為「標註者間一致性」或「評分者間可靠度」。另請參閱 Cohen's kappa,這是最常見的評分者間一致性評估方法之一。

詳情請參閱機器學習速成課程中的「分類資料:常見問題」。

L

L1 損失

#fundamentals
#Metric

損失函式:計算實際 標籤值與 模型預測的值之間差異的絕對值。舉例來說,以下是五個範例批次計算 L1 損失:

範例的實際值 模型的預測值 差異值的絕對值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

相較於 L2 損失,L1 損失對離群值的敏感度較低。

平均絕對誤差是每個範例的平均 L1 損失。

L1loss=i=0n|yiy^i|

其中:
  • n 是範例數量。
  • y 是標籤的實際值。
  • y^ 是模型預測的 y 值。

詳情請參閱機器學習速成課程中的「線性迴歸:損失」一文。

L2 損失

#fundamentals
#Metric

損失函式:計算實際標籤值與模型預測的值之間差異的平方。舉例來說,以下是五個範例批次計算 L2 損失:

範例的實際值 模型的預測值 差異平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

由於平方運算,L2 損失會放大異常值的影響。也就是說,L2 損失函式對錯誤預測的反應比 L1 損失函式更為強烈。舉例來說,前述批次的 L1 損失為 8,而非 16。請注意,單一異常值就占了 16 個變數中的 9 個。

迴歸模型通常會使用 L2 損失函式做為損失函式。

均方誤差是每個範例的平均 L2 損失。平方損失是 L2 損失的另一個名稱。

L2loss=i=0n(yiy^i)2

其中:
  • n 是範例數量。
  • y 是標籤的實際值。
  • y^ 是模型預測的 y 值。

詳情請參閱機器學習速成課程中的「邏輯迴歸:損失和正則化」一文。

大型語言模型評估 (evals)

#language
#generativeAI
#Metric

一組用於評估大型語言模型 (LLM) 效能的評估指標和基準。大致來說,LLM 評估有以下功能:

  • 協助研究人員找出 LLM 需要改善之處。
  • 可用於比較不同的 LLM,並找出特定任務的最佳 LLM。
  • 確保 LLM 的使用方式安全且符合道德。

如需更多資訊,請參閱機器學習速成課程中的「大型語言模型 (LLM)」一文。

損失

#fundamentals
#Metric

監督式模型訓練期間,可衡量模型的預測結果標籤之間的差距。

損失函式會計算損失。

詳情請參閱機器學習速成課程中的「線性迴歸:損失」一文。

損失函數

#fundamentals
#Metric

訓練或測試期間,數學函式會計算示例的批次損失。損失函式會針對預測正確的模型傳回較低的損失,而非預測不正確的模型。

訓練的目標通常是盡量減少損失函式傳回的損失。

損失函數的類型有很多種,請針對您要建構的模型類型,選擇合適的損失函式。例如:

M

平均絕對誤差 (MAE)

#Metric

使用 L1 loss 時,每個範例的平均損失。計算平均絕對誤差的方式如下:

  1. 計算批次的 L1 損失。
  2. 將 L1 損失值除以批次中的樣本數。

Mean Absolute Error=1ni=0n|yiy^i|

其中:

  • n 是範例數量。
  • y 是標籤的實際值。
  • y^ 是模型預測的 y 值。

舉例來說,請考慮以下五個範例批次的 L1 損失計算方式:

範例的實際值 模型的預測值 損失 (實際值與預測值之間的差異)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

因此,L1 損失為 8,而範例數量為 5。因此,平均絕對誤差為:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

比較平均絕對誤差與均方誤差均方根誤差

k 的平均平均精確度 (mAP@k)

#language
#generativeAI
#Metric

在驗證資料集中,所有平均精確度 (k) 分數的統計平均值。在 k 處計算平均精確度有一個用途,就是判斷推薦系統產生的推薦內容品質。

雖然「平均平均值」這個詞組聽起來很冗長,但指標名稱是適當的。畢竟,這項指標會找出多個 average precision at k 值的平均值。

假設您建構的推薦系統會為每位使用者產生個人化推薦小說清單。根據所選使用者的意見回饋,您計算出下列五個平均精確度 (每位使用者一分數):

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

因此,K 的平均平均精確度為:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

均方誤差 (MSE)

#Metric

使用 L2 損失函式時,每個範例的平均損失。計算均方誤差的方式如下:

  1. 計算批次的 L2 損失。
  2. 將 L2 損失值除以批次中的範例數量。
Mean Squared Error=1ni=0n(yiy^i)2
where:
  • n 是範例數量。
  • y 是標籤的實際值。
  • y^ 是模型對 y 的預測值。

舉例來說,請考慮下列五個例子的損失:

實際值 模型預測結果 損失 平方損失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 損失

因此,均方誤差為:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

均方誤差是常見的訓練最佳化器,特別適用於線性迴歸

比較均方誤差與均方絕對誤差均方根誤差

TensorFlow Playground 會使用 Mean Squared Error 計算損失值。

異常值會對均方誤差造成重大影響。舉例來說,損失 1 是平方損失 1,但損失 3 是平方損失 9。在上表中,損失 3 的範例約占平均平方誤差的 56%,而損失 1 的各個範例則只占平均平方誤差的 6%。

離群值對平均絕對誤差的影響不如均方誤差那麼大。舉例來說,如果平均絕對誤差約為 38%,則損失 3 個帳戶。

裁剪是一種避免極端異常值損害模型預測能力的方法。


指標

#TensorFlow
#Metric

您重視的統計資料。

目標是機器學習系統嘗試最佳化的指標。

Metrics API (tf.metrics)

#Metric

用於評估模型的 TensorFlow API。例如,tf.metrics.accuracy 會決定模型預測結果與標籤相符的頻率。

最小最大化損失

#Metric

生成式對抗網路的損失函式,根據產生資料和實際資料之間的交叉熵分布。

第一篇論文中使用了 Minimax 損失函式來說明生成式對抗式網路。

詳情請參閱「生成式對抗式網路」課程中的「損失函式」一節。

模型容量

#Metric

模型可學習的問題複雜度。模型可學習的問題越複雜,模型的容量就越高。模型的容量通常會隨著模型參數數量增加。如要查看分類器容量的正式定義,請參閱「VC 維度」。

負類

#fundamentals
#Metric

二元分類中,一個類別稱為「正面」,另一個則稱為「負面」。正類是模型要測試的物件或事件,而負類則是其他可能性。例如:

  • 醫學檢驗中的負向類別可能是「沒有腫瘤」。
  • 電子郵件分類器中的負面類別可能是「非垃圾郵件」。

正類形成對比。

O

目標

#Metric

演算法嘗試最佳化的指標

目標函數

#Metric

模型旨在最佳化的數學公式或指標。舉例來說,線性迴歸的目標函式通常是均方誤差。因此,在訓練線性迴歸模型時,訓練目標是盡量降低均方誤差。

在某些情況下,目標是最大化目標函式。舉例來說,如果目標函式是準確度,目標就是盡可能提高準確度。

另請參閱「損失」。

P

在 k 處傳回 (pass@k)

#Metric

用來判斷大型語言模型產生的程式碼 (例如 Python) 品質的指標。具體來說,pass at k 會指出,在 k 產生的程式碼區塊中,至少有一區塊的程式碼會通過所有單元測試的可能性。

大型語言模型通常很難為複雜的程式設計問題產生良好的程式碼。軟體工程師會針對這項問題,要求大型語言模型為同一個問題產生多個 (k) 解決方案。接著,軟體工程師會針對單元測試測試每個解決方案。在 k 計算通過的結果取決於單元測試的結果:

  • 如果一或多個解決方案通過單元測試,則 LLM 會通過該程式碼產生挑戰。
  • 如果沒有任何解決方案通過單元測試,則 LLM 會失敗該程式碼產生挑戰。

k 處傳遞的公式如下:

pass at k=total number of passestotal number of challenges

一般來說,k 值越高,通過 k 分數的機率就越高;不過,k 值越高,就需要越多的大型語言模型和單元測試資源。

假設軟體工程師要求大型語言模型為 n=50 個困難的程式設計問題產生 k=10 個解決方案。結果如下:

  • 30 張票證
  • 20 個失敗

因此,分數達 10 分時的通過條件如下:

pass at 10=3050=0.6

performance

#Metric

以下是過載用法的字詞:

  • 在軟體工程中,這個詞彙的標準含義是也就是說,這款軟體的執行速度 (或效率) 如何?
  • 在機器學習中代表的意思。這裡的效能是指以下問題的答案:這個模型的準確度如何?也就是說,模型的預測結果有多準確?

排序變數重要性

#df
#Metric

一種變數重要性,用於評估模型在變換特徵值後,預測錯誤率的增幅情形。排序變數重要性是與模型無關的指標。

困惑度

#Metric

用來評估模型完成任務的程度。舉例來說,假設您的工作是讀取使用者在手機鍵盤上輸入的字詞的前幾個字母,並提供可能的完成字詞清單。此任務的困惑度 (P) 大約是您需要提供的猜測次數,才能讓清單包含使用者嘗試輸入的實際字詞。

困惑度與交叉熵相關,如下所示:

P=2cross entropy

正類

#fundamentals
#Metric

您要測試的類別。

舉例來說,癌症模型中的正向類別可能是「腫瘤」。電子郵件分類器中的正類別可能是「垃圾郵件」。

請參閱「負類」一節。

正類一詞可能會造成混淆,因為許多測試的「正」結果通常是不理想的結果。舉例來說,許多醫療檢驗中的正類別,對應於腫瘤或疾病。一般來說,您希望醫生會告訴您:「恭喜!您的檢測結果為陰性。」無論如何,正類別都是測試要尋找的事件。

您同時會測試正面和負面類別。


PR AUC (PR 曲線下的面積)

#Metric

經過內插的精確度和喚回度曲線下面的面積,可透過繪製分類門檻的不同值 (喚回度、精確度) 點來取得。

精確性

#Metric

分類模型的指標,可用來回答下列問題:

當模型預測正類時,預測結果正確的百分比為何?

公式如下:

Precision=true positivestrue positives+false positives

其中:

  • 真陽性表示模型正確預測正類。
  • 偽陽性表示模型誤判為正類。

舉例來說,假設模型做出 200 個正確預測。在這些 200 個陽性預測結果中:

  • 其中 150 個為真陽性。
  • 其中 50 個為偽陽性。

在這種情況下:

Precision=150150+50=0.75

請比較準確率喚回率

如需更多資訊,請參閱機器學習速成課程中的「分類:準確度、喚回率、精確度和相關指標」一文。

k 的精確度 (precision@k)

#language
#Metric

用於評估排名 (排序) 項目清單的指標。k 的精確度可指出清單中前 k 個項目的「相關性」比率。也就是:

precision at k=relevant items in first k items of the listk

k 的值必須小於或等於傳回清單的長度。請注意,傳回清單的長度並非計算的一部分。

關聯性通常是主觀判斷,即使是專業的人類評估員,也經常對哪些項目具有關聯性有不同意見。

比較時段:

假設大型語言模型收到以下查詢:

List the 6 funniest movies of all time in order.

大型語言模型會傳回下表前兩欄所示的清單:

位置 電影 相關嗎?
1 一般
2 辣妹過招
3 Platoon
4 《伴娘我最大》
5 Citizen Kane
6 這是 Spinal Tap

前三部電影中有兩部與主題相關,因此精確度為 3:

precision at 3=23=0.67

前五部電影中有四部非常好笑,因此精確度為 5:

precision at 5=45=0.8

精確度與喚回度曲線

#Metric

在不同分類門檻下,精確度喚回率的曲線。

預測偏誤

#Metric

這個值表示預測值的平均值與資料集中標籤的平均值之間的差距。

請勿與機器學習模型中的偏誤術語倫理和公平性偏誤混淆。

預測對等

#fairness
#Metric

公平性指標:檢查指定分類器的精確度率,是否與所考慮的子群體相同。

舉例來說,如果預測大學錄取率的模型精確度率對小人和布羅卜丁人相同,則該模型就符合預測國籍的一致性。

預測比率平價有時也稱為「預測比率平價」

如需進一步瞭解預測相等性,請參閱「公平性定義說明」(第 3.2.1 節)。

預測費率平價

#fairness
#Metric

預測相符性的另一個名稱。

機率密度函式

#Metric

這個函式可找出資料樣本「確切」出現特定值的頻率。如果資料集的值是連續浮點數字,則幾乎不會出現完全相符的情況。不過,整合從值 x 到值 y 的機率密度函式,可產生 xy 之間資料樣本的預期頻率。

舉例來說,假設常態分布的平均值為 200,標準差為 30。如要判斷資料樣本落在 211.4 到 218.7 範圍內的預期頻率,您可以從 211.4 到 218.7 整合常態分佈的機率密度函式。

R

召回

#Metric

分類模型的指標,可用來回答下列問題:

基準真相正類時,模型正確識別為正類的預測結果有多少百分比?

公式如下:

Recall=true positivestrue positives+false negatives

其中:

  • 真陽性表示模型正確預測正類。
  • 偽陰性表示模型誤判負類

舉例來說,假設您的模型針對基準真相為正類的示例做出 200 次預測。在這些 200 個預測結果中:

  • 其中 180 個為真陽性。
  • 20 個為偽陰性。

在這種情況下:

Recall=180180+20=0.9

在正類別很少出現的情況下,回憶率特別有助於判斷分類模型的預測能力。舉例來說,請考慮類別不平衡的資料集,其中某種疾病的正類患者只出現在百萬分之 10 的患者身上。假設您的模型做出五百萬個預測,並產生以下結果:

  • 30 個真陽性
  • 20 個偽陰性
  • 4,999,000 個真陰性
  • 950 個偽陽性

因此,這個模型的喚回率為:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
相比之下,這個模型的準確率如下:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

雖然高準確度值看起來很厲害,但其實毫無意義。對於類別不平衡的資料集而言,喚回率比準確度更實用。


詳情請參閱「分類:準確度、喚回率、精確度和相關指標」。

k 時的喚回率 (recall@k)

#language
#Metric

評估系統輸出排名 (排序) 項目清單的指標。在 k 的回憶率,是指在該清單中,前 k 個項目中,與傳回的相關項目總數相比,相關項目所占的比例。

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

精確度為 k 形成對比。

假設大型語言模型收到以下查詢:

List the 10 funniest movies of all time in order.

而大型語言模型會傳回第一個兩個欄所示的清單:

位置 電影 相關嗎?
1 一般
2 辣妹過招
3 Platoon
4 《伴娘我最大》
5 這是 Spinal Tap
6 飛機!
7 今天暫時停止
8 Monty Python and the Holy Grail
9 奧本海默
10 獨領風騷

上方清單中的八部電影都很有趣,因此屬於「清單中的相關項目」。因此,在 k 的所有回憶計算中,8 會是分母。那分母呢?前 4 個項目中有 3 個相關,因此在 4 個項目中的回憶率為:

recall at 4=38=0.375

前 8 部電影中有 7 部非常好笑,因此在 8 部電影的回憶點為:

recall at 8=78=0.875

ROC 曲線

#fundamentals
#Metric

在二元分類中,針對不同的分類閾值,繪製真陽率偽陽率的圖表。

ROC 曲線的形狀可顯示二元分類模型分隔正類和負類的能力。舉例來說,假設二元分類模型可完美區分所有負類和正類:

數值線,右側有 8 個正面示例,左側有 7 個負面示例。

上述模型的 ROC 曲線如下所示:

ROC 曲線。x 軸為偽陽率,y 軸為真陽率。曲線呈倒 L 形。曲線從 (0.0,0.0) 開始,直線向上到 (0.0,1.0)。然後曲線會從 (0.0,1.0) 變成 (1.0,1.0)。

相較之下,下圖呈現原始邏輯迴歸值,這類模型完全無法將負向類別與正向類別區分開:

數值線,其中正面和負面類別完全混合。

這個模型的 ROC 曲線如下所示:

ROC 曲線,實際上是從 (0.0,0.0) 到 (1.0,1.0) 的直線。

在現實世界中,大多數二元分類模型會在某種程度上將正類和負類分開,但通常不會完全分開。因此,典型的 ROC 曲線會落在兩個極端之間:

ROC 曲線。x 軸為偽陽率,y 軸為真陽率。ROC 曲線大致上是從西到北,沿著指南針點橫跨的搖擺弧線。

理論上,ROC 曲線上最接近 (0.0,1.0) 的點會標示出理想的分類閾值。不過,其他幾個實際問題也會影響理想分類門檻的選取。舉例來說,偽陰性可能會比偽陽性造成更大的痛苦。

數值指標 AUC 會將 ROC 曲線濃縮為單一浮點值。

均方根誤差 (RMSE)

#fundamentals
#Metric

均方誤差的平方根。

ROUGE (喚回度導向的摘要評估研究)

#language
#Metric

一組用於評估自動摘要和機器翻譯模型的指標。ROUGE 指標可判斷參考文字與機器學習模型產生的文字的相似程度。ROUGE 系列的每個成員都會以不同的方式測量重疊。ROUGE 分數越高,表示參考文字和產生文字的相似度越高。

每個 ROUGE 系列成員通常會產生下列指標:

  • 精確度
  • 喚回度
  • F1

詳情和範例請參閱:

ROUGE-L

#language
#Metric

ROUGE 家族成員,專注於參考文字生成文字最長的共同子序列長度。以下公式可計算 ROUGE-L 的召回率和精確度:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

接著,您可以使用 F1 將 ROUGE-L 喚回率和 ROUGE-L 精確度匯總為單一指標:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
請參考下列參考文字和產生的文字。
類別 製作人 文字
參考文字 人工翻譯 我想瞭解各種事物。
系統生成的文字 機器學習模型 我想學習很多東西。
因此:
  • 最長的共同子序列為 5 (I want to of things)
  • 參考文字中的字詞數為 9。
  • 生成文字中的字詞數量為 7。
因此:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L 會忽略參考文字和產生文字中的任何換行符號,因此最長的共同子序列可能會跨越多個句子。如果參考文字和產生的文字包含多個句子,則通常會使用 ROUGE-L 的變化版本 ROUGE-Lsum 做為指標。ROUGE-Lsum 會判斷段落中每個句子的最長共同子序列,然後計算這些最長共同子序列的平均值。

請參考下列參考文字和產生的文字。
類別 製作人 文字
參考文字 人工翻譯 火星表面是乾燥的,幾乎所有的水都位於地下深處。
系統生成的文字 機器學習模型 火星表面乾燥,不過,絕大多數的水都位於地下。
因此:
第一句 第二句
最長的共同序列2 (火星乾燥) 3 (水位在地下)
參考文字的句子長度 6 7
產生文字的句子長度 5 8
因此:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

ROUGE 系列中的一組指標,用於比較參考文字產生文字中特定大小的共用 N-gram。例如:

  • ROUGE-1 會評估參考文字和產生文字中共用的符記數量。
  • ROUGE-2 會評估參考文字和產生文字中共用的 二元語法 (2-grams) 數量。
  • ROUGE-3 會評估參考文字和產生文字中共用的 三元語法 (3-grams) 數量。

您可以使用下列公式,計算 ROUGE-N 系列的任何成員的 ROUGE-N 回溯率和 ROUGE-N 精確度:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

接著,您可以使用 F1 將 ROUGE-N 喚回率和 ROUGE-N 精確度匯總為單一指標:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
假設您決定使用 ROUGE-2 評估機器學習模型的翻譯成效,並與人類翻譯結果進行比較。
類別 製作人 文字 二元組
參考文字 人工翻譯 我想瞭解各種事物。 我想、想、要瞭解、瞭解各種各樣、各式各樣的事物
系統生成的文字 機器學習模型 我想學習很多東西。 我想學習很多東西
因此:
  • 符合的 2 元組數量為 3 (I wantwant toof things)。
  • 參考文字中的 2-grams 數量為 8。
  • 產生的文字中有 6 個 2-gram。
因此:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

這是一種寬容的 ROUGE-N 形式,可啟用skip-gram 比對功能。也就是說,ROUGE-N 只會計算與完全相符N-gram,但 ROUGE-S 也會計算以一或多個字詞分隔的 N-gram。舉例來說,您可以嘗試:

計算 ROUGE-N 時,2 元組「白雲」與「白色捲雲」不相符。不過,在計算 ROUGE-S 時,「白雲」與「白色捲雲」相符。

R 平方

#Metric

迴歸指標,可用來判斷標籤的變化程度,以及變化程度是否因個別特徵或特徵組合而異。R 平方值介於 0 和 1 之間,您可以按照下列方式解讀:

  • R 平方值為 0 表示標籤的變化並非由特徵集所造成。
  • R 平方值為 1 表示標籤的所有變化都歸因於特徵組合。
  • 介於 0 和 1 之間的 R 平方值,表示可從特定特徵或特徵組合預測標籤變化的程度。舉例來說,R 平方值為 0.10 表示標籤中 10% 的變異是因特徵組合而起,R 平方值為 0.20 表示 20% 是因特徵組合而起,以此類推。

R 平方是模型預測值與真值之間的 皮爾森相關係數平方。

S

計分

#recsystems
#Metric

推薦系統的一部分,為候選項目產生階段產生的每個項目提供值或排名。

相似度評估

#clustering
#Metric

分群演算法中,用來判斷任何兩個範例的相似度 (相似程度) 的指標。

稀疏度

#Metric

向量或矩陣中設為零 (或空值) 的元素數量,除以該向量或矩陣中的項目總數。舉例來說,假設有一個 100 個元素的矩陣,其中 98 個儲存格含有零。稀疏度的計算方式如下:

sparsity=98100=0.98

「特徵稀疏度」是指特徵向量的稀疏度;「模型稀疏度」是指模型權重的稀疏度。

平方轉折損失

#Metric

轉折損失的平方。平方轉折損失比一般轉折損失更嚴厲地懲罰異常值。

平方損失

#fundamentals
#Metric

L2 損失的同義詞。

T

測試損失

#fundamentals
#Metric

指標:代表模型與測試集損失。建構模型時,您通常會盡量減少測試損失。這是因為低測試損失比低訓練損失或低驗證損失更能傳達品質信號。

測試損失與訓練損失或驗證損失之間的差距很大,有時表示您需要提高正規化率

前 k 名準確度

#language
#Metric

「目標標籤」出現在產生清單前 k 個位置的百分比。清單可以是個人化推薦內容,或是由 softmax 排序的項目清單。

Top-k 準確度也稱為 k 點準確度

請考慮使用機器學習系統,根據樹葉的相片使用 softmax 識別樹木的機率。下表顯示從五張輸入樹木相片產生的輸出清單。每個資料列都包含目標標籤和五個最可能的樹狀圖。舉例來說,如果目標標籤是「楓樹」maple,機器學習模型會將「榆樹」elm 視為最可能的樹木,而「橡樹」oak 為次之,以此類推。

目標標籤 1 2 3 4 5
Maple 榆樹 橡木 maple 水青岡 楊木
山茱萸 橡木 dogwood 楊木 Hickory Maple
橡木 oak 香椿 蝗蟲 赤楊 Linden
Linden Maple paw-paw 橡木 香椿 楊木
橡木 蝗蟲 Linden oak Maple paw-paw

目標標籤只會在第一個位置出現一次,因此 top-1 準確度為:

top-1 accuracy=15=0.2

目標標籤出現在前三個位置中的一個位置四次,因此前三名準確度為:

top-1 accuracy=45=0.8

毒性

#language
#Metric

內容的辱罵、威脅或冒犯程度。許多機器學習模型都能識別及評估有害內容。這些模型大多會根據多個參數 (例如辱罵性言論和威脅性言論的程度) 來識別有害內容。

訓練損失

#fundamentals
#Metric

指標:代表模型在特定訓練疊代期間的損失。舉例來說,假設損失函式為「Mean Squared Error」。也許第 10 次疊代的訓練損失 (均方誤差) 為 2.2,而第 100 次疊代的訓練損失為 1.9。

損失曲線會將訓練損失與疊代次數繪製成圖。損失曲線會提供下列訓練相關提示:

  • 向下傾斜表示模型正在改善。
  • 向上傾斜的斜率表示模型的品質會越來越差。
  • 平坦的斜率表示模型已達到收斂

舉例來說,下列略為理想化的損失曲線顯示:

  • 在初始反覆執行階段中,呈現陡峭的向下斜坡,表示模型快速改善。
  • 曲線會逐漸變平 (但仍呈現下降趨勢),直到訓練接近尾聲為止,這表示模型會以比初始反覆執行階段稍慢的速度持續改善。
  • 訓練結束時的斜率平坦,表示已收斂。

訓練損失與疊代次數的圖表。這個損失曲線一開始會以陡峭的斜率向下傾斜。斜率會逐漸變平,直到斜率變為零為止。

雖然訓練損失很重要,但也請參閱泛化

真陰性 (TN)

#fundamentals
#Metric

以下範例說明模型正確預測負類。舉例來說,模型推斷特定電子郵件不是「垃圾郵件」,而該郵件確實「不是垃圾郵件」

真陽性 (TP)

#fundamentals
#Metric

以下是模型正確預測正類的範例。舉例來說,模型推斷特定電子郵件為垃圾郵件,而該郵件確實是垃圾郵件。

真陽率 (TPR)

#fundamentals
#Metric

recall 的同義詞。也就是:

true positive rate=true positivestrue positives+false negatives

真陽率是 ROC 曲線的 y 軸。

V

驗證損失

#fundamentals
#Metric

指標:代表模型在特定疊代��訓練期間,在驗證集上顯示的損失

另請參閱泛化曲線

變數重要性

#df
#Metric

一組分數,用於指出每項特徵對模型的相對重要性。

舉例來說,假設您要建立一個用於估算房價的決策樹,假設這個決策樹使用三個特徵:尺寸、年齡和風格。如果計算出這三項特徵的變數重要性組合為 {size=5.8, age=2.5, style=4.7},則 size 對決策樹的重要性高於 age 或 style。

有不同的變數重要性指標,可讓機器學習專家瞭解模型的不同面向。

W

Wasserstein 損失

#Metric

這是生成式對抗網路中常用的損失函式之一,根據產生資料和實際資料之間的地球移動距離計算。