機械学習の用語集: 指標

このページには、指標の用語集の用語が記載されています。用語集のすべての用語については、こちらをクリックしてください。

A

accuracy

#fundamentals
#Metric

正しい分類予測数を予測の合計数で割った値。具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

たとえば、40 件の予測を正しく行い、10 件の予測を誤ったモデルの精度は次のようになります。

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では、正しい予測誤った予測のさまざまなカテゴリに固有の名前が付けられます。したがって、バイナリ分類の精度の式は次のとおりです。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

  • TP は、真陽性(正しい予測)の数です。
  • TN は、真陰性(正しい予測)の数です。
  • FP は、偽陽性(誤った予測)の数です。
  • FN は、偽陰性(誤った予測)の数です。

精度を 適合率再現率と比較します。

詳細については、ML 集中講座の分類: 精度、再現率、適合率、関連指標をご覧ください。

PR 曲線の下の面積

#Metric

PR AUC(PR 曲線の下の面積)をご覧ください。

ROC 曲線の下の面積

#Metric

AUC(ROC 曲線の下の面積)をご覧ください。

AUC(ROC 曲線の下の面積)

#fundamentals
#Metric

0.0 ~ 1.0 の数値。バイナリ分類モデルが正クラス負クラスを分離する能力を表します。AUC が 1.0 に近いほど、モデルがクラスを区別する能力が高くなります。

たとえば、次の図は、正クラス(緑色の楕円)と負クラス(紫色の長方形)を完全に分離する分類モデルを示しています。この現実離れした完璧なモデルの AUC は 1.0 です。

一方に 8 つのポジティブ サンプル、もう一方に 9 つのネガティブ サンプルがある数直線。

一方、次の図は、ランダムな結果を生成する分類モデルの結果を示しています。このモデルの AUC は 0.5 です。

6 つのポジティブ サンプルと 6 つのネガティブ サンプルを含む数直線。サンプルの順序は、正、負、正、負、正、負、正、負、正、負、正、負です。

はい。前述のモデルの AUC は 0.0 ではなく 0.5 です。

ほとんどのモデルは、両極端の中間にあります。たとえば、次のモデルは正と負をある程度分離しているため、AUC は 0.5 ~ 1.0 の範囲にあります。

6 つのポジティブ サンプルと 6 つのネガティブ サンプルを含む数直線。サンプルの順序は、負、負、負、負、正、負、正、正、負、正、正、正です。

AUC では、分類しきい値に設定した値は無視されます。代わりに、AUC は可能な分類しきい値をすべて考慮します。

詳細については、機械学習集中講座の分類: ROC と AUC をご覧ください。

k での平均適合率

#language
#Metric

書籍のおすすめの番号付きリストなど、ランク付けされた結果を生成する単一のプロンプトでのモデルのパフォーマンスを要約するための指標。k での平均適合率は、各関連結果の k での適合率値の平均です。したがって、k での平均適合率の式は次のようになります。

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

ここで

  • \(n\) は、リスト内の関連アイテムの数です。

k での再呼び出しとは対照的です。

B

ベースライン

#Metric

別のモデル(通常はより複雑なモデル)のパフォーマンスを比較するための参照点として使用されるモデル。たとえば、ロジスティック回帰モデルは、ディープラーニング モデルの優れたベースラインとして機能します。

特定の問題の場合、ベースラインは、新しいモデルが有用であるために新しいモデルが達成する必要がある最小の期待パフォーマンスをモデル デベロッパーが定量化するために役立ちます。

C

費用

#Metric

損失と同義。

反事実的公平性

#fairness
#Metric

1 つ以上の機密性の高い属性を除き、分類システムが 1 人の個人に対して、その個人と同一である別の個人に対しても同じ結果を生成しているかどうかを確認する公平性指標。反事実的公平性について分類システムを評価することは、モデルでバイアスが生じる可能性のある原因を特定する方法の一つです。

詳しくは、次のいずれかをご覧ください。

交差エントロピー

#Metric

対数損失マルチクラス分類問題に一般化したものです。交差エントロピーは、2 つの確率分布の差異を定量化します。困惑度もご覧ください。

累積分布関数(CDF)

#Metric

ターゲット値以下のサンプルの頻度を定義する関数。たとえば、連続値の正規分布について考えてみましょう。CDF は、約 50% のサンプルが平均以下であり、約 84% のサンプルが平均の 1 標準偏差以下であることを示します。

D

人口学的等価性

#fairness
#Metric

モデルの分類結果が特定の機密属性に依存しない場合、満たされる公平性指標

たとえば、リリパット人とブロブディンガ人両方がグルブドゥブドゥリブ大学に応募した場合、あるグループが平均的に他方よりも優れているかどうかにかかわらず、入学したリリパット人の割合が入学したブロブディンガ人の割合と同じであれば、人種的平等が達成されます。

これは、オッズの均等化機会の平等とは対照的です。これらのポリシーでは、集計された分類結果が機密属性に依存することを許可しますが、特定の指定されたグラウンド トゥルースラベルの分類結果が機密属性に依存することを許可しません。属性の均等性を最適化する際のトレードオフを示す可視化については、「よりスマートな機械学習による差別の是正」をご覧ください。

詳細については、機械学習集中講座の公平性: 人口統計の均等性をご覧ください。

E

土木工事距離(EMD)

#Metric

2 つの分布の相対的な類似性を測定する尺度。地球移動距離が小さいほど、分布は類似しています。

編集距離

#language
#Metric

2 つのテキスト文字列の類似度を測定する値。機械学習では、編集距離が次の理由で役立ちます。

  • 編集距離は簡単に計算できます。
  • 編集距離は、類似しているとわかっている 2 つの文字列を比較できます。
  • 編集距離は、異なる文字列が特定の文字列にどれほど類似しているかを判断できます。

編集距離にはいくつかの定義があり、それぞれが異なる文字列演算を使用します。例については、Levenshtein 距離をご覧ください。

経験累積分布関数(eCDF または EDF)

#Metric

実際のデータセットからの経験的な測定に基づく累積分布関数。X 軸上の任意の点における関数の値は、指定された値以下のデータセット内の観測値の割合です。

エントロピー

#df
#Metric

情報理論では、確率分布の予測可能性の説明です。エントロピーは、各に含まれる情報量としても定義されます。分布のエントロピーが最大になるのは、確率変数のすべての値が同等の確率で発生する場合です。

2 つの可能な値「0」と「1」を持つセット(バイナリ分類問題のラベルなど)のエントロピーは次の式で表されます。

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ここで

  • H はエントロピーです。
  • p は「1」の例の割合です。
  • q は「0」の例の割合です。q = (1 - p) です。
  • log は通常 log2 です。この場合、エントロピーの単位はビットです。

たとえば、次のように仮定します。

  • 100 個のサンプルに値「1」が含まれている
  • 300 件のサンプルに値「0」が含まれている

したがって、エントロピー値は次のようになります。

  • p = 0.25
  • q = 0.75
  • H =(-0.25)log2(0.25)-(0.75)log2(0.75)= 0.81 ビット / サンプル

完全にバランスが取れたセット(200 個の「0」と 200 個の「1」など)では、エントロピーはサンプルあたり 1.0 ビットになります。セットのアンバランスが増加すると、エントロピーは 0.0 に近づきます。

分類ツリーでは、エントロピーは情報量の増加を定式化して、分類分類ツリーの成長中に分割ツール条件を選択するのに役立ちます。

エントロピーを次と比較する:

エントロピーは、シャノンのエントロピーとも呼ばれます。

詳細については、意思決定木コースの数値特徴量を使用した二値分類の Exact スプリッタをご覧ください。

機会の平等

#fairness
#Metric

公平性指標。モデルが機微な属性のすべての値について望ましい結果を同等に予測しているかどうかを評価します。つまり、モデルの望ましい結果が陽性のクラスである場合、目標はすべてのグループで真陽性率を同じにすることとなります。

機会の平等はオッズの均等化に関連しています。これは、真陽性率と偽陽性率両方がすべてのグループで同じであることを必要とします。

Glubbdubdrib 大学が、厳格な数学プログラムにリリパット人とブロブディンガム人の両方を受け入れているとします。リリプト人の中等学校では、数学クラスの充実したカリキュラムが提供されており、ほとんどの生徒が大学プログラムの資格を得ています。ブロブディンガニアの中等学校では数学クラスがまったく提供されていないため、資格を取得する生徒は非常に少なくなっています。国籍(リリパット人またはブロブディンガ人)に関連する「入学」という優先ラベルについて、資格要件を満たす生徒が、リリパット人かブロブディンガ人かにかかわらず、入学する可能性に差がない場合は、機会均等が満たされています。

たとえば、100 人のリリパット人と 100 人のブロブディンガニア人が Glubbdubdrib 大学に申し込み、入学審査の結果が次のように出たとします。

表 1. リリパット人の申請者(90% が資格要件を満たしている)

  リードの精査が完了 見込みなし
入院 45 3
不承認 45 7
合計 90 10
入学が認められた資格要件を満たしている生徒の割合: 45/90 = 50%
入学が認められなかった資格要件を満たしていない生徒の割合: 7/10 = 70%
入学が認められたリリプト人の生徒の合計割合: (45+3)/100 = 48%

 

表 2. Brobdingnagian の申請者(10% が資格要件を満たしている):

  リードの精査が完了 見込みなし
入院 5 9
不承認 5 81
合計 10 90
入学が認められた資格要件を満たしている学生の割合: 5/10 = 50%
資格要件を満たしていない不合格となった学生の割合: 81/90 = 90%
ブロブディンガニアの入学が認められた学生の合計割合: (5+9)/100 = 14%

上記の例では、資格要件を満たしたリリパット人とブロブディンガム人の両方が入学する確率が 50% であるため、資格要件を満たした生徒の入学機会の平等が満たされています。

機会均等は満たされていますが、次の 2 つの公平性指標は満たされていません。

  • 人口構成の平等: リリパット人とブロブディンガ人では大学への入学率が異なります。リリパット人の学生の 48% が入学しますが、ブロブディンガ人の学生の入学率は 14% に過ぎません。
  • 均等なオッズ: 資格要件を満たしているリリパット人とブロブディンガ人には、どちらも同じ入学チャンスが与えられますが、資格要件を満たしていないリリパット人とブロブディンガ人には、どちらも同じ不合格のチャンスが与えられるという追加の制約は満たされません。資格のないリリパット人の不承認率は 70% であるのに対し、資格のないブロブディンガニア人の不承認率は 90% です。

詳細については、機械学習集中講座の公平性: 機会の平等をご覧ください。

オッズが等しい

#fairness
#Metric

モデルが、正クラス負クラスの両方に対して、機密性の高い属性のすべての値で結果を同等に予測しているかどうかを評価する公平性指標です。つまり、真陽性率偽陰性率の両方が、すべてのグループで同じである必要があります。

オッズの均等化は、単一クラスのエラー率(正または負)のみに焦点を当てた機会の平等に関連しています。

たとえば、Glubbdubdrib 大学がリリパット人とブロブディンガム人の両方を厳格な数学プログラムに受け入れているとします。リリプト人の中等学校では、数学クラスの充実したカリキュラムが提供されており、ほとんどの生徒が大学プログラムの資格を得ています。ブロブディンガニアの中等学校では数学クラスがまったく提供されていないため、資格を取得する生徒は非常に少なくなっています。平等な機会は、申請者がリリパット人かブロブディンガジャン人かにかかわらず、資格要件を満たしていればプログラムへの入学が同じ確率で認められ、資格要件を満たしていない場合は不承認になる確率が同じである場合に満たされます。

100 人のリリパット人と 100 人のブロブディンガニア人が Glubbdubdrib 大学に申請し、入学審査の結果が次のように出たとします。

表 3: リリパット人の申請者(90% が資格要件を満たしている)

  リードの精査が完了 見込みなし
入院 45 2
不承認 45 8
合計 90 10
入学が認められた資格要件を満たす生徒の割合: 45/90 = 50%
資格要件を満たさない不合格となった生徒の割合: 8/10 = 80%
入学が認められたリリプトゥー人の割合: (45+2)/100 = 47%

 

表 4. Brobdingnagian の申請者(10% が資格要件を満たしている):

  リードの精査が完了 見込みなし
入院 5 18
不承認 5 72
合計 10 90
入学が認められた資格要件を満たしている生徒の割合: 5/10 = 50%
資格要件を満たしていない不合格となった生徒の割合: 72/90 = 80%
ブロブディンガニアの入学が認められた生徒の合計割合: (5+18)/100 = 23%

資格要件を満たしているリリパット人とブロブディンガジャンの学生はどちらも入学できる確率が 50%、資格要件を満たしていないリリパット人とブロブディンガジャンの学生はどちらも不合格になる確率が 80% であるため、均等なオッズが満たされています。

オッズの均等化は、「教師あり学習における機会の平等」で次のように正式に定義されています。「予測子 Ŷ が保護対象属性 A と結果 Y に関してオッズの均等化を満たす場合、Ŷ と A は Y を条件として独立している。」

evals

#language
#generativeAI
#Metric

主に LLM 評価の略語として使用されます。より広い意味で、evals はあらゆる形式の評価の略語です。

評価

#language
#generativeAI
#Metric

モデルの品質を測定したり、異なるモデルを比較したりするプロセス。

教師あり機械学習モデルを評価するには、通常、検証セットテストセットと比較して判断します。LLM の評価には通常、幅広い品質と安全性の評価が含まれます。

F

F1

#Metric

適合率再現率の両方に依存する「ロールアップ」2 分類分類指標。式は次のとおりです。

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

公平性指標

#fairness
#Metric

測定可能な「公平性」の数学的定義。よく使用される公平性指標には次のようなものがあります。

多くの公平性指標は相互に排他的です。公平性指標の不整合をご覧ください。

偽陰性(FN)

#fundamentals
#Metric

モデルが陰性クラスを誤って予測している例。たとえば、モデルは特定のメール メッセージがスパムではない(負のクラス)と予測しますが、そのメール メッセージは実際にはスパムです。

偽陰性率

#Metric

モデルが陰性のクラスを誤って予測した実際の正例の割合。次の式は、誤判定率を計算します。

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

詳細については、機械学習集中講座のしきい値と混同行列をご覧ください。

偽陽性(FP)

#fundamentals
#Metric

モデルが陽性のクラスを誤って予測している例。たとえば、モデルは特定のメール メッセージがスパム(正クラス)であると予測しますが、そのメール メッセージは実際にはスパムではありません

詳細については、機械学習集中講座のしきい値と混同行列をご覧ください。

偽陽性率(FPR)

#fundamentals
#Metric

モデルが陽性のクラスを誤って予測した実際の負のサンプルの割合。次の式は、誤検出率を計算します。

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は、ROC 曲線の X 軸です。

詳細については、機械学習集中講座の分類: ROC と AUC をご覧ください。

特徴の重要度

#df
#Metric

変数の重要度と同義。

成功率

#generativeAI
#Metric

ML モデルの生成テキストを評価するための指標。成功率は、生成された「成功した」テキスト出力の数を生成されたテキスト出力の合計数で割った値です。たとえば、大規模言語モデルが 10 個のコードブロックを生成し、そのうち 5 個が成功した場合、成功率は 50% になります。

成功率は統計学全体で広く役立ちますが、ML 内では、この指標は主にコード生成や数学の問題など、検証可能なタスクの測定に役立ちます。

G

ジニ不純度

#df
#Metric

エントロピーに似た指標。分割ツールは、Gini 不純物またはエントロピーから導出された値を使用して、分類決定木条件を作成します。情報量の増加はエントロピーから導出されます。ジニ不純物から導出された指標に、広く認められた同等の用語はありません。ただし、この名前のない指標は情報量の増加と同じくらい重要です。

ジニ不純度は、ジニ係数または単にジニとも呼ばれます。

H

ヒンジの紛失

#Metric

各トレーニング サンプルから可能な限り離れた分類境界を見つけ、サンプルと境界間のマージンを最大化するように設計された分類用の損失関数のファミリー。KSVM はヒンジ損失(または関連する関数(平方ヒンジ損失など))を使用します。二項分類の場合、ヒンジ損失関数は次のように定義されます。

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

ここで、y は正解ラベル(-1 または +1)で、y' は分類モデルの元の出力です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

したがって、ヒンジ損失と(y * y')のプロットは次のようになります。

2 つの線分で構成される直交グラフ。最初の線分は(-3, 4)から始まり、(1, 0)で終わります。2 番目の線分は(1, 0)で始まり、傾斜 0 で無限に続きます。

I

公平性の指標の不整合

#fairness
#Metric

公平性の概念の中には相互に矛盾し、同時に満たすことができないものがあるという考え方。そのため、すべての ML 問題に適用できる公平性を定量化する単一の普遍的な指標はありません。

公平性の指標が互換性がないことは、公平性への取り組みが実を結ばないという意味ではありません。代わりに、ユースケースに固有の害を防ぐことを目標に、特定の ML 問題のコンテキストに沿って公平性を定義する必要があることを示唆しています。

公平性指標の非互換性について詳しくは、「公平性の可能性(不可能性)について」をご覧ください。

個人の公平性

#fairness
#Metric

類似の個人が類似して分類されるかどうかを確認する公平性指標。たとえば、Brobdingnagian アカデミーは、同じ成績と標準化テストのスコアを持つ 2 人の生徒が、入学する可能性を同等に確保することで、個人の公平性を満たしたいと考えています。

個人の公正性は、「類似性」(この場合は成績とテストのスコア)の定義に完全に依存します。類似性指標で重要な情報(生徒のカリキュラムの厳しさなど)が欠落していると、新しい公正性の問題が発生するリスクがあります。

個々の公平性について詳しくは、「認識による公平性」をご覧ください。

情報利得

#df
#Metric

ディシジョン フォレストでは、ノードのエントロピーと、その子ノードのエントロピーの重み付け(例数による)の合計の差です。ノードのエントロピーは、そのノードのサンプルのエントロピーです。

たとえば、次のエントロピー値について考えてみましょう。

  • 親ノードのエントロピー = 0.6
  • 関連する例が 16 個ある 1 つの子ノードのエントロピー = 0.2
  • 関連する例が 24 個ある別の子ノードのエントロピー = 0.1

つまり、例の 40% が 1 つの子ノードに、60% がもう 1 つの子ノードに分類されます。そのため、次のようになります。

  • 子ノードの加重エントロピーの合計 =(0.4 × 0.2)+(0.6 × 0.1)= 0.14

情報利得は次のようになります。

  • 情報利得 = 親ノードのエントロピー - 子ノードの重み付けエントロピーの合計
  • 情報利得 = 0.6 - 0.14 = 0.46

ほとんどの分割ツールは、情報量を最大化する条件を作成しようとします。

評価者間の一致

#Metric

タスクの実行時に人間の評価者が一致する頻度の測定値。評価者が一致しない場合は、タスクの手順を改善する必要があります。アノテーション作成者間の合意や評価者間の信頼性とも呼ばれます。最も一般的な判定者間の合意測定の 1 つである Cohen のカッパもご覧ください。

詳細については、機械学習集中講座のカテゴリデータ: 一般的な問題をご覧ください。

L

L1 損失

#fundamentals
#Metric

実際のラベル値とモデルが予測する値の差の絶対値を計算する損失関数。たとえば、5 つのサンプルバッチに対する L1 損失の計算は次のとおりです。

例の実際の値 モデルの予測値 デルタの絶対値
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 の損失

L1 損失は、L2 損失よりも外れ値に敏感ではありません。

平均絶対誤差は、サンプルあたりの平均 L1 損失です。

詳細については、機械学習集中講座の線形回帰: 損失関数をご覧ください。

L2 損失

#fundamentals
#Metric

実際のラベル値とモデルが予測する値の差の二乗を計算する損失関数。たとえば、5 つのサンプルを含むバッチの L2 損失の計算は次のようになります。

例の実際の値 モデルの予測値 デルタの二乗
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

二乗するため、L2 損失は外れ値の影響を増幅します。つまり、L2 損失は、L1 損失よりも不適切な予測に強く反応します。たとえば、前のバッチの L1 損失は 16 ではなく 8 になります。1 つの外れ値が 16 件中 9 件を占めていることに注目してください。

回帰モデルは通常、損失関数として L2 損失を使用します。

平均二乗誤差は、サンプルあたりの平均 L2 損失です。二乗損失は、L2 損失の別名です。

詳細については、機械学習集中講座のロジスティック回帰: 損失と正則化をご覧ください。

LLM の評価(evals)

#language
#generativeAI
#Metric

大規模言語モデル(LLM)のパフォーマンスを評価するための一連の指標とベンチマーク。LLM 評価の概要は次のとおりです。

  • 研究者が LLM の改善が必要な領域を特定できるようにします。
  • さまざまな LLM を比較し、特定のタスクに最適な LLM を特定する場合に役立ちます。
  • LLM を安全かつ倫理的に使用できるようにします。

詳細については、機械学習集中講座の大規模言語モデル(LLM)をご覧ください。

損失

#fundamentals
#Metric

教師ありモデルトレーニング中に、モデルの予測ラベルからどのくらい離れているかを表す指標。

損失関数は損失を計算します。

詳細については、機械学習集中講座の線形回帰: 損失関数をご覧ください。

損失関数

#fundamentals
#Metric

トレーニングまたはテスト中に、サンプルのバッチの損失を計算する数学関数。損失関数は、正しい予測を行うモデルに対して、誤った予測を行うモデルよりも低い損失を返します。

通常、トレーニングの目標は、損失関数が返す損失を最小限に抑えることです。

損失関数にはさまざまな種類があります。構築するモデルの種類に適した損失関数を選択します。次に例を示します。

M

平均絶対誤差(MAE)

#Metric

L1 損失を使用する場合の例あたりの平均損失。平均絶対誤差は次のように計算します。

  1. バッチの L1 損失を計算します。
  2. L1 損失をバッチ内の例数で除算します。

たとえば、次の 5 つのサンプルのバッチで L1 損失を計算してみましょう。

例の実際の値 モデルの予測値 損失(実際と予測の差)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 の損失

したがって、L1 損失は 8 で、サンプル数は 5 です。したがって、平均絶対誤差は次のようになります。

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

平均絶対誤差を平均二乗誤差二乗平均平方根誤差と比較します。

K での平均適合率(mAP@k)

#language
#generativeAI
#Metric

検証データセット全体のすべての 平均適合率(k で)スコアの統計的平均。k での平均適合率の 1 つの用途は、おすすめシステムによって生成されたおすすめの品質を判断することです。

「平均平均」というフレーズは冗長に聞こえますが、指標の名前としては適切です。この指標は、複数の k での平均適合率の平均値を求めます。

平均二乗誤差(MSE)

#Metric

L2 損失を使用する場合の例あたりの平均損失。平均二乗誤差は次のように計算します。

  1. バッチの L2 損失を計算します。
  2. L2 損失をバッチ内の例数で除算します。

たとえば、次の 5 つのサンプルのバッチの損失について考えてみましょう。

実際の値 モデルの予測 損失 二乗損失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 損失

したがって、平均二乗誤差は次のようになります。

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均二乗誤差は、特に線形回帰でよく使用されるトレーニング オプティマイザーです。

平均二乗誤差を平均絶対誤差二乗平均平方根誤差と比較します。

TensorFlow Playground は、平均二乗誤差を使用して損失値を計算します。

指標

#TensorFlow
#Metric

重視すべき統計情報。

目標とは、機械学習システムが最適化しようとする指標です。

Metrics API(tf.metrics)

#Metric

モデルを評価するための TensorFlow API。たとえば、tf.metrics.accuracy は、モデルの予測がラベルと一致する頻度を決定します。

ミニマックス損失

#Metric

生成されたデータと実際のデータの分布間のクロスエントロピーに基づく、生成敵対ネットワークの損失関数。

ミニマックス損失は、生成敵対的ネットワークを説明する最初の論文で使用されています。

詳細については、生成敵対ネットワーク コースの損失関数をご覧ください。

モデル容量

#Metric

モデルが学習できる問題の複雑さ。モデルが学習できる問題が複雑になるほど、モデルの容量は大きくなります。通常、モデルの容量はモデル パラメータの数に比例して増加します。分類器の容量の正式な定義については、VC ディメンションをご覧ください。

N

陰性クラス

#fundamentals
#Metric

バイナリ分類では、一方のクラスは「陽性」と呼ばれ、もう一方のクラスは「陰性」と呼ばれます。陽性のクラスは、モデルがテスト対象とする物体またはイベントであり、陰性のクラスは他の可能性です。次に例を示します。

  • 医療検査の負のクラスは「腫瘍ではない」などです。
  • メール分類システムの負クラスは「スパムではない」かもしれません。

正クラスとは対照的です。

O

目標

#Metric

アルゴリズムが最適化しようとしている指標

目的関数

#Metric

モデルの最適化対象とする数式または指標。たとえば、線形回帰の目的関数は通常、平均二乗損失です。したがって、線形回帰モデルをトレーニングするときは、平均二乗損失を最小限に抑えることを目的とします。

目的関数を最大化することが目標となる場合もあります。たとえば、目的関数が精度の場合、目標は精度を最大化することです。

損失もご覧ください。

P

k でパス(pass@k)

#Metric

大規模言語モデルが生成したコード(Python など)の品質を判断するための指標。具体的には、k でパスすると、生成された k 個のコードブロックのうち少なくとも 1 個のコードブロックがすべての単体テストに合格する可能性を示します。

大規模言語モデルは、複雑なプログラミングの問題に対して適切なコードを生成するのが難しいことがよくあります。ソフトウェア エンジニアは、同じ問題に対して複数k)のソリューションを生成するよう大規模言語モデルに指示することで、この問題に対応しています。次に、ソフトウェア エンジニアが各ソリューションを単体テストでテストします。k でのパスの計算は、単体テストの結果によって異なります。

  • これらのソリューションの1 つ以上が単体テストに合格すると、LLM はそのコード生成チャレンジを合格します。
  • どのソリューションも単体テストに合格しなかった場合、LLM はそのコード生成チャレンジを失敗します。

k でのパスの式は次のとおりです。

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

一般に、k の値が大きいほど、k スコアで合格率が高くなります。ただし、k の値が大きいほど、大規模言語モデルとユニットテストのリソースが必要になります。

パフォーマンス

#Metric

次の意味を持つオーバーロードされた用語。

  • ソフトウェア エンジニアリングにおける標準の意味。つまり、このソフトウェアはどれくらい速く(または効率的に)実行されるかということです。
  • 機械学習における意味。ここで、パフォーマンスは次の質問に答えます。このモデルはどの程度正しいですか?つまり、モデルの予測の精度はどの程度かということです。

変数の入れ替えによる重要度

#df
#Metric

特徴量の値を並べ替えたのモデルの予測誤差の増加を評価する変数重要度の一種。変数の入れ替えの重要度は、モデルに依存しない指標です。

パープレキシティ

#Metric

モデルがタスクをどの程度達成しているかを測定する指標の 1 つです。たとえば、ユーザーがスマートフォンのキーボードで入力している単語の最初の数文字を読み取り、候補となる単語のリストを提供するタスクがあるとします。このタスクの混乱度(P)は、ユーザーが入力しようとしている実際の単語がリストに含まれるようにするために提示する必要がある推測の数に近似しています。

混乱度は、次のように交差エントロピーに関連しています。

$$P= 2^{-\text{cross entropy}}$$

陽性クラス

#fundamentals
#Metric

テスト対象のクラス。

たとえば、がんモデルの陽性のクラスは「腫瘍」です。メール分類システムの正クラスは「スパム」などです。

負のクラスとは対照的です。

PR AUC(PR 曲線の下の面積)

#Metric

適合率 / 再現率曲線の補間下の面積。分類しきい値のさまざまな値の(再現率、適合率)ポイントをプロットすることで得られます。

precision

#Metric

次の質問に回答する分類モデルの指標。

モデルが陽性クラスを予測したとき、予測の正解率はどのくらいでしたか?

式は次のとおりです。

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ここで

  • 真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
  • 偽陽性とは、モデルが陽性クラスを誤って予測したことを意味します。

たとえば、モデルが 200 件の陽性予測を行ったとします。これらの 200 件の正の予測のうち、

  • 150 件が真陽性でした。
  • 50 件は誤検出でした。

次のような場合があります。

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

精度再現率とは対照的です。

詳細については、ML 集中講座の分類: 精度、再現率、適合率、関連指標をご覧ください。

k での適合率(precision@k)

#language
#Metric

アイテムのランキング(順序付け)リストを評価するための指標。k での精度は、そのリストの最初の k 個の項目のうち「関連性が高い」項目の割合を示します。具体的には、次のことが求められます。

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k の値は、返されるリストの長さ以下にする必要があります。返されるリストの長さは計算の対象外です。

関連性は主観的な場合が多く、専門の人間の評価者でさえ、関連性のある項目について意見が一致しないことがよくあります。

比較対象日:

適合率と再現率の曲線

#Metric

さまざまな分類しきい値で、適合率再現率の曲線。

予測バイアス

#Metric

予測の平均がデータセット内のラベルの平均からどの程度離れているかを示す値。

機械学習モデルのバイアス項や、倫理と公正性におけるバイアスとは異なります。

予測パリティ

#fairness
#Metric

特定の分類システムで、対象のサブグループで適合率が同等かどうかを確認する公平性指標

たとえば、大学の入学を予測するモデルは、リリパット人とブロブディンガニア人の適合率が同じであれば、国籍の予測の平等を満たします。

予測パリティは、予測レート パリティとも呼ばれます。

予測の公平性について詳しくは、「公平性の定義の説明」(セクション 3.2.1)をご覧ください。

予測レートの同等性

#fairness
#Metric

予測的パリティの別名。

確率密度関数

#Metric

特定の値を正確に持つデータサンプルの頻度を特定する関数。データセットの値が連続浮動小数点数の場合、完全一致はほとんど発生しません。ただし、値 x から値 y までの確率密度関数を積分すると、xy の間のデータサンプルの予想頻度が得られます。

たとえば、平均が 200 で標準偏差が 30 の正規分布について考えてみましょう。211.4 ~ 218.7 の範囲内にあるデータサンプルの予想頻度を特定するには、211.4 ~ 218.7 の範囲で正規分布の確率密度関数を積分します。

R

recall

#Metric

次の質問に回答する分類モデルの指標。

グラウンド トゥルース陽性クラスの場合、モデルが陽性クラスとして正しく識別した予測の割合はどれくらいですか?

式は次のとおりです。

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ここで

  • 真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
  • 偽陰性とは、モデルが陰性クラス誤って予測したことを意味します。

たとえば、モデルがグラウンドトゥルースが陽性のクラスであるサンプルに対して 200 件の予測を行ったとします。これらの 200 個の予測のうち、

  • 180 件が真陽性でした。
  • 20 件は偽陰性でした。

次のような場合があります。

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

詳細については、分類: 精度、再現率、適合率、関連指標をご覧ください。

k での再現率(recall@k)

#language
#Metric

アイテムのランキング(順序付け)リストを出力するシステムを評価するための指標。k での再現率は、リスト内の最初の k 個のアイテムに含まれる関連アイテムの割合を、返された関連アイテムの合計数で割った値です。

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k での精度とは対照的です。

ROC(受信者操作特性)曲線

#fundamentals
#Metric

バイナリ分類で、さまざまな分類しきい値に対する真陽性率偽陽性率のグラフ。

ROC 曲線の形状は、バイナリ分類モデルがポジティブ クラスとネガティブ クラスを分離する能力を示しています。たとえば、バイナリ分類モデルがすべての負のクラスをすべての正のクラスから完全に分離しているとします。

右側に 8 つの正例、左側に 7 つの負例がある数直線。

上記のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。曲線は逆 L 字型です。曲線は(0.0、0.0)から始まり、(0.0、1.0)まで真上に伸びています。曲線は(0.0、1.0)から(1.0、1.0)に移動します。

一方、次の図は、負のクラスと正のクラスをまったく区別できないひどいモデルの未加工のロジスティック回帰値を示しています。

正の例と負のクラスが完全に混在している数直線。

このモデルの ROC 曲線は次のようになります。

ROC 曲線(実際には(0.0,0.0)から(1.0,1.0)までの直線)。

一方、現実世界では、ほとんどのバイナリ分類モデルは正クラスと負クラスをある程度分離しますが、通常は完全には分離しません。したがって、一般的な ROC 曲線は、次の 2 つの極端な曲線の中間に位置します。

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。ROC 曲線は、コンパスの針が西から北に移動する不安定な弧を近似しています。

理論的には、ROC 曲線上で(0.0、1.0)に最も近い点が理想的な分類しきい値になります。ただし、理想的な分類しきい値の選択には、他のいくつかの現実的な問題が影響します。たとえば、偽陰性が偽陽性よりもはるかに大きな問題を引き起こす場合などです。

AUC という数値指標は、ROC 曲線を単一の浮動小数点値に要約します。

二乗平均平方根誤差(RMSE)

#fundamentals
#Metric

平均二乗誤差の平方根。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

自動要約モデルと機械翻訳モデルを評価する指標ファミリー。ROUGE 指標は、参照テキストが ML モデルの生成テキストと重複する度合いを決定します。ROUGE ファミリーの各メンバーは、重複を異なる方法で測定します。ROUGE スコアが高いほど、ROUGE スコアが低い場合よりも、参照テキストと生成テキストの類似性が高くなります。

通常、各 ROUGE ファミリー メンバーは次の指標を生成します。

  • 適合率
  • 再現率
  • F1

詳細と例については、以下をご覧ください。

ROUGE-L

#language
#Metric

ROUGE ファミリーの一員で、リファレンス テキスト生成テキスト最長共通部分列の長さに焦点を当てています。次の式は、ROUGE-L の再現率と精度を計算します。

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

F1 を使用すると、ROUGE-L の再現率と ROUGE-L の精度を 1 つの指標にまとめることができます。

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L は、リファレンス テキストと生成テキストの改行を無視するため、最長共通部分列が複数の文にまたがる可能性があります。リファレンス テキストと生成テキストに複数の文が含まれている場合は、通常、ROUGE-L のバリエーションである ROUGE-Lsum の方が優れた指標です。ROUGE-Lsum は、段落内の各の最長共通部分列を特定し、それらの最長共通部分列の平均を計算します。

ROUGE-N

#language
#Metric

ROUGE ファミリー内の一連の指標。参照テキスト生成テキストの特定サイズの共有 N グラムを比較します。次に例を示します。

  • ROUGE-1 は、参照テキストと生成テキストで共有されるトークンの数を測定します。
  • ROUGE-2 は、参照テキストと生成テキストで共有される2 グラムの数を測定します。
  • ROUGE-3 は、参照テキストと生成テキストで共有される3 グラムの数を測定します。

ROUGE-N ファミリーの任意のメンバーの ROUGE-N の再現率と ROUGE-N の精度を計算するには、次の式を使用します。

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

F1 を使用して、ROUGE-N の再現率と ROUGE-N の精度を 1 つの指標にまとめることができます。

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language
#Metric

ROUGE-N の寛容な形式で、スキップグラムのマッチングを可能にします。つまり、ROUGE-N は完全に一致するN グラムのみをカウントしますが、ROUGE-S は 1 つ以上の単語で区切られた N グラムもカウントします。たとえば、次の点を考えます。

ROUGE-N を計算する際、2 グラムの「白い雲」は「白い雲が渦巻く」と一致しません。ただし、ROUGE-S の計算では、白い雲白い雲が渦巻いていると一致します。

決定係数

#Metric

個々の特徴または特徴セットがラベルのばらつきにどの程度影響しているかを示す回帰指標。R 2 は 0 ~ 1 の値で、次のように解釈できます。

  • R 2 が 0 の場合、ラベルの変動は特徴セットによるものではないことを意味します。
  • R 2 が 1 の場合、ラベルのすべての変動は特徴セットによるものです。
  • 0 から 1 の間の R 2 は、特定の特徴量または特徴量セットからラベルの変化を予測できる程度を示します。たとえば、R 2 が 0.10 の場合、ラベルの分散の 10% が特徴セットによるものであり、R 2 が 0.20 の場合、20% が特徴セットによるものであることを意味します。

R 2 乗は、モデルが予測した値と正解間のピアソン相関係数の 2 乗です。

S

得点

#recsystems
#Metric

おすすめシステムの一部で、候補の生成フェーズで生成された各アイテムの値またはランキングを提供します。

類似性測度

#clustering
#Metric

クラスタリング アルゴリズムでは、2 つのサンプルの類似度を判断するために使用される指標。

スパース性

#Metric

ベクトルまたはマトリックスでゼロ(または null)に設定された要素の数を、そのベクトルまたはマトリックス内のエントリの合計数で割った値。たとえば、98 個のセルにゼロが含まれている 100 要素の行列について考えてみましょう。スパース性の計算は次のとおりです。

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特徴量のスパース性は特徴ベクトルのスパース性を指し、モデルのスパース性はモデル重みのスパース性を指します。

二乗ヒンジ損失

#Metric

ヒンジ損失の 2 乗。二乗ヒンジ損失は、通常のヒンジ損失よりも外れ値を厳しくペナルティにします。

二乗損失

#fundamentals
#Metric

L2 損失の類義語。

T

テスト損失

#fundamentals
#Metric

テストセットに対するモデルの損失を表す指標。通常、モデルを構築する際は、テスト損失を最小限に抑えようとします。これは、低いテスト損失は、低いトレーニング損失や低い検証損失よりも強い品質シグナルであるためです。

テスト損失とトレーニング損失または検証損失の差が大きい場合は、正則化率を増やす必要があることを示唆している場合があります。

top-k 精度

#language
#Metric

生成されたリストの最初の k 個の位置に「ターゲット ラベル」が出現する割合。リストは、パーソナライズされたおすすめや、ソフトマックスで並べ替えられたアイテムのリストにできます。

Top-k 精度は、k での精度とも呼ばれます。

有害

#language
#Metric

コンテンツが攻撃的、脅迫的、または不適切である程度。多くの ML モデルは、有害性を特定して測定できます。これらのモデルのほとんどは、冒とく的な表現のレベルや脅迫的な表現のレベルなど、複数のパラメータに基づいて有害性を特定します。

トレーニングの損失

#fundamentals
#Metric

特定のトレーニング イテレーション中のモデルの損失を表す指標。たとえば、損失関数が平均二乗誤差であるとします。たとえば、10 回目の反復処理のトレーニング損失(平均二乗誤差)が 2.2 で、100 回目の反復処理のトレーニング損失が 1.9 である場合。

損失曲線は、トレーニングの損失と反復回数をプロットします。損失曲線は、トレーニングに関する次のヒントを提供します。

  • 下り坂は、モデルが改善されていることを示します。
  • 上向きの傾斜は、モデルの性能が低下していることを示します。
  • 傾斜が緩い場合、モデルは収束に達しています。

たとえば、次のやや理想化された損失曲線は、次のことを示しています。

  • 初期反復時の急な下り坂。これは、モデルの急速な改善を示します。
  • トレーニングの終了近くまで徐々にフラットになる(ただし下向き)傾斜。これは、最初の反復処理よりもやや遅いペースでモデルが継続的に改善されることを意味します。
  • トレーニングの終盤にかけて勾配が緩やかになり、収束が示唆されている。

トレーニングの損失と反復回数のグラフ。この損失曲線は急な下り坂で始まります。傾斜はゼロになるまで徐々に平坦になります。

トレーニング損失は重要ですが、一般化もご覧ください。

真陰性(TN)

#fundamentals
#Metric

モデルが陰性のクラス正しく予測している例。たとえば、モデルは特定のメール メッセージがスパムではないと推測し、そのメール メッセージが実際にスパムではないと推測します。

真陽性(TP)

#fundamentals
#Metric

モデルが陽性クラス正しく予測している例。たとえば、モデルは特定のメール メッセージがスパムであると推測し、そのメール メッセージが実際にスパムである場合です。

真陽性率(TPR)

#fundamentals
#Metric

想起と同義です。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は、ROC 曲線の Y 軸です。

V

検証損失

#fundamentals
#Metric

トレーニングの特定の反復処理中に、検証セットに対するモデルの損失を表す指標

一般化曲線もご覧ください。

変数の重要度

#df
#Metric

モデルに対する各特徴量の相対的な重要度を示すスコアセット。

たとえば、住宅価格を推定する意思決定ツリーについて考えてみましょう。このディシジョン ツリーでサイズ、年齢、スタイルの 3 つの特徴を使用するとします。3 つの特徴量の変数の重要性のセットが {size=5.8, age=2.5, style=4.7} と計算された場合、サイズは年齢やスタイルよりも決定木にとって重要です。

さまざまな変数の重要度指標があり、ML の専門家はモデルのさまざまな側面について把握できます。

W

Wasserstein 損失

#Metric

生成されたデータと実際のデータの分布間のEarth Mover's Distance に基づく、生成敵対ネットワークで一般的に使用される損失関数の 1 つ。