真陽性と偽陽性、偽陰性を使用して、いくつかの有用な モデルを評価する指標です。最も評価の高い指標 モデルとタスク、費用はそれぞれ異なりますが データセットがバランスまたは バランスが取れていません。
このセクションの指標はすべて、単一の固定しきい値で計算されます。 しきい値の変化に応じて変わります多くの場合 ユーザーは音声を 最適化の基準として使用することもできます
精度
精度は、 陽性か陰性かにかかわらず、正しかった分類の件数。内容 数学的に次のように定義されます。
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
迷惑メール分類の例では、精度は メールが正しく分類されました。
完璧なモデルでは、偽陽性も偽陰性もゼロになり、 つまり、精度は 1.0(100%)になります。
4 つの成果がすべて組み込まれているからです。 混同行列 (TP、FP、TN、FN)、バランスが サンプル数が同程度であれば、精度は モデルの品質を大まかに測定しますこのため、多くの場合、 汎用モデルまたは未指定モデルに使用されるデフォルトの評価指標 一般的なタスクや指定されていないタスクを実行する
データセットが不均衡な場合は 一方の誤り(FN または FP)が他方よりもコストがかかる 実際のアプリケーションで使用する場合、 選択することもできます
著しく不均衡なデータセットで 1 つのクラスがほとんど出現しない場合 100% の確率で負のスコアになると予測するモデルは、 役に立たないにもかかわらず精度が保たれています。
再現率または真陽性率
真陽性率(TPR)、つまり実際に陽性であるすべての真陽性の割合 陽性と正しく分類されました。これは、 再現率。
再現率は数学的に次のように定義されます。
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
偽陰性とは、誤って陰性と分類された実際の陽性のことです。 分母に表示される理由です迷惑メールの分類の例でいうと、 再現率は、正しく分類された迷惑メールの割合を測定し、 スパム。そのため、再現率は検出確率と呼ばれています。 「このアラートによって検出される迷惑メールの割合は、 どうでしょうか
仮定の完璧なモデルでは、偽陰性はゼロであるため、 再現率(TPR)が 1.0、つまり検出率 100% です。
真陽性の数が非常に多い不均衡なデータセットでは、 少ない(合計 1 ~ 2 の例)。再現率は有意性が低く、有用性も低い 選択できます
偽陽性率
偽陽性率(FPR) 実際に陰性と誤分類されたものの割合 アラート(誤検知の可能性)とも呼びます。内容 数学的に次のように定義されます。
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
偽陽性とは、誤って分類された実際の陰性であり、 分母に現れます迷惑メールの分類の例では、FPR は 誤って迷惑メールとして分類された正当なメールの割合、または モデルの誤検出の割合です。
完璧なモデルであれば偽陽性はゼロなので、FPR は 0.0、 0% ということになります
データセットが不均衡で、陰性の数が非常に多い 合計 1 ~ 2 例とすると、FPR はあまり意味がなく、有用性も低い 選択できます
適合率
適合率 すべての陽性分類のうち、 結果を返します。これは数学的に次のように定義されます。
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
迷惑メール分類の例では、精度で測定するメールの割合が 実際に迷惑メールに分類されます
仮定の完璧なモデルでは、偽陽性はゼロであるため、 1.0 になります。
真陽性の数が非常に多い不均衡なデータセットでは、 少ない(たとえば合計 1 ~ 2 の例)、適合率は有意性が低く、有用性も低い 選択できます
適合率は偽陽性が減少すると向上するが、再現率は偽陽性が減少すると向上する 検出できます。しかし前のセクションで見たように、 偽陽性と偽陽性の数を減らす傾向があり、 偽陰性の数を増やし、しきい値を小さくすると、 悪影響が及びますその結果、多くの場合、適合率と再現率は逆に 一方が改善すると もう一方が悪化します
実際に試す:
指標における NaN は何を意味しますか?
「数値ではない」の場合0 で除算したときに表示されます。これは、 いずれかを選択できますたとえば、TP と FP が両方とも 0 の場合、 精度の式の分母が 0 のため、NaN になります。しばらく 場合によっては NaN が完全なパフォーマンスを示し、 スコア 1.0 に置き換えられますが、これは実質的に 役に立たないということですたとえば、陽性を予測しないモデルの場合、TP は 0 になります。 0 FPs となるため、その精度の計算は NaN となります。
指標とトレードオフの選択
モデルの評価時に優先することを選択した指標と しきい値の選択は、移行のコスト、メリット、リスクに 見ていきます迷惑メールの分類の例では、多くの場合、 再現率を優先するか すべての迷惑メールを盗むか 迷惑メールに分類されたメールが実際に迷惑メールであるか バランスを取る必要があります。
指標 | ガイダンス |
---|---|
精度 | モデルの大まかな指標として使用 トレーニングの進行状況/収束の程度を確認します。 モデルのパフォーマンスを向上させるには、他の指標と組み合わせて使用してください。 不均衡なデータセットは使用しないでください。別の指標の使用を検討してください。 |
再現率 (真陽性率) |
偽陰性の方が多くなる場合に使用 コストも高くなります。 |
偽陽性率 | 偽陽性が 費用が高くなります |
適合率 | 重要な場合や、 正確に予測できます。 |
(省略可、高度)F1 スコア
F1 スコアは、調和平均( 適合率と再現率を測定します。
数学的には、
この指標は適合率と再現率の重要性のバランスを取ります。 クラス不均衡なデータセットには精度よりも好ましいとされます。精度が 再現率は両方とも満点 1.0 で、F1 も満点です。 1.0 です。より大まかに言うと、適合率と再現率の値が近い場合、F1 は 提供します適合率と再現率が大きく異なる場合、F1 は スコアが悪いほうに判定されます