このページは Cloud Translation API によって翻訳されました。

分類: ROC と AUC

前のセクションでは、1 対 1 で計算される一連のモデル指標を紹介しました。適用できます。ただし、モデルの品質をすべてのしきい値で測定するには、異なるツールが必要です。

受信者操作特性曲線（ROC）

ROC 曲線 すべてのしきい値におけるモデルのパフォーマンスを視覚的に表したものです。受信者の操作特性という長い名称は第二次世界大戦のレーダー探知機から生まれました。

ROC 曲線は、真陽性率（TPR）を計算して描画します。と偽陽性率（FPR）が FPR に対する TPR をグラフ化します。完璧なモデル、あるしきい値で TPR が 1.0、FPR が 0.0 のときに、いずれかのポイントで表されるか、他のすべてのしきい値が無視された場合は（0, 1）、または次の場合:

図 1. TPR（y 軸）と FPR（x 軸）のグラフ。
完全なモデルの性能: (0,1) から (1,1) への直線。 — **図 1.** 架空の完全モデルの ROC と AUC。

曲線下面積（AUC）

ROC 曲線の下の面積（AUC） ある確率で予測された確率が陽性と陰性のサンプルがランダムに選択された場合、表します。

辺の長さが 1 の正方形を含む上の完全なモデルは、曲線下面積（AUC）は 1.0 です。これは 100% の確率でニューラルネットワークのモデルは、ランダムに選択された陽性のサンプルを、ランダムに選択されたネガティブな例です。言い換えれば、Google Chat の AUC は、モデルが予測を行う確率をランダムに選択された円の右に、ランダムに選択された正方形の表示されます。

スライダーなしのウィジェットデータ線

より具体的に言うと、AUC を備えたスパム分類器は、 1.0 に設定すると、ランダムな迷惑メールに常に迷惑メールに分類されます。各 Pod の実際の分類は、選択したしきい値によって異なります。

バイナリ分類器の場合、ランダムな推測またはコイン投げには（0,0）から（1,1）への対角線である ROC があります。AUC は 0.5 という確率で陽性と判定される確率は 50%、ネガティブサンプルです。

迷惑メール分類器の例では、AUC が 0.5 の迷惑メール分類器が、ランダムなスパムメールでは、ランダムなスパムメールより半分にとどまります

図 2. TPR（y 軸）と FPR（x 軸）のグラフ。
ランダムな 50 対 50 の推測の結果: (0,0) からの対角線
（1,1）に変更できます。 — **図 2.** 完全にランダムな推測の ROC と AUC。

（任意、高度）適合率と再現率の曲線

AUC と ROC は、データセットがおおむねバランスを取る必要があります。データセットが不均衡な場合は、適合率と再現率の（PRC）とそれらの曲線の下の面積により、モデルのパフォーマンスの可視化です。適合率と再現率の曲線は Y 軸に適合率、X 軸に再現率をプロットしています。あります。

モデルとしきい値を選択するための AUC と ROC

AUC は、2 つの異なるモデルのパフォーマンスを比較する際に有用な測定値です。データセットがおおむね均衡していれば（適合率と再現率の曲線を参照）。データセットの説明を参照）。下面積が大きいモデルは、一般的には曲線の方が適切です。

図 3.aAUC=0.65 のモデルの ROC/AUC グラフ。 — **図 3.**2 つの架空のモデルの ROC と AUC。グラフ上の曲線は、右の AUC の値が大きいほど、2 つのモデルのどちらかが優れています。

図 3.b：AUC=0.93 のモデルの ROC/AUC グラフ。 — **図 3.**2 つの架空のモデルの ROC と AUC。グラフ上の曲線は、右の AUC の値が大きいほど、2 つのモデルのどちらかが優れています。

ROC 曲線上の (0,1) に最も近い点は、最もパフォーマンスの高いしきい値を定義します詳しくは、しきい値混同行列および指標の選択とトレードオフどのしきい値を選択するかは、このグラフで最も重要な判断できます以下のポイント A、B、C について考えてみましょう。それぞれがしきい値を表しています。

図 4. AUC=0.84 の ROC 曲線。
曲線の（0,1）に最も近い凸部分に順に A、B、C というラベルを付けます。 — **図 4.** しきい値を表すラベル付きの 3 つのポイント。

誤検出（誤検知）が大きな損害をもたらす場合は、たとえ TPR であってもポイント A のように FPR が削減されます逆に、偽陽性が安価で偽陰性が低い場合、非常にコストがかかるポイント C のしきい値です TPR を最大化することが望ましい場合がある。費用がほぼ同じであればポイント B TPR と FPR のバランスが最適である可能性があります。

以下は、これまでに見たデータの ROC 曲線です。