しきい値と混同行列

たとえば、迷惑メールの検出にロジスティック回帰モデルを使用し、 0 から 1 の間の値を予測する 迷惑メールです。予測が 0.50 の場合、50% の確率でメールが 予測が 0.75 であれば、そのメールが迷惑メールである可能性が 75% であることを意味します。 といった具合です

このモデルをメール アプリケーションにデプロイして、迷惑メールをフィルタで抽出します。 別個のメールフォルダに配置できます。しかしそのためには、モデルの元データを変換し、 数値出力(例:0.75)を「迷惑メール」のいずれかのカテゴリに振り分けます。、 クリックします。

このコンバージョンを行うには、確率分布と呼ばれるしきい値の確率を 分類しきい値。 確率がしきい値を超える例を分類して ポジティブ クラスに、 テスト対象のクラス(ここでは spam)。より低い 確率は負のクラスに割り当てられます。 代替クラス(ここでは not spam)。

分類しきい値について詳しくは、こちらをクリックしてください

予測スコアが (たとえば、スコア 0.5 で、トレーニング データの 分類しきい値も 0.5)?このケースの処理 分類のために選択された特定の実装によって異なる モデルです。たとえば、Keras ライブラリは、スコアとしきい値が変化した場合に 他のツール/フレームワークがこのケースを処理する可能性はあるが、 違います。

たとえば、モデルが 1 つのメールのスコアを 0.99 とし、 迷惑メールである可能性は 99%、別のメールは 51% の確率でスパムであるという予測です。次のように 0.5 に設定すると、モデルは両方のメールを できます。しきい値を 0.95 に設定した場合、スコアが 0.99 のメールのみ 迷惑メールに分類されます。

0.5 は直感的なしきい値のように思えるかもしれませんが、 一方の分類の誤りのコストが他方の分類よりも高い場合、または クラスのバランスが取れていない可能性があります。迷惑メールが 0.01% しかない場合、または 迷惑メールを受信トレイに流すよりも 50% 以上がスパムである可能性をモデルが判断し、ラベル付けする 好ましくない結果をもたらします。

混同行列

確率スコアが現実ではない。 グラウンド トゥルース。 バイナリ分類器からの出力ごとに、4 つの結果が考えられます。 スパム分類器の例では、グラウンド トゥルースを列としてレイアウトする場合 モデルの予測を行として表します。このテーブルは 混同行列は、 結果:

実際のプラス 実際のマイナス
予測陽性 真陽性(TP): スパム 迷惑メールとして正しく分類されましたこちらが迷惑メールです 自動的に迷惑メールフォルダに振り分けられます。 偽陽性(FP): 誤って できます。これらは正当な E メールが 迷惑メールフォルダに入れられます
予測された陰性 誤り 否定(FN): 誤って迷惑メールではないと分類された迷惑メール。これらはスパムです 迷惑メールに分類された 迷惑メールフィルタで除外され 受信トレイに紛れ込んでしまうことがあります 真陰性(TN): A 迷惑メールではないメールも 迷惑メールではないと正しく分類されます これらは正当な E メールであり 受信トレイに直接配信されます。

各行の合計は、予測されるすべての陽性(TP + FP)と、 有効性にかかわらず、すべての予測陰性(FN + TN)をそれぞれの 列は、すべての真陽性(TP + FN)とすべての真陰性を返します。 (FP + TN)を

実際の陽性の総数が実際の総数に近くない場合 データセットは 不均衡。インスタンス データセットとは、たとえば何千枚もの雲の写真の集合であり、 あなたが興味を持っているような珍しい雲の種類、たとえばヴォルータス雲ですが、 おすすめします。

真陽性、偽陽性、偽陰性に対するしきい値の影響

しきい値が異なると、通常、真と偽の数が異なる 割った数値です次の動画で、 できます。

ご自身でしきい値を変更してみてください。

このウィジェットには、次の 3 つのおもちゃのデータセットが含まれています。

  • 分離: 一般的に肯定的な例と否定的な例が 正例のほとんどがスコアよりも高いスコアを ネガティブ サンプルを排除します。
  • 非分離: 多くの正例のスコアが ネガティブ サンプルのスコアがそれより高く 肯定的な例を与えます。
  • 不均衡: 陽性のクラスのいくつかの例のみを含む。

理解度をチェックする

1. フィッシングやマルウェアの分類モデルが、 1(true)とラベル付けされたクラスに分類され、 0(false)とラベル付けされたクラスに分類されます。このモデルは 正規の Web サイトを誤ってマルウェアと分類するこれを何と呼びますか。
偽陽性
ネガティブな例(正当なサイト)が誤っている マルウェアサイトであると分類された サイトのことです
真陽性
真陽性とは、マルウェア サイトを正しく マルウェアに分類されます
偽陰性
偽陰性とは、マルウェアのサイトが誤っている場合に サイトに分類されます
真陰性
真陰性とは、正当なサイトを正しく サイトに分類されます
2. 一般的に、偽陽性の数に問題が 増加しますか。真陽性とは何でしょうか。テスト 上のスライダーで移動します。
真陽性と偽陽性の両方が減少します。
しきい値が上がると、モデルは 真陽性と偽陰性の両方で、全体の陽性が少なくなります。迷惑メール分類器: 0 .9999 というしきい値は、 確率が 99.99% 以上と分類される可能性は低くなります。つまり、 誤って正当な E メールに誤認させる可能性は低いが、 迷惑メールに分類されます。
真陽性と偽陽性の両方が増加します。
上のスライダーを使ってしきい値を 0.1 に設定してみましょう。 0.9 までドラッグします偽陽性の数と どうすればよいでしょうか
真陽性は増加します。偽陽性が減少します。
上のスライダーを使ってしきい値を 0.1 に設定してみましょう。 0.9 までドラッグします偽陽性の数と どうすればよいでしょうか
3. 一般的に、偽陰性の数に 増加しますか。真陰性についてはどうでしょうかテスト 上のスライダーで移動します。
真陰性と偽陰性の両方が増加します。
しきい値が上がると、モデルは 真偽とも偽陰性の割合が高くなります非常に高いしきい値で ほとんどの場合、迷惑メールとそれ以外のメールの両方が迷惑メールに分類されます。
真陰性と偽陰性の両方が減少します。
上のスライダーを使ってしきい値を 0.1 に設定してみましょう。 0.9 までドラッグします偽陰性の数と どうすればよいでしょうか
真陰性は増加します。偽陰性は減少します。
上のスライダーを使ってしきい値を 0.1 に設定してみましょう。 0.9 までドラッグします偽陰性の数と どうすればよいでしょうか