たとえば、迷惑メールの検出にロジスティック回帰モデルを使用し、 0 から 1 の間の値を予測する 迷惑メールです。予測が 0.50 の場合、50% の確率でメールが 予測が 0.75 であれば、そのメールが迷惑メールである可能性が 75% であることを意味します。 といった具合です
このモデルをメール アプリケーションにデプロイして、迷惑メールをフィルタで抽出します。
別個のメールフォルダに配置できます。しかしそのためには、モデルの元データを変換し、
数値出力(例:0.75
)を「迷惑メール」のいずれかのカテゴリに振り分けます。、
クリックします。
このコンバージョンを行うには、確率分布と呼ばれるしきい値の確率を
分類しきい値。
確率がしきい値を超える例を分類して
ポジティブ クラスに、
テスト対象のクラス(ここでは spam
)。より低い
確率は負のクラスに割り当てられます。
代替クラス(ここでは not spam
)。
分類しきい値について詳しくは、こちらをクリックしてください
予測スコアが (たとえば、スコア 0.5 で、トレーニング データの 分類しきい値も 0.5)?このケースの処理 分類のために選択された特定の実装によって異なる モデルです。たとえば、Keras ライブラリは、スコアとしきい値が変化した場合に 他のツール/フレームワークがこのケースを処理する可能性はあるが、 違います。
たとえば、モデルが 1 つのメールのスコアを 0.99 とし、 迷惑メールである可能性は 99%、別のメールは 51% の確率でスパムであるという予測です。次のように 0.5 に設定すると、モデルは両方のメールを できます。しきい値を 0.95 に設定した場合、スコアが 0.99 のメールのみ 迷惑メールに分類されます。
0.5 は直感的なしきい値のように思えるかもしれませんが、 一方の分類の誤りのコストが他方の分類よりも高い場合、または クラスのバランスが取れていない可能性があります。迷惑メールが 0.01% しかない場合、または 迷惑メールを受信トレイに流すよりも 50% 以上がスパムである可能性をモデルが判断し、ラベル付けする 好ましくない結果をもたらします。
混同行列
確率スコアが現実ではない。 グラウンド トゥルース。 バイナリ分類器からの出力ごとに、4 つの結果が考えられます。 スパム分類器の例では、グラウンド トゥルースを列としてレイアウトする場合 モデルの予測を行として表します。このテーブルは 混同行列は、 結果:
実際のプラス | 実際のマイナス | |
---|---|---|
予測陽性 | 真陽性(TP): スパム 迷惑メールとして正しく分類されましたこちらが迷惑メールです 自動的に迷惑メールフォルダに振り分けられます。 | 偽陽性(FP): 誤って できます。これらは正当な E メールが 迷惑メールフォルダに入れられます |
予測された陰性 | 誤り 否定(FN): 誤って迷惑メールではないと分類された迷惑メール。これらはスパムです 迷惑メールに分類された 迷惑メールフィルタで除外され 受信トレイに紛れ込んでしまうことがあります | 真陰性(TN): A 迷惑メールではないメールも 迷惑メールではないと正しく分類されます これらは正当な E メールであり 受信トレイに直接配信されます。 |
各行の合計は、予測されるすべての陽性(TP + FP)と、 有効性にかかわらず、すべての予測陰性(FN + TN)をそれぞれの 列は、すべての真陽性(TP + FN)とすべての真陰性を返します。 (FP + TN)を
実際の陽性の総数が実際の総数に近くない場合 データセットは 不均衡。インスタンス データセットとは、たとえば何千枚もの雲の写真の集合であり、 あなたが興味を持っているような珍しい雲の種類、たとえばヴォルータス雲ですが、 おすすめします。
真陽性、偽陽性、偽陰性に対するしきい値の影響
しきい値が異なると、通常、真と偽の数が異なる 割った数値です次の動画で、 できます。
ご自身でしきい値を変更してみてください。
このウィジェットには、次の 3 つのおもちゃのデータセットが含まれています。
- 分離: 一般的に肯定的な例と否定的な例が 正例のほとんどがスコアよりも高いスコアを ネガティブ サンプルを排除します。
- 非分離: 多くの正例のスコアが ネガティブ サンプルのスコアがそれより高く 肯定的な例を与えます。
- 不均衡: 陽性のクラスのいくつかの例のみを含む。