トラップを考える

人間は人間であるため、認知バイアスにさらされます。 確証バイアスを排除しますAlberto Cairo 氏は次のように書いています。 人間の脳のデフォルト モードです1。多くの場合、ユーザーは その結果を裏付けるデータや証拠を探します

さまざまなデータソースから発生するデータやモデルを操作または評価する際、 潜在的なバイアスの原因について質問します例:

  • 誰がこのモデルまたは調査に資金を提供していますか?市場または商業分野 どうでしょうか。
  • データ収集に関与する人には、どのようなインセンティブがありますか?
  • モデルをトレーニングする研究者にとって、どのようなインセンティブが存在するか (公開や在職期間などを含む)調査の実施についてどうですか?
  • モデルのライセンスを供与されている人、または研究を公開している人、それらの人が インセンティブか?

記述統計

平均(値の合計を個数で割ったもの)、中央値(中央値、 値が順序付けられ、mode(出現回数が最も多い値)が 全体像を把握できます中央値と平均値が離れている場合 たとえば、予測データには、非常に極端で非対称な値が あります。

範囲(最高値と最低値の差) 分散(平均二乗差 平均値の差を見つけることができるため、モデルの 広さと形状によって決まります

データでモデルをトレーニングする前に、そのデータセットが 不均衡 該当する場合は、その不均衡に対処する必要があるかどうかもわかります。

確率の非確率と p 値

十分な時間と十分な機会があれば、ある特定の事象が 「ありえない」イベントが 発生する可能性が非常に高くなります詳細については、 ボルチモアの証券会社を狙った詐欺 一例です

科学的合意により、結果は統計的に有意である(および (p 値が 0.05 未満の場合は公開可能)。つまり 同じ結果またはもう一つ極端な結果が 帰無仮説、つまり偶然の結果です。口語体では 研究者が公開できるのは 20 分の 1 以下の確率 ランダム性の結果です。また 驚くべきことに 20 回に 1 回ほどしか出現しないため 偽の結果が 残り 19 件の結果は有意ではありませんが、 できます。2005 年の論文で、 「Why Most Research Findings Are False」、John Ioannidis 氏は、統計的分析から予測分析まで、 疑似的な結果が公表される原因となります。

たとえば、出版への強い動機付けを考えると、研究者は時々ファッティングを しきい値を下回るようになりますその他の期間、公開された調査 自然に予想外で通常とは異なる結果が選択される 再現不可能(ひいては偶然の結果)も不可能であり、 信頼の危機への 役立ちますまた、 再現性のテストに特化した組織です

ML の分野では、モデルが最先端であると見なされるのは、 評価ベンチマークを上回っていますです。 モデル評価スコアについても同様のプレッシャーが生じる可能性が ベンチマークの漏洩によって人為的にブーストされる場合があります2

P 値は、回帰モデルの特徴選択に役立ちます。 ANOVA (分散分析)は、 分布をグループ間の分散に変換して、 各特徴量の F 統計と p 値。 p 値が最も低い最も重要な特徴を選択すると、 予測精度を損なうことなく、モデルが考慮しなければならない特徴の数 あります。これにより、コンピューティングを節約しながら、特徴量が多すぎるという問題を回避できます。 後ほど説明します。scikit の 詳しくは、機能選択ガイドをご覧ください。

多重比較問題

重要度のしきい値の問題は、 帰無仮説に対する複数の比較が、同じタイミングで行われています。 あります。これは、fMRI の研究で特に顕著な問題です。

fMRI では、各ボクセルは (体積単位)を独立してテストし、統計的に有意なかどうかを ハイライト表示されます。これにより 10 万件の独立有意性テストが同時に実施されています。a p=.05 では 統計理論では、約 5,000 の確率で 1 つの fMRI で確認できる陽性の数3

この問題は、2009 年の Bennett et al.ポスター、 「ニューラル ネットワークにおける種間の視点の相関分析(事後分析大西洋サーモン)」 勝ちました Ig ノーベル賞。研究者は 15 枚の写真の 感情的な状況にいる人間を fMRI 機械で解析する画像 死んだサーモンに人間の感情が何であるかを尋ねる 直面していました。統計的に有意なクラスタを特定した サケの脳内に存在する活発なボクセルです 死んだサーモンは確かに物事を考え始めていたと。さらに真剣に考えて 研究者は 2015 年の多重比較問題に注目し fMRI や同様のイメージング状況、および緩和の必要性。

1 つの明確な大まかなソリューションは 有意性を示すしきい値の p 値を下げます。本来備わっている 感度(真陽性をすべて捕捉)と特異性の間でトレードオフ (すべての真陰性を特定します)。機密性に関する議論は、 真陽性率 分類モジュールで確認できます 終了です

もう 1 つの緩和策は、ファミリー単位のエラー率(FWER)を制御することです。 少なくとも 1 つの偽陽性の確率です。もう 1 つは 誤検出率(FDR)、つまり誤検出の予想される割合 適用できます。「ガバナンスと政治の証拠を見る」 多重比較問題ガイド Lindquist と Mejia's の 「禅と多重比較の技術」 をご覧ください。状況 FDR と FWER を制御したところ、ボクセルがなかった 統計的に有意です

fMRI などの画像処理方法によるスキャンを使用した ML モデルのトレーニングはますます増えています 医療診断の分野でも4、画像再構成の分野でも広く利用されています。 予測できます5。これらのモデルが十分な量のデータセットでトレーニングされれば、 これにより、複数のソースからの問題が発生する可能性が 比較の問題です。しかし、特に診断の分野では、 「アクティブ」が 20% の場合、新しい個々のスキャンで不正確な推論が行われる可能性があるボクセル 間違いなく偽陽性です。なお、診断用の fMRI 分類は Li と Zhao が説明したモデルは、精度が約 70 ~ 85% です。

回帰分析の変数が多すぎる

多重比較問題は、多重回帰分析にも適用されます。 回帰分析 線形回帰 多くの数値予測モデルのバックボーンです。 回帰分析では、通常の最小二乗法など、いくつかの方法のいずれかを使用します。 ある変数が与える影響を最もよく表す回帰係数を見つける 別のものです。研究者は、年齢と喫煙が肺がん発生率にどのように影響するかを問うことができます。 がんの回帰分析において各因子を変数として表現する さまざまな年齢の喫煙者と非喫煙者の発症率を調べました。線形回帰モデル 動作がほぼ同じなので、 解釈可能 ML モデルと比較できます回帰を見つける それらの変数の係数が各変数の これらの変数と肺がん発生率の差を測定します。

回帰分析では、考え得るすべての変数を 重要な要素を含んでいないと、その要素の貢献度につながりかねないからです。 見落とされがちです。しかし、回帰分析に追加する変数が多すぎると、 無関係な変数が統計的に現れる可能性が高くなる あります。分析に無関係な変数をさらに 18 個追加すると、 「視聴した映画」「犬を飼っています」このうちの 1 つが 無関係な変数は、偶然にも Google Cloud の 高い肺がん率6

ML のコンテキストでは、これと似た状況は、過剰な数の特徴量をトレーニングに 生成され、結果、 過学習、 多岐にわたります。

推論と意思決定

このような思考の落とし穴を避ける方法の一つに、統計と ML を扱うことが挙げられます。 意思決定のためのツールとして、 考えることです。これは、 (Jerzy Neyman、Egon Sharpe Pearson)が提唱しています7

このフレームワークでは、データ、データ統計、ML モデルを含む導関数、 確率的予測を行うのに最適です。 世界共通の声明に反証し、改善と焦点の絞り込みを 意思決定を支援しています。適していない 肯定的な主張をしているからです

David Ritter 氏によると、 次の 2 つの要素に基づいて決定する必要があります。

  • 「相関関係が今後確実に繰り返されるという確信」 予測された予測値の相関が 相関関係の原因をより正確に理解できます。
  • 行動のリスクと成果8

同様に、すべての調査の質問が AI に適しているわけではありません。アナスタシア Fedyk は、AI に適した問題を特定するための基準を 2 つ挙げています。

  • この問題には、因果関係を理解することではなく、予測が必要です。
  • AI にフィードするデータには 問題つまり、問題は自己完結型です9

参照

Bennett, Craig M.、アビゲイル A.Baird、Michael B.Miller、George L.ウォルフォード。 「事後分析における種間の視点の神経相関 アトランティック サーモン: 複数の比較の修正に関する議論。」Neuroimage(2009 年)。

Cairo、Alberto。グラフの位置づけ: ビジュアル情報をスマートに。ニューヨーク: W.W.Norton、2019 年。

Davenport、Thomas H."A Predictive Analytics Primer."「HBR Guide to Data Analytics Basics for Managers(Boston: HBR Press、2018)81-86。

エレンバーグ(ヨルダン)。「How Not to be Wrong: The Power of Mathematical Thinking」。 NY: ペンギン、2014 年。

フェディク、アナスタシア。「Can Machine Learning Solve Your Business Problem?」HBR Guide to Data Analytics Basics for Managers(Boston: HBR Press、2018)111-119。

Gallo、Amy。「統計的有意性についての復習」「HBR Guide to Data Analytics Basics for Managers(Boston: HBR Press、2018)121-129。

ああ、ダレル。統計の横で横切る方法ニューヨーク: W.W.ノートン、1954 年。

Ioannidis、John P.A. "Why Most Published Research Findings Are False." PLoS Med 2 号8: e124。

Jones, Ben。データの問題の回避。ニュージャージー州ホーボーケン: Wiley、2020 年。

Li、Jiangxue、Peize Zhao。 「fMRI におけるディープ ラーニング アプリケーション – レビュー作業」 ICBBB 2023(東京、日本、2023 年 1 月 13 ~ 16 日): 75-80。 https://doi.org/10.1145/3586139.3586150

Lindquist、Martin A.、Amanda Mejia。 「禅と多重比較の技術」 Psychosomatic Medicine、第 77 号、2(2015 年 2 月~ 3 月):114–125。doi: 10.1097/PSY.0000000000000148.

Ritter, David.「相関性に基づいて行動すべき場合とすべきでない場合」HBR のガイド Data Analytics Basics for Managers(Boston: HBR Press、2018)103-109。

田木 優、西本 真司 「人間の脳の活動に基づく潜在拡散モデルによる高解像度の画像再構成」2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(2023 年、ブリティッシュ コロンビア州バンクーバー、カナダ): 14453-14463。10.1109/CVPR52729.2023.01389。

Wheelan、Charles、Naked Statistics: Dread をデータから取り除くニューヨーク: W.W.Norton、2013 年

Zhou、Kun、Yutao Zhu、Zhipeng Chen、Wentong Chen、Wayne Xin Zhao、Xu Chen、 Yankai Lin、Ji-Rong Wen、Jiawei Han。 「LLM を評価ベンチマークのチーターにしない」 arXiv:2311.01964 cs.CL


  1. カイロ 182。 

  2. Zhou 他

  3. Lindquist と Mejia です。 

  4. Li、Zhao 77-78。 

  5. 田木氏、西本氏。 

  6. ワイラン 221。 

  7. エレンバーグ 159。 

  8. リッター 104。 

  9. フェディク 113 星。