分析トラップ

「どのモデルも間違っているが、役に立つものもある」- ジョージ ボックス(1978 年)

統計的手法には優れていますが、限界があります。理解 このような制限により、研究者は失敗や不正確な主張( シェイクスピアは口語体を ランダム性が予測されます(スキナーの研究は、 パワーが不足しています1

不確実性と誤差範囲

分析では不確実性を指定することが重要です。同じくらい重要 他の人の分析の不確実性を定量化することです。表示されるデータポイント エラーバーが重なり、 どのようなパターンにもなりません。不確実性が高すぎて有用な情報を得られない 特定の研究や統計的検定からの結論ある調査研究が ロットレベルの精度、+/- 500 m の不確実性を持つ地理空間データセットが必要 不確実性が高すぎて使用できないことを意味します

あるいは、不確実性レベルが意思決定に役立つ場合がある プロセスです。20% の不確実性を持つ特定の水処理を裏付けるデータ その結果に基づいて その水の導入に関する推奨事項が プログラムを継続的にモニタリングすることで、この不確実性に対処できます。

ベイジアン ニューラル ネットワーク 単一のモデルではなく値の分布を予測することで、不確実性を定量化できる 使用できます。

関連性が低い

冒頭で述べたように、両者の間には少なくとも小さなギャップが 必要があります。優秀な ML 担当者は、ML チームが 関連性があることを確かめます。

Huff は、初期の世論調査で白人アメリカ人が 黒人系アメリカ人が社会福祉に関する 生活の質と生活水準との直接的および逆方向の 黒人系米国人への思いやりです人種が増加するにつれて、 予想される経済的機会に関する回答がますます増えています 楽観的だ。進歩のしるしとして誤解されたのかもしれません。 しかし、この調査では、実際の攻撃に関する 当時の黒人系アメリカ人が利用できた経済的機会と 求人市場の現実について結論を出すのに適しています。 アンケート回答者の意見を導き出します。収集されたデータ 実際には求人市場の状況とは無関係です2

上記のようなアンケート調査データでモデルをトレーニングすることもでき、 アウトプットは「機会」ではなく「楽観主義」を測定しています。しかし、なぜなら 予測された機会は、実際の機会とは無関係 モデルが実際の機会を予測していたとしたら、 モデルが予測するものを不正確に表現する というものです

交差

交絡変数、交絡、または補因子とは、変数のことです。 現在調査中で 変数に影響し、結果を歪める可能性があります。 たとえば、入力情報から死亡率を予測する ML モデルについて考えてみましょう。 国によって異なります。ある仮説に基づいて 年齢は特徴量ではありません。さらに、一部の国ではより古い 人口を上回っています。年齢の中央値という交絡変数を無視すると、 このモデルは誤った死亡率を予測する可能性があります。

米国では多くの場合、人種は社会経済的要因と クラスではなく人種のみであるが、死亡データとともに記録されます。 医療、栄養、危険な仕事へのアクセスなどのクラス関連の交絡 人種よりも死亡率に強い影響を与える可能性があり、 これらはデータセットに含まれないため無視されます3。 これらの交絡に対する制御が重要であり 有用なモデルを構築し 有意義で正確な結論を導き出すことです。

既存の死亡データ(人種は含まれるが、含まれない)でモデルをトレーニングする場合 クラスが人種に基づいて死亡率を予測する可能性がある 予測因子となりますこれは、モデルのパフォーマンスに関する 患者死亡率の因果関係と不正確な予測でした。ML 担当者 データに交差点が存在するかどうかや、 見つからなかったり、

1985 年、看護師がHealth Study: ハーバード大学の観察コホート研究 メディカル スクールとハーバード公衆衛生大学院では、コホート メンバーが エストロゲン補充療法を受けた方が心臓発作の発生率が低かった 過去に一度も買い物をしたことがない エストロゲンです。そのため医師は、 何十年もの間、閉経期と閉経後の患者を 100% 追跡し、 2002 年には、長期的なエストロゲン治療による健康上のリスクが特定されました。実践方法 閉経後の女性にエストロゲンを処方することを中止したが、 数万人の早期死亡者が出ていると推定されています。

複数の交絡がこの関連性を引き起こした可能性があります。疫学者が発見 ホルモン補充療法を受ける女性と受けていない女性が 身長が薄れて、学歴が豊富で、裕福で、健康に対して意識が高い傾向にあります。 運動する可能性が高くなります。さまざまな研究では、教育と富は 心疾患のリスクを減らすことができます。これらの影響は エストロゲン療法と心臓発作の間に明らかな相関関係がある4

負の数値を含むパーセンテージ

負の数値が存在する場合はパーセンテージを使用しないでください。5 有意な損益がわかりにくくなる可能性があります。簡単にするため、ここでは レストラン業界には 200 万の仕事があることがわかります業界が 1 損失の場合 2020 年 3 月下旬にこれらの仕事のうち、10 万件の実質的な変化は見られません。 2021 年 2 月上旬に前年比 90 万人の雇用を達成 2021 年 3 月上旬との比較から、レストランの仕事の損失はわずか 5% にすぎないと推測されます。 他の変化がなければ、2 月末の前年比 2022 年にはレストランでの仕事が 90% 増加すると見込まれていますが、これは 現実のイメージです。

必要に応じて正規化された実際の数値を優先してください。詳細は、数値データの処理 Cata をご覧ください。

事後的な誤認と使用できない相関

事後的誤差は、イベント A の後にイベント A が続いたため、 イベント B です。簡単に言えば、 因果関係が存在しない場合に限って機能します。さらにシンプルに: 相関関係は因果関係を証明するものではありません。

明確な因果関係だけでなく、相関関係は 次から発生します。

  • 純粋な偶然(Tyler Vigen の 疑似相関 離婚率と強い相関関係を示すイラストを 。
  • 2 つの変数間の実際の関係。ただし、どちらが どちらが影響を受けるかがわかります
  • 3 つ目の別の原因は 2 つの変数に影響します 相関変数は互いに無関係です。世界的なインフレ率、 ヨットとセロリの価格を上げることができます6

また、既存のデータから相関関係を推定することは危険です。 ハッフは、雨が降れば作物の状態は良くなるが、雨が多すぎると被害を受けると指摘しています。 できます。雨と作物の成果の関係は非線形です7( 非線形関係の詳細については、次の 2 つのセクションをご覧ください)。ジョーンズ 世界は予測できない出来事であふれていますが 将来の時系列データの予測をモデルに与える 非常に不確実性が増しています8

さらに、原因と結果に基づく真の相関関係でも、 意思決定に役立ちます。Huff は例として、2 つの単語群における 1950 年代の「結婚の可能性」と「大学教育」の分野で大きく発展しました。女性 大学は結婚する可能性が低かったが、可能性は高かった 初めから結婚する傾向が薄れていたと回答。 もしそうなら、大学の教育が受けた可能性は変わらない 増加しています9

分析によってデータセット内の 2 つの変数間に相関関係が見つかった場合は、以下の質問をします。

  • 因果関係、疑似相関、不明 原因なのか、それとも 3 つ目の変数が
  • データからの推定にはどの程度リスクがありますか。データに対するあらゆるモデル予測 実際は補間または 予測を導き出すことです
  • 相関関係から有用な意思決定を下すことができますか?たとえば 楽観主義は賃金の上昇と相関している可能性が高いが、 ソーシャル メディアなどの大規模なテキストデータのコーパスの感情分析 特定の国のユーザーによる投稿は、予測には役立ちません。 その国の賃金上昇率です。

モデルをトレーニングする際、ML 担当者は通常、 強い相関関係があります特徴量とラベルの関係が ラベルが十分に理解されていないと、説明した問題が発生する可能性があります。 モデル(疑似相関に基づくモデルやモデルを含む)や 過去の傾向が今後も続くと想定している とします ありません。

線形バイアス

イン 「Linear Thinking in a Nonlinear World」、 Bart de Langhe、Stefano Puntoni、Richard Larrick は、線形バイアスを 人間の脳は直線的な関係を期待して探しがちですが 多くの現象は非線形です人間の態度と たとえば、直線ではなく凸曲線になります。2007 年の 消費者政策に関する論文(de Langhe 他が引用)Jenny van Doorn 他 アンケート回答者の信頼関係をモデル化し、懸念が 環境、回答者のオーガニック商品の購入ブランド 環境に関する極端な懸念からオーガニック製品が 多く購入されました 非常に多くの 他の回答者との差はあまりありませんでした。

有機製品の購入と環境配慮スコア
  右端に上向きの鋭い凸曲線を持つほぼ平坦な線を示す
van Doorn 他による、オーガニック購入と環境配慮スコアのグラフを簡略化して編集。論文

モデルやスタディを設計する際は、非線形性の可能性を考慮する 関係にありますA/B テストが 非線形の関係を見落とすことがあります。その場合は、3 つ目の中間 条件、C。また、最初に出現した動作が、アプリケーション内の 線形は今後も続くでしょう 対数またはその他の非線形な挙動を示します。

対数データの線形適合により、1 つ目は対数データの適合を示す
  データの半分を占めるようになり
その後はますます不適合になります
対数データの線形適合が不適切な例

この架空の例は、対数データの誤った線形適合を示しています。 最初の数個のデータポイントがあれば、それはどちらも魅力的です 変数間に継続的な線形関係があると仮定すると、不正解になります。

線形補間

データポイント間の補間を確認します。これは補間による 架空のポイントを導入しているため、実際の測定値の間隔は 有意な変動が伴うことを意味します例として 線形補間によって接続された 4 つのデータポイントの可視化:

直線で接続された 4 つの点を示す時系列の振幅。 線形補間の例。

次に、2 と 3 の間にあるデータポイント間の変動を 線形補間によって消去されます。

前と同じですが、2 番目と 3 番目の間には大きく変動しています。 データポイント間の有意な変動(地震)の例。

この例が工夫されているのは、地震グラフでは連続データを収集しているためです。 地震を見逃すことはできないでしょう。ただし、 仮説に基づく仮定と、データが実際に 実務担当者が見落とす可能性があります。

ルンジ現象

ルンジュの現象も いわゆる「多項式ウィグル」データの対極にある問題です。 線形補間と線形バイアスから得られるスペクトルです多項式をフィッティングする場合 使用する場合、次数が非常に高い多項式を使用することも (次数または次数。多項方程式の最高指数)。この 端で奇妙な振動が発生しますたとえば 11 次の多項式補間です。つまり、入力シーケンス内の 多項方程式が \(x^{11}\)であり、おおむね線形データの場合、 予測がかなり悪くなってしまいました。 :

ほぼ直線
  11 次の多項式補間が適用されたデータの場合、
  最初の 2 つのデータポイントの間での急増と、
  最後の 2 つのデータポイントの間に
多項式ウィグルの例

ML の分野では、類似の現象が 過学習

検出の統計的障害

統計的検定では、検出能力が不足し、 影響が小さくなります。統計分析の消費電力が低いと、正しい確率は 誤検知の可能性が高まります Katherine Button 他Nature 誌に次のように書かれています。「特定の分野の研究が 20% のべき乗で設計されているとします。つまり、真の非 null 値が 100 個あった場合、 研究によって明らかになると期待されています そのうちの 20 個しかありません」サンプルサイズを増やすと問題が解決することもありますが、その場合は 学習計画を作成します

ML においてもこれに似た状況は、 分類と、 選択することもできます。しきい値を高く設定すると、結果は次のようになります。 偽陽性と偽陰性が減り、しきい値を低くすると、偽陽性と偽陰性が 偽陽性と偽陰性が少なくなります

相関性は統計的有意性に関する問題に加え、 線形関係や非線形相関を検出するように設計されており、 見落とされる可能性があります。同様に、変数を 統計的に有意ではありません変数は 無関係だが、マイナスの相関関係がある 「バークソンのパラドックス」または「バークソンの誤認」。Berkson's の典型的な例は、 誤認とは、あらゆるリスクとの間に偽の負の相関関係があることをいいます。 病院の入院患者集団( 一般集団との比較)に基づいています。 入院が必要になるほど重症である)

以下のいずれかの状況に該当するかどうかをご確認ください。

古いモデルと無効な前提

優れたモデルでさえも、時間の経過とともに劣化することがあります。これは、動作(そして世界、 変わる可能性があります。Netflix の早期予測モデルは、 顧客ベースがテクノロジーに詳しい若いユーザーから 人口。10

モデルには、隠れたままになる可能性のある、沈黙で不正確な推測が含まれる場合もあります。 モデルの壊滅的な故障が発生するまで その状態が続きます「 金融業界のバリュー アット リスク(VaR)モデルでは、 トレーダーのポートフォリオにおける最大損失、たとえば $100,000 が 99% の確率で見込まれました。でも異常な条件下では 最大 $100,000 の損失が予想されるポートフォリオ 失われることもあります $1,000,000 以上。

VaR モデルは、以下のような誤った仮定に基づいていました。

  • 過去の市場の変化は、将来の市場の変化を予測します。
  • 正規の(細い、つまり予測可能な)分布は、 基づきます。
で確認できます。 <ph type="x-smartling-placeholder">
</ph> ガウス分布に似た k=5 のフォンミーゼス分布。より平坦な k=1、k=.2。
フォンミーゼス分布のグラフ。高 K では細いテール、低 K では脂肪分布。

実際 基礎となる分布は脂肪尾の“ワイルド”でフラクタル ロングテールで極端なリスクが伴うリスクが 稀なイベントであると仮定します脂肪の尾の特徴は 実際の分布はよく知られていますが、それに対処しませんでした。あまりうまくいかなかった点 さまざまな現象が複雑で密接に結びついていたのです。 自動売却によるコンピュータ ベースの取引11

集計に関する問題

ほとんどの人口統計学的データと疫学的データを含む集計データ 特定のトラップの対象になります シンプソンのパラドックス 結合のパラドックスは集計データで起こり、明確な傾向が 異なるレベルでデータが集計される場合に 混同する要因や、混同される因果関係が 見つかっていません

生態学的な誤認は、 ある集計レベルでの母集団の集計を、別の集計レベルで クレームが有効ではない可能性があります米国の農業従事者の 40% を悩ませている病気です。 ある州が、より広い地域では同じ普及率にとどまらない場合があります。 対象になります。また、隔離されたファームや、 同程度に変動が発生していない州内の農業町 確認できます影響の少ないユーザーの 40% が有病率であると仮定する。 間違いを犯す可能性があります。

変更可能な領域単位問題(MAUP)は、 1984 年に Stan Openshaw 氏によって CATMOG 38。 使用するエリアの形状やサイズによって、 集計データによって、地理空間データ実務者は、ほぼすべての データ内の変数間の相関関係がわかります。描画投票 一方の政党に有利な学区も MAUP の一例です。

これらすべての状況で、モデルから不適切な外挿が 集約レベルを変更できます。分析のレベルが異なれば、 まったく異なるデータセットに結合できます12

なお、国勢調査、人口統計、疫学的データは、 ゾーンごとに集計されていること。また、これらのゾーンは多くの場合、 意味のない現実世界の境界に基づかないという意味になります。日時 このようなデータを扱う場合、ML 担当者はモデルが ゾーンのサイズと形状に応じてパフォーマンスと予測が変わる 選択されている場合、モデルの予測は 集計の問題の影響を受けるか確認できます

参照

Button、Katharine 他「停電: サンプルサイズが小さいと 「神経科学の信頼性」です自然 Reviews Neuroscience vol 14(2013)、365–376。DOI: https://doi.org/10.1038/nrn3475

Cairo、Alberto。グラフの位置づけ: ビジュアル情報をスマートに。ニューヨーク: W.W.Norton、2019 年。

Davenport、Thomas H."A Predictive Analytics Primer."「HBR Guide to Data Analytics Basics for Managers(Boston: HBR Press、2018)81-86。

De Langhe、Bart、Stefano Puntoni、Richard Larrick 「Linear Thinking in a Nonlinear World」 HBR Guide to Data Analytics Basics for Managers(ボストン: HBR Press、2018) 131-154。

エレンバーグ(ヨルダン)。「How Not to be Wrong: The Power of Mathematical Thinking」。 NY: ペンギン、2014 年。

ああ、ダレル。統計の横で横切る方法ニューヨーク: W.W.ノートン、1954 年。

Jones, Ben。データの問題の回避。ニュージャージー州ホーボーケン: Wiley、2020 年。

Openshaw、Stan。「修正可能な領域単位の問題」、 CATMOG 38 (イギリス、ノリッジ: ジオブックス、1984 年)。37.

The Risks of Financial Modeling: VaR and the Economic Meltdown、 第 111 回議会(2009 年)(N.Taleb、Richard Bookstaber)。

Ritter, David.「相関性に基づいて行動すべき場合とすべきでない場合」HBR のガイド Data Analytics Basics for Managers(Boston: HBR Press、2018)103-109。

Tulchinsky、Theodore H.、Elena A.Varavikova 氏 「第 3 章: 人口の健康状態の測定、モニタリング、評価」 The New Public Health、第 3 版San Diego: Academic Press、2014 年、pp 91-147。 DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3。

Van Doorn、Jenny、Peter C.Verhoef、Tammo H.A. ビジモルトだ。「 政策における態度と行動との間の非線形の関係 考えています」 Journal of Consumer Policy 30(2007)75–90。 DOI: https://doi.org/10.1007/s10603-007-9028-3

画像参照

「フォンミーゼス分布」に基づいています。Rainald62、2018 年。ソース


  1. エレンバーグ 125。 

  2. 77 ~ 79。Huff はプリンストンの世論調査局も引用していますが、 彼は自分の考えを 1944 年 4 月のレポート 出典: National Opinion Research Center(デンバー大学) 

  3. Tulchinsky と Varavikova です。 

  4. Gary Taubes 氏 健康状態を本当に把握していますか?」 The New York Times Magazine、2007 年 9 月 16 日。 

  5. エレンバーグ 78。 

  6. ハフ 91 ~ 92。 

  7. ハフ 93。 

  8. Jones 157-167。 

  9. 95 度です。 

  10. ダベンポート 84 星。 

  11. Nassim N. 氏の議会証言をご覧ください。Taleb and Richard Bookstaber、The Risks of Financial Modeling: VaR and the Economic Meltdown、111th Congress(2009)11-67。 

  12. Cairo 155、162。