データの品質と解釈

「ゴミは入ってくるが、ゴミが出てくる。」
— 初期のプログラミングの格言

すべての ML モデル、すべての相関計算、すべてのデータに基づいて 生のデータセットが存在します。どんなに美しく あるいは 説得力のあるものか、基となるデータが 生成されるモデルに誤り、収集不良、低品質が伴う場合、 予測、可視化、結論も同様に 向上しますGoogle Cloud 上でモデルを可視化、分析、トレーニングする データの出所について厳密な問いかけをするようにします。

データ収集機器は、誤作動したり、不適切に校正されたりする可能性がある。 データ収集をする人は、疲れている、いたずら好き、一貫性がない、不十分な場合があります。 生成します。人はミスするだけでなく、人によって妥当な意見の相違が生じることもあります あいまいなシグナルの分類に 役立ちますその結果 データの有効性が損なわれ、データが現実を反映していない可能性があります。 ベン・ジョーンズ、『データを回避する』 落とし穴があります。 データ リアリティ ギャップ、 「これは犯罪ではなく、犯罪の報告です。 記録された流星衝突の回数ということになります

データと現実のギャップの例:

  • Jones のグラフでは、5 分間隔で時間測定値が急増しています。 体重測定は、5 ポンドの間隔で行われます。 ですが、人間のデータ収集担当者は、道具とは異なり、 0 または 5 の単位で数値を四捨五入できます1

  • 1985 年、ジョー ファーマン、ブライアン ガーディナー、ジョナサン シャンクリンが 英国南極調査(BAS)によると、 季節的な穴が開いています。この NASA のデータと矛盾していますが、そのようなホールは記録されていません。NASA の物理学者、リチャード Stolarski は、NASA のデータ処理ソフトウェアが オゾン濃度が決して 100% を下回ることはないと 検出されたオゾンの非常に低い測定値です。 異常値として自動的に除外されました2

  • 機器にはさまざまな障害モードが データを収集しています。Adam Ringler 他地震グラフのギャラリーを提供 機器の障害(および対応する障害)に起因する測定値 2021 年の論文「Why Do My Squiggles Look Funny?」3 測定値の例は実際の地震活動に対応していません。

ML の実務担当者にとって、次のことを理解することが重要です。

  • データを収集したユーザー
  • データの収集の方法日時とその条件
  • 測定器の感度と状態
  • 特定の環境における計測の障害と人為的ミスは、 コンテキスト
  • 数字を四捨五入して望ましい答えを出す傾向

ほとんどの場合、データと現実の間には少なくともわずかな違いがありますが、 グラウンド トゥルースとも呼ばれます。 この違いを説明することが、良い結論を導き出し、 適切な判断を下せますこれには、次の決定が含まれます。

  • ML で解決できる問題とすべき問題を 特定することです
  • ML で解決するのが最適でない問題を特定できます。
  • ML で解決できる高品質なデータがまだ十分にない問題です。

問いかけ: 最も厳密かつ最も文字どおりの意味で、データから伝わるものは何ですか? 同様に重要なこととして、データによって伝達されないものは何でしょうか。

データ内のダート

データセットは、データ収集の条件を調べることに加え、 エラー、エラー、null 値や無効な値( 陰性の濃度測定値)。クラウドソースのデータは特に 煩雑です。品質が不明なデータセットを使用すると、不正確な結果につながる可能性があります。

一般的な問題としては、次のようなものがあります。

  • 場所、種類、ブランド名などの文字列値のスペルミス
  • 単位の変換、単位、またはオブジェクト タイプが正しくない
  • 欠損値
  • 一貫した誤分類や誤ったラベル付け
  • 数学演算で残された有効桁数が 楽器の実際の感度

多くの場合、データセットのクリーニングには、null 値や欠損値( null のままにする、削除する、0 を代入するなど、スペルを 単位や変換などの修正を行いますより高度な 欠損値を代入する手法です。これについては、 データの特性 終了です

で確認できます。

サンプリング、生存バイアス、サロゲート エンドポイントの問題

[Statistics]により 大きな母集団に無作為に抽出します。セキュリティ・オペレーションの この仮定とトレーニング入力の不均衡と不完全なため、 ML アプリケーションで使用されるモデルを含め、 審査と警察を再開します。また、これによりポーリングの失敗や、 ユーザー属性グループに関する誤った結論を導き出します。それ以外のほとんどの状況では 純粋にランダムなサンプルも多すぎるため、 入手が困難ですさまざまな回避策と手頃な価格 代わりにプロキシが使用されるため、さまざまなソースからの バイアス

たとえば、層化サンプリング法を使用するには、 母集団における各サンプリング層の有病率。仮に 普及率が間違っている場合、結果は不正確になります。 同様に、オンライン投票が全国の人口の無作為なサンプルであることはめったにありません。 インターネットユーザーの一部は (多くの場合、複数の国から)アンケートを見ていて、進んで回答する。 このグループは、真の無作為サンプルとは異なる可能性があります。このコースでは、 アンケートは可能性のある質問のサンプルです。アンケートの質問に対する回答は次のとおりです。 回答者を無作為に抽出したサンプルではなく一見無害な意見ですが、 が、回答者が提供しても差し支えない意見であり、 提供します。

臨床衛生研究者も、サロゲートと呼ばれる同様の問題に遭遇しています。 エンドポイントの問題です。なぜなら、薬剤が作用するかどうかを確認するのに バイオマーカーを用いるため、バイオマーカーとして 関係しているかもしれませんが、そうではない場合もあります。コレステロール値はサロゲート 心血管疾患による心臓発作や死亡に関する コレステロール値を下げる効果があり、心臓の問題のリスクも低いと考えられています。 けれども、その相関の連鎖は有効でない可能性があり、そうでない場合、 因果関係は研究者が仮定しているものとは異なる場合があります。Weintraub 他、 「サロゲート エンドポイントの危険性」、 をご覧ください。ML におけるこれと同等の状況は、 プロキシラベル

数学者のエイブラハム ウォルドが、データ サンプリングの問題で有名になったことで有名 生存バイアスです。戦闘機が弾丸をくわえて帰ってきました 特定のロケーションでは行えません米軍は防具を増やしたかった 弾丸の穴数が最も多い地域の飛行機に 対応していましたが 弾丸の穴がない部分には防具を追加することをおすすめします。 飛行機が打ち上げられたためにデータ サンプルに偏りがあると正しく推測しました。 あまりにも深い被害で、基地に戻すことはできなかった。

弾丸の穴を示す赤いドットが付いた平面の概略
第二次世界大戦時に生き残った爆撃機の弾丸損傷の仮説図

防具推奨モデルを、回帰図のみでトレーニングした データに存在する生き残りに関するバイアスについての洞察がなければ、 そのモデルは、弾丸の穴が多くなる領域の補強を推奨していました。

自己選択バイアスは、 回答します。再犯者削減会に申し込もうとしている受刑者 たとえば、母集団がコミットする可能性が低い集団を 将来の犯罪の件数が一般受刑者より多いと回答しています。結果に歪みが生じます4

より微妙なサンプリング問題として再現率バイアスがあります。これは再現性に関連する の思い出しましょう。1993 年、Edward Giovannucci は がんと診断された女性の食生活の割合 学びました。同じ女性が事前に食生活について調査しました。 支援していますジョヴァンヌッチが発見したのは、がんのない女性です。 診断によると食事は正確に再現されているが、乳がんの女性は 以前報告されたよりも多くの脂肪を摂取している—無意識に がんについて(不正確ですが)説明する情報を提供しています5

質問:

  • 実際にサンプリングされるデータセットとは
  • サンプリングは何段階ありますか。
  • サンプリングの各レベルで生じる可能性のあるバイアス
  • 代替測定値(バイオマーカー、オンライン アンケート、箇条書きのいずれか)が使用されていますか? 実際の相関関係または因果関係を示す根拠はどこにあるか?
  • サンプルやサンプリング方法から欠けているものは何ですか?

公平性モジュール : ML 集中講座では、クラウド テクノロジーのリスクを 人口統計データセットにおけるバイアスの原因にもなります。

定義とランキング

用語を明確かつ正確に定義するか、明確で正確な定義について尋ねます。 これは、どのようなデータ特徴を検討しているかを把握するために必要です 予測または主張する対象を正確に把握できます Charles Wheelan 氏は Naked Statistics で「米国の健康情報」を提供しています。 「製造」曖昧な用語の一例です米国の製造業が 「健康的」定義方法に完全に左右されます。グレッグ イップス The Economist の 2011 年 3 月の記事 このあいまいさを示しています指標「health」が「製造業」は 出力です。その結果、2011 年には米国の製造業がますます健全になりました。もし 「health」「製造ジョブ」として定義されています一方で米国の製造業は 減少していました6

不明瞭または意味をなさないなど、ランキングにも同様の問題が生じることがよくあります。 さまざまなコンポーネントに与えられる重み、不整合、 オプションが無効です。『The New Yorker』で執筆している Malcolm Gladwell 氏は、 トーマス・ブレナンは、ミシガン州最高裁判所の最高裁判所長。トーマス・ブレナンは、 100 人の弁護士が 10 のロースクールの質を ランク付けするよう求めました そうでないものもあります。これらの弁護士は、ペンシルバニア州立大学のロースクールを 5 位にランクインしました。 調査の時点では、ペンシルバニア州立大学には 7 よく知られているランキングには、同じような主観的なテーマが 評価コンポーネントですどのコンポーネントがランキングに含まれるのか、その理由を尋ねる 各要素に特定の重みが割り当てられました。

小さな数値と大きな効果

コイントスで表が 100%、裏が 100% でも不思議ではありません。 2 回行います。またコイントスを 4 回投げると 25% 表になるのも不思議ではありません。 残りの 75% は次の 4 回に投球しますが、これは明らかに 非常に増加(サンドイッチを食べたことが誤りである可能性があります) コイン投げの誤差、その他の偽の要因の差です。しかし、 コイン投げの回数が 1,000 回や 2,000 回に増えると、 50% が消える可能性はまったくありません

1 つの研究に含まれる測定や実験の被験者の数は、 N に変更します。偶然による変化に比例して大きい場合は、 N が低いデータセットとサンプルで発生している。

分析を行う場合や、データカードにデータセットを記録する場合は、 N です。これにより、他の人がノイズとランダム性の影響を考慮できるようになります。

モデルの品質はサンプルの数に応じてスケールする傾向にあるため、 N が低いと、モデルの品質が低くなる傾向があります。

平均への回帰

同様に、偶然の影響を及ぼした測定値には、 いわゆる 平均への回帰。 これは、極めて極端な測定の後の測定がどのように行われるのかを説明しています。 平均的に、極端な値よりも極端な値になるか、平均値に近い値になる そもそも極端な測定が行われる可能性は低いと言えます「 特に平均を上回るまたは平均より下回る攻撃グループでは、 が 3 分の 1 の体重で一番身長が 集団の中で最悪のアスリートや、脳梗塞のリスクが高い人々など、さまざまなリスクにさらされています。「 身長が最も高い人の子どもは、平均して身長が 最悪のアスリートの方が、 季節が悪く、脳梗塞のリスクが最も高い人々は、リスクの低下を示す可能性が高い なんらかの介入や治療の後(原因因子ではなく) 確率分布の特性と確率から導き出されます

モデル化を探索する際に、平均値への回帰の影響を 平均を上回るまたは平均を下回るグループの介入または治療法は、 被験者を研究グループとコントロール グループに分けて分離する 因果効果です。ML のコンテキストでは、この現象は 次のように、例外値や外れ値を予測するモデルに注意を向けます。

  • 異常気象または気温
  • 最も実績の高い店舗やアスリート
  • ウェブサイトで特に人気の高い動画

モデルの予測がこれらのモデルの 例外的な値が時間の経過とともに現実と一致しない場合 高い成功を収めているストアや動画は 今後も成功し続けるでしょう そうでない場合は、次のように自問します。

  • 平均値への回帰が問題でしょうか?
  • 重みが最も高い特徴量はより予測性が高いか どうすればよいでしょうか。
  • それらの特徴のベースライン値を持つデータを収集しているか たいていゼロ モデルの予測を変更する(実際にはコントロール グループ)?

参照

ああ、ダレル。統計の横で横切る方法ニューヨーク: W.W.ノートン、1954 年。

Jones, Ben。データの問題の回避。ニュージャージー州ホーボーケン: Wiley、2020 年。

O'Connor、Cailin、James Owen Weatherall。「The Misinformation Age」。ニューヘイブン: Yale UP、2019 年。

Ringler、Adam、David Mason、Gabi Laske、Mary Tempton。 「なぜ波線がおもしろいの?A Gallery of Compromise Sismic Signals」 Seismological Research Letters 92 号6(2021 年 7 月).DOI: 10.1785/0220210094

Weintraub、William S、Thomas F.リュッシャー、スチュアート・ポコックです。 「サロゲート エンドポイントの危険性」 ヨーロピアン ハート ジャーナル 36 号33(2015 年 9 月):2212–2218。DOI: 10.1093/eurheartj/ehv164

Wheelan、Charles、Naked Statistics: Dread をデータから取り除くニューヨーク: W.W.Norton、2013 年

画像参照

「生存バイアス」Martin Grandjean、McGeddon、Cameron Moll 2021 年。 CC BY-SA 4.0。ソース


  1. ジョーンズ 25-29。 

  2. O'Connor および Weatherall 22-3。 

  3. Ringling 他

  4. Wheelan 120。 

  5. Siddhartha Mukherjee 氏 「スマートフォンは脳がんを引き起こすか?」 The New York Times、2011 年 4 月 13 日。Wheelan 122 で引用 

  6. Wheelan 39-40。 

  7. Malcolm Gladwell 氏 "The Order of Things"、 (The New Yorker、2011 年 2 月 14 日)。Wheelan 56 で引用