このコースでは、データセットの品質から、多くのデータで陥りやすい落とし穴について学びました。 可視化や統計分析まで多岐にわたります。
ML 担当者は、
- データセットとテーブル データの特性を どの程度理解しているか そのデータが収集された条件は?
- データにはどのような品質またはバイアスの問題が存在するか交絡因子
- これらを使用することで、どのようなダウンストリームの問題が発生する可能性がありますか? どうすればよいでしょうか。
- 予測または分類を行うモデルをトレーニングする場合: モデルのトレーニングに使用するデータセットには、関連するすべての変数が含まれていますか。
調査結果が何であれ、ML 担当者は常に 検証バイアスを診断し 結果を検証バイアスと比較して 直感と常識に基づき判断し、データが矛盾している場所を調査する 必要があります。
その他の情報
Cairo、Alberto。グラフの位置づけ: ビジュアル情報をスマートに。ニューヨーク: W.W.Norton、2019 年。
ああ、ダレル。統計の横で横切る方法ニューヨーク: W.W.ノートン、1954 年。
Monmonier, Mark.地図に横たわる方法、第 3 版シカゴ: シカゴ大学 P、2018 年。
Jones, Ben。データの誤りの回避。ニュージャージー州ホーボーケン: Wiley、2020 年。
Wheelan、Charles、Naked Statistics: Dread をデータから取り除くニューヨーク: W.W.Norton、2013 年