まとめ
このコースでは、データセットの品質から、多くのデータで陥りやすい落とし穴について学びました。
可視化や統計分析まで多岐にわたります。
ML 担当者は、
- データセットとテーブル データの特性を
どの程度理解しているか
そのデータが収集された条件は?
- データにはどのような品質またはバイアスの問題が存在するか交絡因子
- これらを使用することで、どのようなダウンストリームの問題が発生する可能性がありますか?
どうすればよいでしょうか。
- 予測または分類を行うモデルをトレーニングする場合:
モデルのトレーニングに使用するデータセットには、関連するすべての変数が含まれていますか。
調査結果が何であれ、ML 担当者は常に
検証バイアスを診断し 結果を検証バイアスと比較して
直感と常識に基づき判断し、データが矛盾している場所を調査する
必要があります。
その他の情報
Cairo、Alberto。グラフの位置づけ: ビジュアル情報をスマートに。ニューヨーク:
W.W.Norton、2019 年。
ああ、ダレル。統計の横で横切る方法ニューヨーク: W.W.ノートン、1954 年。
Monmonier, Mark.地図に横たわる方法、第 3 版シカゴ: シカゴ大学 P、2018 年。
Jones, Ben。データの誤りの回避。ニュージャージー州ホーボーケン: Wiley、2020 年。
Wheelan、Charles、Naked Statistics: Dread をデータから取り除くニューヨーク:
W.W.Norton、2013 年
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-07-26 UTC。
[null,null,["最終更新日 2024-07-26 UTC。"],[[["This course explores common data traps encountered in machine learning, encompassing dataset quality, thinking processes, visualization, and statistical analysis."],["Machine learning practitioners must critically assess their datasets, identifying potential biases, confounding factors, and downstream issues arising from data usage."],["Thoroughly understanding data characteristics and collection conditions is crucial for mitigating data pitfalls and ensuring robust machine learning models."],["Confirmation bias should be actively addressed, and data findings should be validated against intuition and common sense, prompting further investigation where discrepancies exist."],["Further insights into data analysis and interpretation can be gained from the listed additional reading materials covering topics like chart interpretation, statistical manipulation, and map-based data representation."]]],[]]