概要
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
このコースでは、データセットの品質から思考、可視化、統計分析まで、一般的なデータ トラップについて説明しました。
ML 担当者は次のように自問する必要があります。
- データセットの特性と、そのデータが収集された条件をどれだけ理解していますか?
- データに存在する品質やバイアスの問題交絡因子は存在するか?
- これらの特定のデータセットを使用すると、どのようなダウンストリームの問題が発生する可能性がありますか?
- 予測または分類を行うモデルをトレーニングする場合、モデルのトレーニングに使用するデータセットには、関連するすべての変数が含まれていますか?
結果がどうであれ、ML 実務者は常に自分自身に確証バイアスがないか確認し、直感や常識と照らし合わせて結果をチェックし、データが直感や常識と矛盾している場合は調査する必要があります。
その他の情報
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY:
W.W. Norton, 2019.
Huff, Darrell. 統計で嘘をつく方法。NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.
Jones, Ben. Avoiding Data Pitfalls. Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY:
W.W. Norton, 2013
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-07-27 UTC。
[null,null,["最終更新日 2025-07-27 UTC。"],[[["\u003cp\u003eThis course explores common data traps encountered in machine learning, encompassing dataset quality, thinking processes, visualization, and statistical analysis.\u003c/p\u003e\n"],["\u003cp\u003eMachine learning practitioners must critically assess their datasets, identifying potential biases, confounding factors, and downstream issues arising from data usage.\u003c/p\u003e\n"],["\u003cp\u003eThoroughly understanding data characteristics and collection conditions is crucial for mitigating data pitfalls and ensuring robust machine learning models.\u003c/p\u003e\n"],["\u003cp\u003eConfirmation bias should be actively addressed, and data findings should be validated against intuition and common sense, prompting further investigation where discrepancies exist.\u003c/p\u003e\n"],["\u003cp\u003eFurther insights into data analysis and interpretation can be gained from the listed additional reading materials covering topics like chart interpretation, statistical manipulation, and map-based data representation.\u003c/p\u003e\n"]]],[],null,["# Summary\n\n\u003cbr /\u003e\n\nThis course has walked through many common data traps, from dataset quality\nto thinking to visualization and statistical analysis.\n\nML practitioners should ask:\n\n- How well do I understand the characteristics of my datasets and the conditions under which that data was collected?\n- What quality or bias issues exist in my data? Are confounding factors present?\n- What potential downstream issues could arise from using these particular datasets?\n- When training a model that makes predictions or classifications: does the dataset that the model is trained on contain all relevant variables?\n\nWhatever their findings, ML practitioners should always examine\nthemselves for confirmation bias, then check their findings against their\nintuition and common sense, and investigate wherever the data is in conflict\nwith these.\n\nAdditional reading\n------------------\n\nCairo, Alberto. *How Charts Lie: Getting Smarter about Visual Information.* NY:\nW.W. Norton, 2019.\n\nHuff, Darrell. *How to Lie with Statistics.* NY: W.W. Norton, 1954.\n\nMonmonier, Mark. *How to Lie with Maps,* 3rd ed. Chicago: U of Chicago P, 2018.\n\nJones, Ben. *Avoiding Data Pitfalls.* Hoboken, NJ: Wiley, 2020.\n\nWheelan, Charles. *Naked Statistics: Stripping the Dread from the Data.* NY:\nW.W. Norton, 2013"]]