摘要
本課程已逐步介紹許多常見的資料陷阱,包括資料集品質
以及如何以圖表和統計分析為依據
機器學習從業人員應該問:
- 我有多瞭解資料集的特性,以及
收集資料的條件為何?
- 我的資料中有哪些品質或偏誤問題?影響因素
要分享什麼?
- 使用這些解決方案時,可能會造成哪些下游問題
資料集?
- 訓練模型進行預測或分類時:
訓練模型時使用的資料集含有所有相關變數?
無論研究結果為何,機器學習從業人員都應檢視
檢查結果是否包含確認偏誤
直覺和常識,並調查資料發生在各種衝突的情況下
。
延伸閱讀
艾伯多省開羅《How Charts Lie: 進一步指出視覺資訊》NY:
W.W.Norton,2019。
啊,戴瑞。如何善用統計資料NY:W.W.Norton,1954。
Monmonier, Mark。「How to Lie with Google 地圖」第 3 版。芝加哥:U of Chicago P,2018 年。
Jones、Ben。避免資料陷入困境。Hoboken,NJ:Wiley,2020 年。
Charles、Charles。雜訊統計資料:去除資料中的模糊背景紐約:
W.W.Norton,2013 年
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-07-26 (世界標準時間)。
[null,null,["上次更新時間:2024-07-26 (世界標準時間)。"],[[["This course explores common data traps encountered in machine learning, encompassing dataset quality, thinking processes, visualization, and statistical analysis."],["Machine learning practitioners must critically assess their datasets, identifying potential biases, confounding factors, and downstream issues arising from data usage."],["Thoroughly understanding data characteristics and collection conditions is crucial for mitigating data pitfalls and ensuring robust machine learning models."],["Confirmation bias should be actively addressed, and data findings should be validated against intuition and common sense, prompting further investigation where discrepancies exist."],["Further insights into data analysis and interpretation can be gained from the listed additional reading materials covering topics like chart interpretation, statistical manipulation, and map-based data representation."]]],[]]