摘要

本課程已逐步介紹許多常見的資料陷阱,包括資料集品質 以及如何以圖表和統計分析為依據

機器學習從業人員應該問:

  • 我有多瞭解資料集的特性,以及 收集資料的條件為何?
  • 我的資料中有哪些品質或偏誤問題?影響因素 要分享什麼?
  • 使用這些解決方案時,可能會造成哪些下游問題 資料集?
  • 訓練模型進行預測或分類時: 訓練模型時使用的資料集含有所有相關變數?

無論研究結果為何,機器學習從業人員都應檢視 檢查結果是否包含確認偏誤 直覺和常識,並調查資料發生在各種衝突的情況下 。

延伸閱讀

艾伯多省開羅《How Charts Lie: 進一步指出視覺資訊》NY: W.W.Norton,2019。

啊,戴瑞。如何善用統計資料NY:W.W.Norton,1954。

Monmonier, Mark。「How to Lie with Google 地圖」第 3 版。芝加哥:U of Chicago P,2018 年。

Jones、Ben。避免資料陷入困境。Hoboken,NJ:Wiley,2020 年。

Charles、Charles。雜訊統計資料:去除資料中的模糊背景紐約: W.W.Norton,2013 年