摘要

本課程已介紹許多常見的資料陷阱,包括資料集品質、思考、視覺化和統計分析。

機器學習從業人員應提出以下問題:

  • 我對資料集的特性和資料收集條件瞭解多少?
  • 我的資料有哪些品質或偏誤問題?是否有干擾因素?
  • 使用這些特定資料集可能會導致哪些潛在的後續問題?
  • 訓練用於預測或分類的模型時,模型訓練所用的資料集是否包含所有相關變數?

無論結果如何,機器學習從業人員都應檢查自己是否有確認偏誤,然後根據直覺和常識檢查結果,並調查資料與這些結果衝突之處。

延伸閱讀

開羅,阿爾貝托。How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. 如何用統計資料說謊。NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,3rd ed. Chicago: U of Chicago P, 2018.

Jones, Ben. 避免資料陷阱。Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013