หลักสูตรนี้ได้อธิบายถึงกับดักข้อมูลที่พบบ่อยมากมาย ตั้งแต่คุณภาพของชุดข้อมูล ไปจนถึงการคิด การแสดงภาพ และการวิเคราะห์ทางสถิติ
ผู้ปฏิบัติงานด้าน ML ควรพิจารณาดังนี้
- ฉันเข้าใจลักษณะของชุดข้อมูลและ เงื่อนไขที่ใช้ในการรวบรวมข้อมูลนั้นดีเพียงใด
- ข้อมูลของฉันมีปัญหาด้านคุณภาพหรืออคติใดบ้าง มีปัจจัยที่ทำให้เกิดความสับสน หรือไม่
- การใช้ชุดข้อมูลเหล่านี้อาจทำให้เกิดปัญหาต่อเนื่องใดบ้าง
- เมื่อฝึกโมเดลที่ทำการคาดการณ์หรือการจัดประเภท ชุดข้อมูลที่ใช้ฝึกโมเดลมีตัวแปรที่เกี่ยวข้องทั้งหมดหรือไม่
ไม่ว่าผู้ปฏิบัติงานด้าน ML จะค้นพบอะไรก็ตาม ควรตรวจสอบอคติในการยืนยันของตนเองเสมอ จากนั้นตรวจสอบสิ่งที่ค้นพบกับสัญชาตญาณและสามัญสำนึก และตรวจสอบทุกครั้งที่ข้อมูลขัดแย้งกับสิ่งเหล่านี้
อ่านเพิ่มเติม
ไคโร อัลเบอร์โต How Charts Lie: Getting Smarter about Visual Information นิวยอร์ก: W.W. Norton, 2019
Huff, Darrell. How to Lie with Statistics NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.
Jones, Ben. หลีกเลี่ยงข้อผิดพลาดเกี่ยวกับข้อมูล Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data NY: W.W. Norton, 2013