สรุป

หลักสูตรนี้ได้อธิบายเกี่ยวกับดักข้อมูลทั่วไปมากมาย ตั้งแต่คุณภาพของชุดข้อมูล ไปจนถึงการสร้างภาพและการวิเคราะห์ทางสถิติ

ผู้ปฏิบัติงาน ML ควรถามคำถามต่อไปนี้

  • ฉันเข้าใจลักษณะของชุดข้อมูลของฉันและ ภายใต้เงื่อนไขใดของข้อมูลที่เก็บรวบรวมนั้น
  • ข้อมูลของฉันมีปัญหาด้านคุณภาพหรือความลำเอียงอะไรบ้าง เป็นปัจจัยที่น่าสับสน ปัจจุบัน
  • สิ่งที่อาจเป็นปัญหาที่ตามมาภายหลังจากการใช้ ชุดข้อมูลได้อย่างไร
  • เมื่อฝึกโมเดลที่ทำการคาดการณ์หรือการแยกประเภท: ชุดข้อมูลที่ใช้ฝึกโมเดลมีตัวแปรที่เกี่ยวข้องทั้งหมดไหม

ไม่ว่าผลลัพธ์จะเป็นอย่างไร ผู้ปฏิบัติงาน ML ควรตรวจสอบเสมอ เพื่อหาอคติการยืนยัน แล้วตรวจสอบสิ่งที่ค้นพบเทียบกับ สัญชาตญาณและสามัญสำนึก รวมถึงตรวจสอบข้อมูลที่ขัดแย้งกับข้อมูลเหล่านี้ ด้วยสิ่งเหล่านี้

อ่านเพิ่มเติม

ไคโร อัลแบร์โต หลักการทำงานของแผนภูมิ: ทำความเข้าใจข้อมูลภาพอย่างชาญฉลาดขึ้น นิวยอร์ก: ดับเบิลยู. Norton, 2019

ฮัฟฟ์ ดาร์เรลล์ วิธีโกหกกับสถิติ นิวยอร์ก: W.W. Norton, 1954

มอนโมเนียร์ มาร์ก How to Lie with Maps, ฉบับที่ 3 ชิคาโก: U of Chicago P, 2018

โจนส์, เบน การหลีกเลี่ยงข้อผิดพลาดด้านข้อมูล โฮโบเคน, นิวเจอร์ซีย์: Wiley, 2020

วีลลัน, ชาร์ลส สถิติที่ไม่เปิดเผย: กำจัดความน่ากลัวออกจากข้อมูล นิวยอร์ก: ดับเบิลยู. Norton, 2013