วัตถุประสงค์การเรียนรู้
ในโมดูลนี้ คุณจะได้เรียนรู้เกี่ยวกับสิ่งต่อไปนี้
- ตรวจสอบปัญหาที่อาจเกิดขึ้นซึ่งอยู่เบื้องหลังชุดข้อมูลดิบหรือที่ประมวลผลแล้ว รวมถึง และปัญหาด้านคุณภาพ
- ระบุการให้น้ำหนักพิเศษ การอนุมานที่ไม่ถูกต้อง และการหาเหตุผล
- ค้นหาปัญหาที่พบบ่อยในการวิเคราะห์ข้อมูล ซึ่งรวมถึงความสัมพันธ์ ความเกี่ยวข้องกัน ความไม่เกี่ยวข้องกัน
- ตรวจสอบแผนภูมิเพื่อดูปัญหาที่พบบ่อย ความเข้าใจผิด และ โฆษณาแบบดิสเพลย์และการออกแบบ ที่ทำให้เข้าใจผิด
แรงจูงใจเกี่ยวกับ ML
แม้จะไม่ได้โดดเด่นเท่ากับสถาปัตยกรรมโมเดลและงานโมเดลดาวน์สตรีมอื่นๆ การสำรวจ เอกสารประกอบ และการประมวลผลข้อมูลล่วงหน้ามีความสำคัญอย่างยิ่ง งาน ML ผู้ปฏิบัติงาน ML อาจตกเป็นของ Nithya Sambasivan และคณะ โทรหา การเรียงซ้อนข้อมูล ในบทความของ ACM ปี 2021 หากไม่เข้าใจอย่างลึกซึ้ง:
- เงื่อนไขในการรวบรวมข้อมูล
- คุณภาพ ลักษณะ และข้อจำกัดของข้อมูล
- ข้อมูลที่ได้และแสดงไม่ได้
การฝึกโมเดลด้วยข้อมูลที่ไม่ถูกต้องมีราคาแพงมาก ค้นพบเฉพาะจุดที่ผลลัพธ์ที่มีคุณภาพต่ำเท่านั้นว่ามีปัญหา กับข้อมูลเหล่านั้น ในทำนองเดียวกัน การไม่สามารถเข้าใจข้อจำกัดของข้อมูล ความลำเอียงในการรวบรวมข้อมูล หรือความสัมพันธ์ที่ผิดพลาดสำหรับความเป็นเหตุผล อาจให้ผลลัพธ์ที่ดีกว่าหรือด้อยประสิทธิภาพ ซึ่งอาจนำไปสู่ การสูญเสียความไว้วางใจ
หลักสูตรนี้จะพูดถึงกับดักข้อมูลที่พบได้ทั่วไปแต่มีความละเอียดอ่อนที่ ML และข้อมูล ผู้ชำนาญการอาจพบในการทำงาน