หน้านี้ได้รับการแปลโดย Cloud Translation API

กับดักข้อมูล

วัตถุประสงค์การเรียนรู้

ในโมดูลนี้ คุณจะได้เรียนรู้เกี่ยวกับสิ่งต่อไปนี้

ตรวจสอบปัญหาที่อาจเกิดขึ้นซึ่งอยู่เบื้องหลังชุดข้อมูลดิบหรือที่ประมวลผลแล้ว รวมถึง และปัญหาด้านคุณภาพ
ระบุการให้น้ำหนักพิเศษ การอนุมานที่ไม่ถูกต้อง และการหาเหตุผล
ค้นหาปัญหาที่พบบ่อยในการวิเคราะห์ข้อมูล ซึ่งรวมถึงความสัมพันธ์ ความเกี่ยวข้องกัน ความไม่เกี่ยวข้องกัน
ตรวจสอบแผนภูมิเพื่อดูปัญหาที่พบบ่อย ความเข้าใจผิด และ โฆษณาแบบดิสเพลย์และการออกแบบ ที่ทำให้เข้าใจผิด

แรงจูงใจเกี่ยวกับ ML

แม้จะไม่ได้โดดเด่นเท่ากับสถาปัตยกรรมโมเดลและงานโมเดลดาวน์สตรีมอื่นๆ การสำรวจ เอกสารประกอบ และการประมวลผลข้อมูลล่วงหน้ามีความสำคัญอย่างยิ่ง งาน ML ผู้ปฏิบัติงาน ML อาจตกเป็นของ Nithya Sambasivan และคณะ โทรหา การเรียงซ้อนข้อมูล ในบทความของ ACM ปี 2021 หากไม่เข้าใจอย่างลึกซึ้ง:

เงื่อนไขในการรวบรวมข้อมูล
คุณภาพ ลักษณะ และข้อจำกัดของข้อมูล
ข้อมูลที่ได้และแสดงไม่ได้

การฝึกโมเดลด้วยข้อมูลที่ไม่ถูกต้องมีราคาแพงมาก ค้นพบเฉพาะจุดที่ผลลัพธ์ที่มีคุณภาพต่ำเท่านั้นว่ามีปัญหา กับข้อมูลเหล่านั้น ในทำนองเดียวกัน การไม่สามารถเข้าใจข้อจำกัดของข้อมูล ความลำเอียงในการรวบรวมข้อมูล หรือความสัมพันธ์ที่ผิดพลาดสำหรับความเป็นเหตุผล อาจให้ผลลัพธ์ที่ดีกว่าหรือด้อยประสิทธิภาพ ซึ่งอาจนำไปสู่ การสูญเสียความไว้วางใจ

หลักสูตรนี้จะพูดถึงกับดักข้อมูลที่พบได้ทั่วไปแต่มีความละเอียดอ่อนที่ ML และข้อมูล ผู้ชำนาญการอาจพบในการทำงาน

คุณภาพของข้อมูลและการตีความ