ก่อนสร้างเวกเตอร์องค์ประกอบ เราขอแนะนําให้ศึกษาข้อมูลตัวเลขใน 2 วิธีดังนี้
- แสดงภาพข้อมูลของคุณในผังหรือกราฟ
- ดูสถิติเกี่ยวกับข้อมูลของคุณ
แสดงข้อมูลของคุณผ่านภาพ
กราฟช่วยคุณค้นหาความผิดปกติหรือรูปแบบที่ซ่อนอยู่ในข้อมูลได้ ดังนั้น ก่อนเจาะลึกการวิเคราะห์ ให้ดูข้อมูลเป็นภาพกราฟิก ไม่ว่าจะเป็นแผนภูมิกระจายหรือฮิสโตแกรม ดูกราฟได้ไม่เพียงตอนเริ่มต้นของไปป์ไลน์ข้อมูลเท่านั้น แต่ยังดูได้ตลอดการเปลี่ยนรูปแบบข้อมูล ภาพช่วยให้คุณตรวจสอบสมมติฐานได้อย่างต่อเนื่อง
เราขอแนะนําให้ใช้ Pandas สําหรับการแสดงภาพ
โปรดทราบว่าเครื่องมือแสดงภาพบางอย่างได้รับการเพิ่มประสิทธิภาพสำหรับรูปแบบข้อมูลบางอย่าง เครื่องมือแสดงภาพที่ช่วยคุณประเมินบัฟเฟอร์โปรโตคอลอาจช่วยคุณประเมินข้อมูล CSV ได้หรือไม่ก็ได้
ประเมินข้อมูลทางสถิติ
นอกจากการวิเคราะห์ภาพแล้ว เราขอแนะนําให้ประเมินฟีเจอร์และป้ายกำกับที่เป็นไปได้ทางคณิตศาสตร์ด้วย โดยรวบรวมสถิติพื้นฐาน เช่น
- ค่าเฉลี่ยและค่ามัธยฐาน
- ค่าเบี่ยงเบนมาตรฐาน
- ค่าที่จุดแบ่งควอไทล์ ได้แก่ เปอร์เซ็นไทล์ที่ 0, 25, 50, 75 และ 100 เปอร์เซ็นไทล์ที่ 0 คือค่าต่ำสุดของคอลัมน์นี้ ส่วนเปอร์เซ็นไทล์ที่ 100 คือค่าสูงสุดของคอลัมน์นี้ (เปอร์เซ็นไทล์ที่ 50 คือมัธยฐาน)
ค้นหาค่าผิดปกติ
ค่าผิดปกติคือค่าที่อยู่ห่างจากค่าอื่นๆ ส่วนใหญ่ในฟีเจอร์หรือป้ายกำกับ ค่าที่ผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล ดังนั้นการค้นหาค่าที่ผิดปกติจึงเป็นเรื่องสําคัญ
เมื่อค่าต่างระหว่างเปอร์เซ็นไทล์ที่ 0 กับ 25 แตกต่างจากค่าต่างระหว่างเปอร์เซ็นไทล์ที่ 75 กับ 100 อย่างมีนัยสำคัญ แสดงว่าชุดข้อมูลอาจมีค่าผิดปกติ
ค่าที่ผิดปกติอาจอยู่ในหมวดหมู่ใดหมวดหมู่หนึ่งต่อไปนี้
- ค่าที่ผิดปกติเกิดจากความผิดพลาด เช่น ผู้ทดสอบอาจป้อน 0 เพิ่มเข้าไปโดยไม่ได้ตั้งใจ หรือเครื่องมือที่รวบรวมข้อมูลอาจทำงานผิดปกติ โดยทั่วไปแล้ว คุณควรลบตัวอย่างที่มีค่าเบี่ยงเบนมาตรฐานสูงผิดปกติ
- ค่าที่ผิดปกติคือจุดข้อมูลที่ถูกต้อง ไม่ใช่ข้อผิดพลาด
ในกรณีนี้ โมเดลที่ผ่านการฝึกอบรมของคุณจะต้องอนุมานการคาดการณ์ที่ดีเกี่ยวกับค่าที่ผิดปกติเหล่านี้ในท้ายที่สุดหรือไม่
- หากใช่ ให้เก็บค่าผิดปกติเหล่านี้ไว้ในชุดข้อมูลการฝึก ท้ายที่สุดแล้ว ค่าผิดปกติในฟีเจอร์บางอย่างอาจสะท้อนถึงค่าผิดปกติในป้ายกำกับ ดังนั้นค่าผิดปกติจึงอาจช่วยโมเดลของคุณในการคาดการณ์ได้ดียิ่งขึ้น โปรดระมัดระวัง เนื่องจากค่าที่ผิดปกติมากอาจยังส่งผลเสียต่อโมเดลได้
- หากไม่ ให้ลบค่าที่ผิดปกติหรือใช้เทคนิคการสร้างฟีเจอร์ที่แทรกแซงมากขึ้น เช่น การตัด