ก่อนที่จะสร้างเวกเตอร์ของจุดสนใจ เราขอแนะนำให้ศึกษาข้อมูลตัวเลขใน มี 2 วิธี ได้แก่
- แสดงข้อมูลของคุณในพล็อตหรือกราฟ
- ดูสถิติเกี่ยวกับข้อมูลของคุณ
แสดงข้อมูลของคุณผ่านภาพ
กราฟช่วยให้คุณพบความผิดปกติหรือรูปแบบที่ซ่อนอยู่ในข้อมูลได้ ดังนั้น ก่อนที่จะเจาะลึกไปในการวิเคราะห์ ให้ลองดูที่ ข้อมูลเป็นกราฟิก อาจเป็นแผนภูมิกระจายหรือฮิสโตแกรม ดูกราฟไม่ได้ เฉพาะที่จุดเริ่มต้นของไปป์ไลน์ข้อมูล แต่รวมถึงตลอดทั้งข้อมูลด้วย การเปลี่ยนรูปแบบทั้งหมด การแสดงภาพช่วยให้คุณตรวจสอบสมมติฐานได้อย่างต่อเนื่อง
เราขอแนะนำให้ทำงานกับแพนด้าเพื่อสร้างภาพ:
โปรดทราบว่าเครื่องมือการแสดงภาพบางรายการได้รับการเพิ่มประสิทธิภาพสําหรับข้อมูลบางรูปแบบ เครื่องมือแสดงข้อมูลผ่านภาพที่ช่วยให้คุณประเมินบัฟเฟอร์โปรโตคอลอาจได้หรือไม่ได้ จะช่วยคุณประเมินข้อมูล CSV ได้
ประเมินข้อมูลทางสถิติ
นอกจากการวิเคราะห์ภาพแล้ว เรายังแนะนำให้ประเมินฟีเจอร์และ ทางคณิตศาสตร์ โดยรวบรวมสถิติเบื้องต้น เช่น
- ค่าเฉลี่ยและค่ามัธยฐาน
- ส่วนเบี่ยงเบนมาตรฐาน
- ค่าที่หารควอไทล์ดังนี้ 0, 25, 50, 75 และ 100 เปอร์เซ็นต์ไทล์ เปอร์เซ็นไทล์ที่ 0 คือค่าต่ำสุดของคอลัมน์นี้ เวลา เปอร์เซ็นไทล์ที่ 100 คือค่าสูงสุดของคอลัมน์นี้ (เปอร์เซ็นไทล์ 50% คือค่ามัธยฐาน)
ตรวจหาค่าผิดปกติ
Outlier คือค่าระยะห่าง จากค่าอื่นๆ ส่วนใหญ่ในฟีเจอร์หรือป้ายกำกับ ค่าผิดปกติมักทำให้เกิดปัญหา ในการฝึกโมเดล ดังนั้นการค้นหาค่าผิดปกติจึงเป็นสิ่งสำคัญ
เมื่อเดลต้าระหว่างเปอร์เซ็นไทล์ที่ 0 และ 25 แตกต่างกันอย่างมาก จากเดลต้าระหว่างเปอร์เซ็นไทล์ที่ 75 ถึง 100 ชุดข้อมูล มีค่าผิดปกติ
ค่าผิดปกติอาจจัดอยู่ในหมวดหมู่ใดก็ได้ต่อไปนี้
- ค่าผิดปกติเกิดจากข้อผิดพลาด เช่น นักทดลองอาจป้อนเลข 0 เกินโดยไม่ได้ตั้งใจ หรือเครื่องมือรวบรวมข้อมูล อาจทำงานผิดพลาด โดยทั่วไปแล้ว คุณจะลบตัวอย่างที่มีค่าผิดปกติ
- ค่าผิดปกติเป็นจุดข้อมูลที่ถูกต้อง ไม่ใช่ข้อผิดพลาด
ในกรณีนี้ โมเดลที่ฝึกแล้วของคุณ
ท้ายที่สุดก็ต้องสรุปการคาดคะเนที่ดี
จากค่าผิดปกติเหล่านี้
- หากใช่ ให้เก็บค่าผิดปกติเหล่านี้ไว้ในชุดการฝึก อย่างไรก็ตาม ค่าผิดปกติ ในบางฟีเจอร์ ในบางครั้งจะมีลักษณะผิดไปจากเดิมในป้ายกำกับ ดังนั้น ค่าผิดปกติอาจช่วยให้โมเดลคาดการณ์ได้ดีขึ้นได้ โปรดระวัง ค่าผิดปกติซึ่งอาจทำให้โมเดลเสียหายได้
- หากไม่ ให้ลบค่าผิดปกติหรือใช้วิศวกรรมฟีเจอร์ที่รุกล้ำความเป็นส่วนตัวมากขึ้น เช่น การตัดเนื้อหา