ข้อมูลตัวเลข: ขั้นตอนแรก

ก่อนที่จะสร้างเวกเตอร์ของจุดสนใจ เราขอแนะนำให้ศึกษาข้อมูลตัวเลขใน มี 2 วิธี ได้แก่

  • แสดงข้อมูลของคุณในพล็อตหรือกราฟ
  • ดูสถิติเกี่ยวกับข้อมูลของคุณ

แสดงข้อมูลของคุณผ่านภาพ

กราฟช่วยให้คุณพบความผิดปกติหรือรูปแบบที่ซ่อนอยู่ในข้อมูลได้ ดังนั้น ก่อนที่จะเจาะลึกไปในการวิเคราะห์ ให้ลองดูที่ ข้อมูลเป็นกราฟิก อาจเป็นแผนภูมิกระจายหรือฮิสโตแกรม ดูกราฟไม่ได้ เฉพาะที่จุดเริ่มต้นของไปป์ไลน์ข้อมูล แต่รวมถึงตลอดทั้งข้อมูลด้วย การเปลี่ยนรูปแบบทั้งหมด การแสดงภาพช่วยให้คุณตรวจสอบสมมติฐานได้อย่างต่อเนื่อง

เราขอแนะนำให้ทำงานกับแพนด้าเพื่อสร้างภาพ:

โปรดทราบว่าเครื่องมือการแสดงภาพบางรายการได้รับการเพิ่มประสิทธิภาพสําหรับข้อมูลบางรูปแบบ เครื่องมือแสดงข้อมูลผ่านภาพที่ช่วยให้คุณประเมินบัฟเฟอร์โปรโตคอลอาจได้หรือไม่ได้ จะช่วยคุณประเมินข้อมูล CSV ได้

ประเมินข้อมูลทางสถิติ

นอกจากการวิเคราะห์ภาพแล้ว เรายังแนะนำให้ประเมินฟีเจอร์และ ทางคณิตศาสตร์ โดยรวบรวมสถิติเบื้องต้น เช่น

  • ค่าเฉลี่ยและค่ามัธยฐาน
  • ส่วนเบี่ยงเบนมาตรฐาน
  • ค่าที่หารควอไทล์ดังนี้ 0, 25, 50, 75 และ 100 เปอร์เซ็นต์ไทล์ เปอร์เซ็นไทล์ที่ 0 คือค่าต่ำสุดของคอลัมน์นี้ เวลา เปอร์เซ็นไทล์ที่ 100 คือค่าสูงสุดของคอลัมน์นี้ (เปอร์เซ็นไทล์ 50% คือค่ามัธยฐาน)

ตรวจหาค่าผิดปกติ

Outlier คือค่าระยะห่าง จากค่าอื่นๆ ส่วนใหญ่ในฟีเจอร์หรือป้ายกำกับ ค่าผิดปกติมักทำให้เกิดปัญหา ในการฝึกโมเดล ดังนั้นการค้นหาค่าผิดปกติจึงเป็นสิ่งสำคัญ

เมื่อเดลต้าระหว่างเปอร์เซ็นไทล์ที่ 0 และ 25 แตกต่างกันอย่างมาก จากเดลต้าระหว่างเปอร์เซ็นไทล์ที่ 75 ถึง 100 ชุดข้อมูล มีค่าผิดปกติ

ค่าผิดปกติอาจจัดอยู่ในหมวดหมู่ใดก็ได้ต่อไปนี้

  • ค่าผิดปกติเกิดจากข้อผิดพลาด เช่น นักทดลองอาจป้อนเลข 0 เกินโดยไม่ได้ตั้งใจ หรือเครื่องมือรวบรวมข้อมูล อาจทำงานผิดพลาด โดยทั่วไปแล้ว คุณจะลบตัวอย่างที่มีค่าผิดปกติ
  • ค่าผิดปกติเป็นจุดข้อมูลที่ถูกต้อง ไม่ใช่ข้อผิดพลาด ในกรณีนี้ โมเดลที่ฝึกแล้วของคุณ ท้ายที่สุดก็ต้องสรุปการคาดคะเนที่ดี จากค่าผิดปกติเหล่านี้
    • หากใช่ ให้เก็บค่าผิดปกติเหล่านี้ไว้ในชุดการฝึก อย่างไรก็ตาม ค่าผิดปกติ ในบางฟีเจอร์ ในบางครั้งจะมีลักษณะผิดไปจากเดิมในป้ายกำกับ ดังนั้น ค่าผิดปกติอาจช่วยให้โมเดลคาดการณ์ได้ดีขึ้นได้ โปรดระวัง ค่าผิดปกติซึ่งอาจทำให้โมเดลเสียหายได้
    • หากไม่ ให้ลบค่าผิดปกติหรือใช้วิศวกรรมฟีเจอร์ที่รุกล้ำความเป็นส่วนตัวมากขึ้น เช่น การตัดเนื้อหา