ชุดข้อมูล: การเปลี่ยนรูปแบบข้อมูล

โมเดลแมชชีนเลิร์นนิงจะฝึกได้เฉพาะกับค่าทศนิยม อย่างไรก็ตาม ฟีเจอร์ชุดข้อมูลจำนวนมากไม่ใช่ค่าทศนิยมตามปกติ ดังนั้น องค์ประกอบที่สําคัญอย่างหนึ่งของแมชชีนเลิร์นนิงคือการแปลงฟีเจอร์ที่ไม่ใช่ทศนิยมไปเป็นการแสดงผลทศนิยม

ตัวอย่างเช่น สมมติว่า street names คือฟีเจอร์ ชื่อถนนส่วนใหญ่เป็นสตริง เช่น "Broadway" หรือ "Vilakazi" โมเดลไม่สามารถฝึกกับ "Broadway" ได้ คุณจึงต้องเปลี่ยน "Broadway" เป็นตัวเลขทศนิยม ข้อบังคับเกี่ยวกับข้อมูลเชิงหมวดหมู่อธิบายวิธีดำเนินการนี้

นอกจากนี้ คุณควรเปลี่ยนรูปแบบของฟีเจอร์ทศนิยมส่วนใหญ่ด้วย กระบวนการเปลี่ยนรูปแบบนี้เรียกว่าการปรับให้เป็นมาตรฐาน ซึ่งจะแปลงตัวเลขทศนิยมให้เป็นช่วงที่มีข้อจำกัดซึ่งช่วยปรับปรุงการฝึกโมเดล ข้อบังคับด้านข้อมูลเชิงตัวเลขอธิบายวิธีดำเนินการนี้

สุ่มตัวอย่างข้อมูลเมื่อคุณมีข้อมูลมากเกินไป

บางองค์กรมีข้อมูลจํานวนมาก เมื่อชุดข้อมูลมีตัวอย่างมากเกินไป คุณต้องเลือกชุดย่อยของตัวอย่างสำหรับการฝึก เลือกชุดย่อยที่มีความเกี่ยวข้องกับการคาดการณ์ของโมเดลมากที่สุด หากเป็นไปได้

ตัวอย่างตัวกรองที่มี PII

ชุดข้อมูลที่ดีจะไม่ใส่ตัวอย่างที่มีข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) นโยบายนี้ช่วยปกป้องความเป็นส่วนตัว แต่ก็อาจส่งผลต่อโมเดลได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อเหล่านี้ได้ในโมดูลความปลอดภัยและความเป็นส่วนตัวในภายหลัง