โมเดลแมชชีนเลิร์นนิงจะฝึกกับค่าที่จุดลอยตัวได้เท่านั้น อย่างไรก็ตาม ฟีเจอร์ชุดข้อมูลจำนวนมากไม่ได้เป็นค่าจุดลอยตัวตามธรรมชาติ ดังนั้น สิ่งสำคัญอย่างหนึ่งของแมชชีนเลิร์นนิงคือการเปลี่ยนรูปแบบ คุณลักษณะที่ไม่มีจุดลอยตัวเพื่อแทนค่าจุดลอยตัว
ตัวอย่างเช่น สมมติว่า street names
เป็นฟีเจอร์ ชื่อถนนส่วนใหญ่
เป็นสตริง เช่น "บรอดเวย์" หรือ "Vilakazi"
โมเดลของคุณฝึกบน "บรอดเวย์" ไม่ได้ คุณจึงต้องแปลง "บรอดเวย์"
กับจำนวนทศนิยม ข้อมูลเชิงหมวดหมู่
โมดูล
อธิบายวิธีการ
นอกจากนี้ คุณยังควรแปลงฟีเจอร์จุดลอยตัวส่วนใหญ่ด้วย กระบวนการเปลี่ยนแปลงนี้ ซึ่งเรียกว่า การทำให้เป็นมาตรฐาน, แปลง จำนวนจุดลอยตัวเป็นช่วงที่จำกัดซึ่งช่วยปรับปรุงการฝึกโมเดล ข้อมูลตัวเลข โมดูล อธิบายวิธีการ
สุ่มตัวอย่างข้อมูลเมื่อคุณมีข้อมูลมากเกินไป
บางองค์กรต้องได้รับข้อมูลจำนวนมาก เมื่อชุดข้อมูลมีตัวอย่างมากเกินไป คุณต้องเลือกเซ็ตย่อย ยกตัวอย่างสำหรับการฝึก เมื่อเป็นไปได้ ให้เลือกชุดย่อยที่มี ที่เกี่ยวข้องกับการคาดการณ์ของโมเดล
ตัวอย่างตัวกรองที่มี PII
ชุดข้อมูลที่ดีจะข้ามตัวอย่างที่มีข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) นโยบายนี้ช่วยปกป้องความเป็นส่วนตัว แต่สามารถส่งผลต่อโมเดลได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อเหล่านี้ได้ในส่วนโมดูลความปลอดภัยและความเป็นส่วนตัวภายหลังในหลักสูตร