ชุดข้อมูล: การเปลี่ยนรูปแบบข้อมูล

โมเดลแมชชีนเลิร์นนิงจะฝึกกับค่าที่จุดลอยตัวได้เท่านั้น อย่างไรก็ตาม ฟีเจอร์ชุดข้อมูลจำนวนมากไม่ได้เป็นค่าจุดลอยตัวตามธรรมชาติ ดังนั้น สิ่งสำคัญอย่างหนึ่งของแมชชีนเลิร์นนิงคือการเปลี่ยนรูปแบบ คุณลักษณะที่ไม่มีจุดลอยตัวเพื่อแทนค่าจุดลอยตัว

ตัวอย่างเช่น สมมติว่า street names เป็นฟีเจอร์ ชื่อถนนส่วนใหญ่ เป็นสตริง เช่น "บรอดเวย์" หรือ "Vilakazi" โมเดลของคุณฝึกบน "บรอดเวย์" ไม่ได้ คุณจึงต้องแปลง "บรอดเวย์" กับจำนวนทศนิยม ข้อมูลเชิงหมวดหมู่ โมดูล อธิบายวิธีการ

นอกจากนี้ คุณยังควรแปลงฟีเจอร์จุดลอยตัวส่วนใหญ่ด้วย กระบวนการเปลี่ยนแปลงนี้ ซึ่งเรียกว่า การทำให้เป็นมาตรฐาน, แปลง จำนวนจุดลอยตัวเป็นช่วงที่จำกัดซึ่งช่วยปรับปรุงการฝึกโมเดล ข้อมูลตัวเลข โมดูล อธิบายวิธีการ

สุ่มตัวอย่างข้อมูลเมื่อคุณมีข้อมูลมากเกินไป

บางองค์กรต้องได้รับข้อมูลจำนวนมาก เมื่อชุดข้อมูลมีตัวอย่างมากเกินไป คุณต้องเลือกเซ็ตย่อย ยกตัวอย่างสำหรับการฝึก เมื่อเป็นไปได้ ให้เลือกชุดย่อยที่มี ที่เกี่ยวข้องกับการคาดการณ์ของโมเดล

ตัวอย่างตัวกรองที่มี PII

ชุดข้อมูลที่ดีจะข้ามตัวอย่างที่มีข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) นโยบายนี้ช่วยปกป้องความเป็นส่วนตัว แต่สามารถส่งผลต่อโมเดลได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อเหล่านี้ได้ในส่วนโมดูลความปลอดภัยและความเป็นส่วนตัวภายหลังในหลักสูตร