ส่วนนี้จะอธิบายขั้นตอนการเตรียมข้อมูลที่เกี่ยวข้องกับการจัดกลุ่มมากที่สุด จาก การทำงานกับข้อมูลที่เป็นตัวเลข ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ในการจัดกลุ่ม คุณจะคำนวณความคล้ายคลึงระหว่างตัวอย่างสองตัวอย่างโดยการรวม ข้อมูลฟีเจอร์ทั้งหมดของตัวอย่างเหล่านั้นให้เป็นค่าตัวเลข ซึ่งต้องมี ของคุณลักษณะให้มีสเกลเดียวกัน ซึ่งทำได้โดยการทำให้เป็นมาตรฐาน การเปลี่ยนรูปแบบหรือสร้างควอนไทล์ หากต้องการเปลี่ยนรูปแบบ ข้อมูลโดยไม่ตรวจสอบการกระจายนี้ อาจตั้งค่าเริ่มต้นเป็นควอนไทล์
การปรับข้อมูลให้เป็นมาตรฐาน
คุณสามารถแปลงข้อมูลสำหรับหลายฟีเจอร์เป็นสเกลเดียวกันได้โดยการปรับให้เป็นมาตรฐาน ข้อมูลดังกล่าว
Z-Score
เมื่อใดก็ตามที่คุณเห็นชุดข้อมูลที่มีรูปร่างคล้าย การแจกแจงแบบเกาส์เซียน คุณควรคำนวณค่ามาตรฐาน (z-score) เพื่อดูข้อมูล คะแนน Z คือจำนวนค่าเบี่ยงเบนมาตรฐานที่ค่ามาจากค่าเบี่ยงเบนมาตรฐาน โดยเฉลี่ย นอกจากนี้ คุณยังสามารถใช้ค่ามาตรฐานเมื่อชุดข้อมูลมีขนาดไม่ใหญ่พอสำหรับ ควอนไทล์
โปรดดู การปรับขนาดคะแนนมาตรฐาน เพื่อดูขั้นตอนต่างๆ
นี่คือการแสดงภาพฟีเจอร์ 2 อย่างของชุดข้อมูลก่อนและหลัง การปรับสเกลคะแนนมาตรฐาน:
ในชุดข้อมูลที่ไม่เป็นมาตรฐานทางด้านซ้าย ฟีเจอร์ 1 และฟีเจอร์ 2 ที่แสดงบนกราฟบนแกน x และ y มีขนาดไม่เท่ากันตามลำดับ ใน ด้านซ้าย ตัวอย่างสีแดง ปรากฏใกล้เคียงหรือคล้ายกันมากกว่าสีน้ำเงินมากกว่าสีเหลือง ด้านขวา หลัง การปรับขนาดคะแนนมาตรฐาน คุณลักษณะ 1 และคุณลักษณะ 2 มีสเกลเดียวกัน และสีแดง ตัวอย่างจะปรากฏใกล้กับตัวอย่างสีเหลืองมากขึ้น ชุดข้อมูลมาตรฐานจะ การวัดความคล้ายคลึงระหว่างจุดต่างๆ ได้แม่นยำยิ่งขึ้น
การแปลงบันทึก
เมื่อชุดข้อมูลสอดคล้องกับ การกระจายกฎหมายว่าด้วยพลังงาน ซึ่งข้อมูล จับตัวเป็นกลุ่มอย่างหนักที่ค่าต่ำสุด โปรดใช้การแปลงบันทึก โปรดดู บันทึกการปรับขนาด เพื่อดูขั้นตอนต่างๆ
นี่คือการแสดงภาพชุดข้อมูลกฎหมายพลังงานก่อนและหลังการแปลงบันทึก
ก่อนการปรับขนาดบันทึก (รูปที่ 2) ตัวอย่างสีแดงดูคล้ายกับสีเหลืองมากขึ้น หลังจากการปรับขนาดบันทึก (รูปที่ 3) สีแดงจะปรากฏใกล้เคียงกับสีน้ำเงินมากขึ้น
จำนวน
การผูกข้อมูลเข้ากับควอนไทล์ทำงานได้ดีเมื่อชุดข้อมูลไม่สอดคล้องกัน ให้กับการกระจายที่รู้จัก ดูชุดข้อมูลนี้ เช่น
จะตามธรรมชาติแล้ว ตัวอย่าง 2 ตัวอย่างจะคล้ายคลึงกันมากขึ้นหากมีเพียง 2-3 ตัวอย่างอยู่ด้วยกัน โดยไม่คำนึงถึงค่า และมีความไม่คล้ายกันอย่างมากหากมีหลายตัวอย่าง สลับกันไปมา การแสดงข้อมูลผ่านภาพด้านบนทำให้ดูภาพรวมทั้งหมดได้ยาก จำนวนตัวอย่างที่อยู่ระหว่างสีแดงและสีเหลือง หรือระหว่างสีแดงกับสีน้ำเงิน
ความเข้าใจเกี่ยวกับความคล้ายคลึงกันนี้จะออกมาได้จากการแบ่งชุดข้อมูลออกเป็น ควอนไทล์ หรือช่วงเวลาที่แต่ละค่ามีจำนวนตัวอย่างเท่ากัน และ การกำหนดดัชนีควอนไทล์ให้กับแต่ละตัวอย่าง โปรดดู การฝากข้อมูลเชิงปริมาณ เพื่อดูขั้นตอนต่างๆ
นี่คือการแจกแจงก่อนหน้าที่แบ่งออกเป็นควอนไทล์ ซึ่งแสดงให้เห็นว่าสีแดงคือ ควอนไทล์ห่างจากสีเหลือง 1 ส่วนและควอนไทล์ 3 ตัวห่างจากสีน้ำเงิน
คุณสามารถเลือกควอนไทล์ \(n\) กี่ตัวก็ได้ อย่างไรก็ตาม สำหรับควอนไทล์ที่ แสดงถึงข้อมูลสำคัญอย่างมีความหมาย ชุดข้อมูลของคุณควรมี \(10n\) ตัวอย่าง หากคุณมีข้อมูลไม่เพียงพอ ให้เปลี่ยนเป็นมาตรฐานแทน
ตรวจสอบความเข้าใจ
สำหรับคำถามต่อไปนี้ โปรดสมมติว่าคุณมีข้อมูลเพียงพอที่จะสร้างควอนไทล์
คำถามข้อที่ 1
- การกระจายข้อมูลเป็นแบบเกาส์เซียน
- คุณมีข้อมูลเชิงลึกว่าข้อมูลแสดงถึงอะไร ซึ่งแนะนำว่าไม่ควรเปลี่ยนรูปแบบแบบไม่เป็นเชิงเส้น
คำถามข้อที่ 2
ข้อมูลขาดหาย
หากชุดข้อมูลมีตัวอย่างที่มีค่าขาดหายไปสำหรับฟีเจอร์บางรายการ แต่ ตัวอย่างเหล่านี้เกิดขึ้นไม่บ่อยนัก คุณสามารถนำตัวอย่างเหล่านี้ออกได้ หากตัวอย่างเหล่านั้น เกิดขึ้นบ่อยครั้ง คุณจะนำคุณลักษณะดังกล่าวออกไปเลยก็ได้ หรือคุณสามารถคาดคะเนค่าที่หายไปจากตัวอย่างอื่นๆ โดยใช้เครื่อง โมเดลการเรียนรู้ ตัวอย่างเช่น คุณสามารถ แสดงค่าข้อมูลตัวเลขที่ขาดหายไป โดยใช้ โมเดลการถดถอยที่ได้รับการฝึกกับข้อมูลฟีเจอร์ที่มีอยู่