การจัดเตรียมข้อมูล

ส่วนนี้จะอธิบายขั้นตอนการเตรียมข้อมูลที่เกี่ยวข้องกับการจัดกลุ่มมากที่สุด จาก การทำงานกับข้อมูลที่เป็นตัวเลข ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ในการจัดกลุ่ม คุณจะคำนวณความคล้ายคลึงระหว่างตัวอย่างสองตัวอย่างโดยการรวม ข้อมูลฟีเจอร์ทั้งหมดของตัวอย่างเหล่านั้นให้เป็นค่าตัวเลข ซึ่งต้องมี ของคุณลักษณะให้มีสเกลเดียวกัน ซึ่งทำได้โดยการทำให้เป็นมาตรฐาน การเปลี่ยนรูปแบบหรือสร้างควอนไทล์ หากต้องการเปลี่ยนรูปแบบ ข้อมูลโดยไม่ตรวจสอบการกระจายนี้ อาจตั้งค่าเริ่มต้นเป็นควอนไทล์

การปรับข้อมูลให้เป็นมาตรฐาน

คุณสามารถแปลงข้อมูลสำหรับหลายฟีเจอร์เป็นสเกลเดียวกันได้โดยการปรับให้เป็นมาตรฐาน ข้อมูลดังกล่าว

Z-Score

เมื่อใดก็ตามที่คุณเห็นชุดข้อมูลที่มีรูปร่างคล้าย การแจกแจงแบบเกาส์เซียน คุณควรคำนวณค่ามาตรฐาน (z-score) เพื่อดูข้อมูล คะแนน Z คือจำนวนค่าเบี่ยงเบนมาตรฐานที่ค่ามาจากค่าเบี่ยงเบนมาตรฐาน โดยเฉลี่ย นอกจากนี้ คุณยังสามารถใช้ค่ามาตรฐานเมื่อชุดข้อมูลมีขนาดไม่ใหญ่พอสำหรับ ควอนไทล์

โปรดดู การปรับขนาดคะแนนมาตรฐาน เพื่อดูขั้นตอนต่างๆ

นี่คือการแสดงภาพฟีเจอร์ 2 อย่างของชุดข้อมูลก่อนและหลัง การปรับสเกลคะแนนมาตรฐาน:

วันที่ กราฟ 2 รายการที่เปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้เป็นมาตรฐาน
รูปที่ 1: การเปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้เป็นมาตรฐาน

ในชุดข้อมูลที่ไม่เป็นมาตรฐานทางด้านซ้าย ฟีเจอร์ 1 และฟีเจอร์ 2 ที่แสดงบนกราฟบนแกน x และ y มีขนาดไม่เท่ากันตามลำดับ ใน ด้านซ้าย ตัวอย่างสีแดง ปรากฏใกล้เคียงหรือคล้ายกันมากกว่าสีน้ำเงินมากกว่าสีเหลือง ด้านขวา หลัง การปรับขนาดคะแนนมาตรฐาน คุณลักษณะ 1 และคุณลักษณะ 2 มีสเกลเดียวกัน และสีแดง ตัวอย่างจะปรากฏใกล้กับตัวอย่างสีเหลืองมากขึ้น ชุดข้อมูลมาตรฐานจะ การวัดความคล้ายคลึงระหว่างจุดต่างๆ ได้แม่นยำยิ่งขึ้น

การแปลงบันทึก

เมื่อชุดข้อมูลสอดคล้องกับ การกระจายกฎหมายว่าด้วยพลังงาน ซึ่งข้อมูล จับตัวเป็นกลุ่มอย่างหนักที่ค่าต่ำสุด โปรดใช้การแปลงบันทึก โปรดดู บันทึกการปรับขนาด เพื่อดูขั้นตอนต่างๆ

นี่คือการแสดงภาพชุดข้อมูลกฎหมายพลังงานก่อนและหลังการแปลงบันทึก

วันที่ แผนภูมิแท่งที่มีข้อมูลส่วนใหญ่อยู่ในระดับต่ำ
รูปที่ 2: การแจกแจงกฎกำลังไฟฟ้า
กราฟแสดงการกระจายปกติ (เกาส์เชียน)
รูปที่ 3: การเปลี่ยนรูปแบบบันทึกของรูปที่ 2

ก่อนการปรับขนาดบันทึก (รูปที่ 2) ตัวอย่างสีแดงดูคล้ายกับสีเหลืองมากขึ้น หลังจากการปรับขนาดบันทึก (รูปที่ 3) สีแดงจะปรากฏใกล้เคียงกับสีน้ำเงินมากขึ้น

จำนวน

การผูกข้อมูลเข้ากับควอนไทล์ทำงานได้ดีเมื่อชุดข้อมูลไม่สอดคล้องกัน ให้กับการกระจายที่รู้จัก ดูชุดข้อมูลนี้ เช่น

วันที่ กราฟแสดงการกระจายข้อมูลก่อนการประมวลผลล่วงหน้า
รูปที่ 4: การแจกแจงที่ไม่สามารถจัดหมวดหมู่ได้ก่อนที่จะมีการประมวลผลล่วงหน้า

จะตามธรรมชาติแล้ว ตัวอย่าง 2 ตัวอย่างจะคล้ายคลึงกันมากขึ้นหากมีเพียง 2-3 ตัวอย่างอยู่ด้วยกัน โดยไม่คำนึงถึงค่า และมีความไม่คล้ายกันอย่างมากหากมีหลายตัวอย่าง สลับกันไปมา การแสดงข้อมูลผ่านภาพด้านบนทำให้ดูภาพรวมทั้งหมดได้ยาก จำนวนตัวอย่างที่อยู่ระหว่างสีแดงและสีเหลือง หรือระหว่างสีแดงกับสีน้ำเงิน

ความเข้าใจเกี่ยวกับความคล้ายคลึงกันนี้จะออกมาได้จากการแบ่งชุดข้อมูลออกเป็น ควอนไทล์ หรือช่วงเวลาที่แต่ละค่ามีจำนวนตัวอย่างเท่ากัน และ การกำหนดดัชนีควอนไทล์ให้กับแต่ละตัวอย่าง โปรดดู การฝากข้อมูลเชิงปริมาณ เพื่อดูขั้นตอนต่างๆ

นี่คือการแจกแจงก่อนหน้าที่แบ่งออกเป็นควอนไทล์ ซึ่งแสดงให้เห็นว่าสีแดงคือ ควอนไทล์ห่างจากสีเหลือง 1 ส่วนและควอนไทล์ 3 ตัวห่างจากสีน้ำเงิน

วันที่ กราฟแสดงข้อมูลหลังจากการแปลง
  ออกมาเป็นควอนไทล์ เส้นนี้แทนช่วง 20 ช่วง]
รูปที่ 5: การกระจายในรูปที่ 4 หลังการแปลงเป็นควอนไทล์ 20 รายการ

คุณสามารถเลือกควอนไทล์ \(n\) กี่ตัวก็ได้ อย่างไรก็ตาม สำหรับควอนไทล์ที่ แสดงถึงข้อมูลสำคัญอย่างมีความหมาย ชุดข้อมูลของคุณควรมี \(10n\) ตัวอย่าง หากคุณมีข้อมูลไม่เพียงพอ ให้เปลี่ยนเป็นมาตรฐานแทน

ตรวจสอบความเข้าใจ

สำหรับคำถามต่อไปนี้ โปรดสมมติว่าคุณมีข้อมูลเพียงพอที่จะสร้างควอนไทล์

คำถามข้อที่ 1

แผนภูมิแสดงการกระจายข้อมูล 3 แบบ
คุณควรประมวลผลการกระจายข้อมูลที่แสดงในส่วน กราฟ?
สร้างควอนไทล์
ถูกต้อง เนื่องจากการกระจายไม่ตรงกับ การกระจายข้อมูลมาตรฐาน คุณควรกำหนดค่าเริ่มต้นเป็น สร้างควอนไทล์
ทำให้เป็นปกติ
โดยทั่วไปแล้ว คุณจะทำให้ข้อมูลเป็นมาตรฐานในกรณีต่อไปนี้
  • การกระจายข้อมูลเป็นแบบเกาส์เซียน
  • คุณมีข้อมูลเชิงลึกว่าข้อมูลแสดงถึงอะไร ซึ่งแนะนำว่าไม่ควรเปลี่ยนรูปแบบแบบไม่เป็นเชิงเส้น
กรณีนี้ไม่ตรงทั้ง 2 กรณี การกระจายข้อมูลไม่ใช่การกระจายข้อมูลแบบเกาส์เชียน (Gaussian) เนื่องจาก ไม่สมมาตร และคุณไม่รู้ด้วยซ้ำว่าค่าเหล่านี้คืออะไร สามัญสำนึกในโลกแห่งความเป็นจริง
บันทึกการเปลี่ยนรูปแบบ
วิธีนี้ไม่ใช่การกระจายกฎหมายพลังงานที่สมบูรณ์แบบ ดังนั้นอย่าใช้บันทึก การเปลี่ยนรูปแบบ

คำถามข้อที่ 2

แผนภูมิแสดงการกระจายข้อมูล 3 แบบ
คุณจะประมวลผลการกระจายข้อมูลนี้อย่างไร
ทำให้เป็นปกติ
ถูกต้อง นี่คือการแจกแจงแบบเกาส์เชียน
สร้างควอนไทล์
ผิด เนื่องจากนี่เป็นการกระจายแบบเกาส์เชียน แนะนำให้ใช้ Transform คือการปรับให้เป็นมาตรฐาน
บันทึกการเปลี่ยนรูปแบบ
ผิด ใช้การเปลี่ยนรูปแบบบันทึกกับการแจกแจงแบบ Power-law เท่านั้น

ข้อมูลขาดหาย

หากชุดข้อมูลมีตัวอย่างที่มีค่าขาดหายไปสำหรับฟีเจอร์บางรายการ แต่ ตัวอย่างเหล่านี้เกิดขึ้นไม่บ่อยนัก คุณสามารถนำตัวอย่างเหล่านี้ออกได้ หากตัวอย่างเหล่านั้น เกิดขึ้นบ่อยครั้ง คุณจะนำคุณลักษณะดังกล่าวออกไปเลยก็ได้ หรือคุณสามารถคาดคะเนค่าที่หายไปจากตัวอย่างอื่นๆ โดยใช้เครื่อง โมเดลการเรียนรู้ ตัวอย่างเช่น คุณสามารถ แสดงค่าข้อมูลตัวเลขที่ขาดหายไป โดยใช้ โมเดลการถดถอยที่ได้รับการฝึกกับข้อมูลฟีเจอร์ที่มีอยู่