หน้านี้ได้รับการแปลโดย Cloud Translation API

การจัดเตรียมข้อมูล

ส่วนนี้จะอธิบายขั้นตอนการเตรียมข้อมูลที่เกี่ยวข้องกับการจัดกลุ่มมากที่สุด จาก การทำงานกับข้อมูลที่เป็นตัวเลข ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ในการจัดกลุ่ม คุณจะคำนวณความคล้ายคลึงระหว่างตัวอย่างสองตัวอย่างโดยการรวม ข้อมูลฟีเจอร์ทั้งหมดของตัวอย่างเหล่านั้นให้เป็นค่าตัวเลข ซึ่งต้องมี ของคุณลักษณะให้มีสเกลเดียวกัน ซึ่งทำได้โดยการทำให้เป็นมาตรฐาน การเปลี่ยนรูปแบบหรือสร้างควอนไทล์ หากต้องการเปลี่ยนรูปแบบ ข้อมูลโดยไม่ตรวจสอบการกระจายนี้ อาจตั้งค่าเริ่มต้นเป็นควอนไทล์

การปรับข้อมูลให้เป็นมาตรฐาน

คุณสามารถแปลงข้อมูลสำหรับหลายฟีเจอร์เป็นสเกลเดียวกันได้โดยการปรับให้เป็นมาตรฐาน ข้อมูลดังกล่าว

Z-Score

เมื่อใดก็ตามที่คุณเห็นชุดข้อมูลที่มีรูปร่างคล้าย การแจกแจงแบบเกาส์เซียน คุณควรคำนวณค่ามาตรฐาน (z-score) เพื่อดูข้อมูล คะแนน Z คือจำนวนค่าเบี่ยงเบนมาตรฐานที่ค่ามาจากค่าเบี่ยงเบนมาตรฐาน โดยเฉลี่ย นอกจากนี้ คุณยังสามารถใช้ค่ามาตรฐานเมื่อชุดข้อมูลมีขนาดไม่ใหญ่พอสำหรับ ควอนไทล์

โปรดดู การปรับขนาดคะแนนมาตรฐาน เพื่อดูขั้นตอนต่างๆ

นี่คือการแสดงภาพฟีเจอร์ 2 อย่างของชุดข้อมูลก่อนและหลัง การปรับสเกลคะแนนมาตรฐาน:

กราฟ 2 รายการที่เปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้เป็นมาตรฐาน — **รูปที่ 1: การเปรียบเทียบข้อมูลฟีเจอร์ก่อนและหลังการปรับให้เป็นมาตรฐาน**

ในชุดข้อมูลที่ไม่เป็นมาตรฐานทางด้านซ้าย ฟีเจอร์ 1 และฟีเจอร์ 2 ที่แสดงบนกราฟบนแกน x และ y มีขนาดไม่เท่ากันตามลำดับ ใน ด้านซ้าย ตัวอย่างสีแดง ปรากฏใกล้เคียงหรือคล้ายกันมากกว่าสีน้ำเงินมากกว่าสีเหลือง ด้านขวา หลัง การปรับขนาดคะแนนมาตรฐาน คุณลักษณะ 1 และคุณลักษณะ 2 มีสเกลเดียวกัน และสีแดง ตัวอย่างจะปรากฏใกล้กับตัวอย่างสีเหลืองมากขึ้น ชุดข้อมูลมาตรฐานจะ การวัดความคล้ายคลึงระหว่างจุดต่างๆ ได้แม่นยำยิ่งขึ้น

การแปลงบันทึก

เมื่อชุดข้อมูลสอดคล้องกับ การกระจายกฎหมายว่าด้วยพลังงาน ซึ่งข้อมูล จับตัวเป็นกลุ่มอย่างหนักที่ค่าต่ำสุด โปรดใช้การแปลงบันทึก โปรดดู บันทึกการปรับขนาด เพื่อดูขั้นตอนต่างๆ

นี่คือการแสดงภาพชุดข้อมูลกฎหมายพลังงานก่อนและหลังการแปลงบันทึก

แผนภูมิแท่งที่มีข้อมูลส่วนใหญ่อยู่ในระดับต่ำ — **รูปที่ 2: การแจกแจงกฎกำลังไฟฟ้า**

กราฟแสดงการกระจายปกติ (เกาส์เชียน) — **รูปที่ 3: การเปลี่ยนรูปแบบบันทึกของรูปที่ 2**

ก่อนการปรับขนาดบันทึก (รูปที่ 2) ตัวอย่างสีแดงดูคล้ายกับสีเหลืองมากขึ้น หลังจากการปรับขนาดบันทึก (รูปที่ 3) สีแดงจะปรากฏใกล้เคียงกับสีน้ำเงินมากขึ้น

จำนวน

การผูกข้อมูลเข้ากับควอนไทล์ทำงานได้ดีเมื่อชุดข้อมูลไม่สอดคล้องกัน ให้กับการกระจายที่รู้จัก ดูชุดข้อมูลนี้ เช่น

กราฟแสดงการกระจายข้อมูลก่อนการประมวลผลล่วงหน้า — รูปที่ 4: การแจกแจงที่ไม่สามารถจัดหมวดหมู่ได้ก่อนที่จะมีการประมวลผลล่วงหน้า

จะตามธรรมชาติแล้ว ตัวอย่าง 2 ตัวอย่างจะคล้ายคลึงกันมากขึ้นหากมีเพียง 2-3 ตัวอย่างอยู่ด้วยกัน โดยไม่คำนึงถึงค่า และมีความไม่คล้ายกันอย่างมากหากมีหลายตัวอย่าง สลับกันไปมา การแสดงข้อมูลผ่านภาพด้านบนทำให้ดูภาพรวมทั้งหมดได้ยาก จำนวนตัวอย่างที่อยู่ระหว่างสีแดงและสีเหลือง หรือระหว่างสีแดงกับสีน้ำเงิน

ความเข้าใจเกี่ยวกับความคล้ายคลึงกันนี้จะออกมาได้จากการแบ่งชุดข้อมูลออกเป็น ควอนไทล์ หรือช่วงเวลาที่แต่ละค่ามีจำนวนตัวอย่างเท่ากัน และ การกำหนดดัชนีควอนไทล์ให้กับแต่ละตัวอย่าง โปรดดู การฝากข้อมูลเชิงปริมาณ เพื่อดูขั้นตอนต่างๆ

นี่คือการแจกแจงก่อนหน้าที่แบ่งออกเป็นควอนไทล์ ซึ่งแสดงให้เห็นว่าสีแดงคือ ควอนไทล์ห่างจากสีเหลือง 1 ส่วนและควอนไทล์ 3 ตัวห่างจากสีน้ำเงิน

กราฟแสดงข้อมูลหลังจากการแปลง
ออกมาเป็นควอนไทล์ เส้นนี้แทนช่วง 20 ช่วง] — **รูปที่ 5: การกระจายในรูปที่ 4 หลังการแปลงเป็นควอนไทล์ 20 รายการ**

คุณสามารถเลือกควอนไทล์ \(n\) กี่ตัวก็ได้ อย่างไรก็ตาม สำหรับควอนไทล์ที่ แสดงถึงข้อมูลสำคัญอย่างมีความหมาย ชุดข้อมูลของคุณควรมี \(10n\) ตัวอย่าง หากคุณมีข้อมูลไม่เพียงพอ ให้เปลี่ยนเป็นมาตรฐานแทน

ตรวจสอบความเข้าใจ

สำหรับคำถามต่อไปนี้ โปรดสมมติว่าคุณมีข้อมูลเพียงพอที่จะสร้างควอนไทล์

คำถามข้อที่ 1

คุณควรประมวลผลการกระจายข้อมูลที่แสดงในส่วน กราฟ?

สร้างควอนไทล์

ถูกต้อง เนื่องจากการกระจายไม่ตรงกับ การกระจายข้อมูลมาตรฐาน คุณควรกำหนดค่าเริ่มต้นเป็น สร้างควอนไทล์

ทำให้เป็นปกติ

โดยทั่วไปแล้ว คุณจะทำให้ข้อมูลเป็นมาตรฐานในกรณีต่อไปนี้

การกระจายข้อมูลเป็นแบบเกาส์เซียน
คุณมีข้อมูลเชิงลึกว่าข้อมูลแสดงถึงอะไร ซึ่งแนะนำว่าไม่ควรเปลี่ยนรูปแบบแบบไม่เป็นเชิงเส้น

กรณีนี้ไม่ตรงทั้ง 2 กรณี การกระจายข้อมูลไม่ใช่การกระจายข้อมูลแบบเกาส์เชียน (Gaussian) เนื่องจาก ไม่สมมาตร และคุณไม่รู้ด้วยซ้ำว่าค่าเหล่านี้คืออะไร สามัญสำนึกในโลกแห่งความเป็นจริง

บันทึกการเปลี่ยนรูปแบบ

วิธีนี้ไม่ใช่การกระจายกฎหมายพลังงานที่สมบูรณ์แบบ ดังนั้นอย่าใช้บันทึก การเปลี่ยนรูปแบบ

คำถามข้อที่ 2

คุณจะประมวลผลการกระจายข้อมูลนี้อย่างไร

ทำให้เป็นปกติ

ถูกต้อง นี่คือการแจกแจงแบบเกาส์เชียน

สร้างควอนไทล์

ผิด เนื่องจากนี่เป็นการกระจายแบบเกาส์เชียน แนะนำให้ใช้ Transform คือการปรับให้เป็นมาตรฐาน

บันทึกการเปลี่ยนรูปแบบ

ผิด ใช้การเปลี่ยนรูปแบบบันทึกกับการแจกแจงแบบ Power-law เท่านั้น

ข้อมูลขาดหาย

หากชุดข้อมูลมีตัวอย่างที่มีค่าขาดหายไปสำหรับฟีเจอร์บางรายการ แต่ ตัวอย่างเหล่านี้เกิดขึ้นไม่บ่อยนัก คุณสามารถนำตัวอย่างเหล่านี้ออกได้ หากตัวอย่างเหล่านั้น เกิดขึ้นบ่อยครั้ง คุณจะนำคุณลักษณะดังกล่าวออกไปเลยก็ได้ หรือคุณสามารถคาดคะเนค่าที่หายไปจากตัวอย่างอื่นๆ โดยใช้เครื่อง โมเดลการเรียนรู้ ตัวอย่างเช่น คุณสามารถ แสดงค่าข้อมูลตัวเลขที่ขาดหายไป โดยใช้ โมเดลการถดถอยที่ได้รับการฝึกกับข้อมูลฟีเจอร์ที่มีอยู่

หมายเหตุ: ปัญหาข้อมูลที่หายไปไม่ได้เกี่ยวข้องกับคลัสเตอร์ ใน การเรียนรู้ภายใต้การควบคุมดูแล จะทำให้คุณทราบว่า คุณค่าให้กับฟีเจอร์ อย่างไรก็ตาม คุณไม่สามารถคาดเดาได้ว่า "ไม่รู้จัก" เมื่อออกแบบ ความคล้ายคลึงกัน เนื่องจากจะเป็นไปไม่ได้ที่จะระบุความคล้ายคลึงระหว่าง "ไม่รู้จัก" และค่าที่ทราบ

เวิร์กโฟลว์คลัสเตอร์

คลัสเตอร์แบบ K-means คืออะไร