ข้อดีและข้อเสียของ k-means

K-means มีประโยชน์และมีประสิทธิภาพในบริบทของแมชชีนเลิร์นนิงมากมาย แต่ก็มี จุดอ่อนที่เป็นเอกลักษณ์บางอย่าง

ข้อดีของ k-means

ค่อนข้างง่าย

ปรับขนาดไปยังชุดข้อมูลขนาดใหญ่

บรรจบกันเสมอ

ใช้ Warm Start ตรงตำแหน่งของเซนทรอยด์

ปรับให้เข้ากับตัวอย่างใหม่ๆ อย่างราบรื่น

สามารถทำให้เป็นคลัสเตอร์ของ รูปทรงและขนาด เช่น กลุ่มวงรี

การทำให้ K-means อยู่ในรูปแบบทั่วไป

การใช้ k-means อย่างตรงไปตรงมาอาจประสบปัญหา ความหนาแน่นและขนาดต่างๆ กัน ด้านซ้ายของรูปที่ 1 แสดงคลัสเตอร์ ซึ่งเราคาดไว้ว่าจะเห็นได้ ในขณะที่ด้านขวาจะแสดงคลัสเตอร์ที่เสนอด้วยหน่วย k-me

วันที่ กราฟ 2 กราฟวางเรียงกัน ภาพแรกแสดงชุดข้อมูลที่มีคลัสเตอร์ที่ค่อนข้างชัดเจน ภาพที่ 2 แสดงการจัดกลุ่มตัวอย่างแบบคี่หลังจากเรียกใช้ k-means
รูปที่ 1: ตัวอย่าง k-means แบบไม่เป็นแบบทั่วไป

เพื่อประสิทธิภาพที่ดีขึ้นในคลัสเตอร์ที่ไม่สมดุลอย่างเช่นในรูปที่ 1 ที่คุณสามารถนำมาใช้โดยทั่วไป ซึ่งก็คือ Ad Exchange และ K-means รูปที่ 2 แสดง ที่จัดกลุ่มตามการจำแนกประเภททั่วไป 2 แบบ ชุดข้อมูลแรกจะแสดง k-means โดยไม่มีการสรุป ขณะที่รายการที่ 2 และ 3 อนุญาตให้คลัสเตอร์ มีความกว้างต่างกัน

วันที่ กราฟ 3 กราฟแสดง k-means โดยไม่มีการคำนวณทั่วไปแล้วตามด้วย k-means
       อนุญาตให้มีความกว้างที่หลากหลาย แล้ว k-means อนุญาตให้มีความกว้างที่ต่างกัน
       ในมิติข้อมูลต่างๆ
รูปที่ 2: k-means คลัสเตอร์ที่มีและไม่มีการทำให้เป็นแบบทั่วไป

หลักสูตรนี้ไม่ครอบคลุมวิธีทำให้เข้าใจ "k-means" ทั่วไป แต่ผู้ที่สนใจ ควรดูที่ การคลัสเตอร์ – k-means การผสมแบบเกาส์เชียน โมเดล โดย Carlos Guestrin จากมหาวิทยาลัย Carnegie Mellon

ข้อเสียของ k-means

ต้องเลือก\(k\) ด้วยตนเอง

ผลลัพธ์ขึ้นอยู่กับค่าเริ่มต้น

สำหรับระดับต่ำ \(k\)คุณสามารถลดการพึ่งพานี้ได้โดยเรียกใช้ k-means หลายรายการ ด้วยค่าเริ่มต้นที่แตกต่างกัน และการเลือกผลลัพธ์ที่ดีที่สุด ในชื่อ \(k\) เพิ่มขึ้น คุณต้องใช้ k-means Seeding เพื่อเลือกการเริ่มต้นที่ดียิ่งขึ้น centroids หากต้องการดูการสนทนาเต็มรูปแบบเกี่ยวกับการตั้งต้น k-means โปรดดู "เชิงเปรียบเทียบ การศึกษาวิธีการเริ่มต้นที่มีประสิทธิภาพสำหรับคลัสเตอร์แบบ K-means Algorithm" โดย M. Emre Celebi, Hassan A. Kingravi และ Patricio A. Vela

ความยากในการจัดกลุ่มข้อมูลขนาดต่างๆ และ ความหนาแน่นโดยไม่มีการสรุป

ความยากในการจัดกลุ่มค่าผิดปกติ

เซนทรอยด์อาจลากได้ด้วยค่าผิดปกติ หรือข้อมูลผิดปกติอาจได้รับคลัสเตอร์ของตัวเอง แทนที่จะถูกละเว้น โปรดพิจารณาลบหรือตัดค่าผิดปกติออกก่อน คลัสเตอร์

ความยากในการปรับขนาดด้วยจํานวนมิติข้อมูล

เมื่อมิติข้อมูลในข้อมูลเพิ่มขึ้น ความคล้ายคลึงกันตามระยะทาง เครื่องมือวัด Conversion ลู่เข้าหาค่าคงที่ระหว่างตัวอย่างที่ระบุ ลด (Reduce) มิติข้อมูลโดยใช้ PCA เกี่ยวกับข้อมูลฟีเจอร์หรือใช้คลัสเตอร์สเปกตรัมเพื่อแก้ไขการจัดคลัสเตอร์ อัลกอริทึม

คำสบถของการจัดกลุ่มมิติและสเปกตรัม

ใน 3 กราฟนี้ ให้สังเกตว่าเมื่อมิติข้อมูลเพิ่มขึ้น ค่าเบี่ยงเบนมาตรฐาน ในระยะห่างระหว่างตัวอย่างจะหดลงเมื่อเทียบกับระยะห่างเฉลี่ยระหว่าง ตัวอย่าง ช่วงเวลานี้ การบรรจบกันหมายความว่า k-หมายถึง ไม่มีประสิทธิภาพในการแยกแยะระหว่าง ตัวอย่างเมื่อมิติข้อมูลของข้อมูลเพิ่มขึ้น ซึ่งเรียกว่า คำสาปแช่งของมิติข้อมูล

วันที่ แผนภูมิ 3 จุดที่แสดงความเบี่ยงเบนมาตรฐานของระยะทางระหว่างตัวอย่างลดลงเมื่อจํานวนมิติข้อมูลเพิ่มขึ้น
รูปที่ 3: การสาธิตคำสบถของมิติ แต่ละพล็อตแสดงระยะทางแบบจับคู่ระหว่างจุดสุ่ม 200 จุด

คุณป้องกันไม่ให้ประสิทธิภาพลดลงได้ด้วยคลัสเตอร์สเปกตรัม ซึ่งจะเพิ่มขั้นตอนการสร้างคลัสเตอร์ล่วงหน้าให้กับอัลกอริทึม เพื่อทำสเปกตรัม คลัสเตอร์:

  1. ลดมิติข้อมูลของข้อมูลฟีเจอร์โดยใช้ PCA
  2. ฉายจุดข้อมูลทั้งหมดไปยังพื้นที่ย่อยมิติล่าง
  3. จัดกลุ่มข้อมูลในพื้นที่ย่อยนี้โดยใช้อัลกอริทึมที่คุณเลือก

ดู บทแนะนำเกี่ยวกับสเปกตรัม การจัดกลุ่มโดย Ulrike von Luxburg เพื่อศึกษาข้อมูลเพิ่มเติมเกี่ยวกับสเปกตรัม คลัสเตอร์