K-means มีประโยชน์และมีประสิทธิภาพในบริบทของแมชชีนเลิร์นนิงมากมาย แต่ก็มี จุดอ่อนที่เป็นเอกลักษณ์บางอย่าง
ข้อดีของ k-means
ค่อนข้างง่าย
ปรับขนาดไปยังชุดข้อมูลขนาดใหญ่
บรรจบกันเสมอ
ใช้ Warm Start ตรงตำแหน่งของเซนทรอยด์
ปรับให้เข้ากับตัวอย่างใหม่ๆ อย่างราบรื่น
สามารถทำให้เป็นคลัสเตอร์ของ รูปทรงและขนาด เช่น กลุ่มวงรี
การทำให้ K-means อยู่ในรูปแบบทั่วไป
การใช้ k-means อย่างตรงไปตรงมาอาจประสบปัญหา ความหนาแน่นและขนาดต่างๆ กัน ด้านซ้ายของรูปที่ 1 แสดงคลัสเตอร์ ซึ่งเราคาดไว้ว่าจะเห็นได้ ในขณะที่ด้านขวาจะแสดงคลัสเตอร์ที่เสนอด้วยหน่วย k-me
เพื่อประสิทธิภาพที่ดีขึ้นในคลัสเตอร์ที่ไม่สมดุลอย่างเช่นในรูปที่ 1 ที่คุณสามารถนำมาใช้โดยทั่วไป ซึ่งก็คือ Ad Exchange และ K-means รูปที่ 2 แสดง ที่จัดกลุ่มตามการจำแนกประเภททั่วไป 2 แบบ ชุดข้อมูลแรกจะแสดง k-means โดยไม่มีการสรุป ขณะที่รายการที่ 2 และ 3 อนุญาตให้คลัสเตอร์ มีความกว้างต่างกัน
หลักสูตรนี้ไม่ครอบคลุมวิธีทำให้เข้าใจ "k-means" ทั่วไป แต่ผู้ที่สนใจ ควรดูที่ การคลัสเตอร์ – k-means การผสมแบบเกาส์เชียน โมเดล โดย Carlos Guestrin จากมหาวิทยาลัย Carnegie Mellon
ข้อเสียของ k-means
ต้องเลือก\(k\) ด้วยตนเอง
ผลลัพธ์ขึ้นอยู่กับค่าเริ่มต้น
สำหรับระดับต่ำ \(k\)คุณสามารถลดการพึ่งพานี้ได้โดยเรียกใช้ k-means หลายรายการ ด้วยค่าเริ่มต้นที่แตกต่างกัน และการเลือกผลลัพธ์ที่ดีที่สุด ในชื่อ \(k\) เพิ่มขึ้น คุณต้องใช้ k-means Seeding เพื่อเลือกการเริ่มต้นที่ดียิ่งขึ้น centroids หากต้องการดูการสนทนาเต็มรูปแบบเกี่ยวกับการตั้งต้น k-means โปรดดู "เชิงเปรียบเทียบ การศึกษาวิธีการเริ่มต้นที่มีประสิทธิภาพสำหรับคลัสเตอร์แบบ K-means Algorithm" โดย M. Emre Celebi, Hassan A. Kingravi และ Patricio A. Vela
ความยากในการจัดกลุ่มข้อมูลขนาดต่างๆ และ ความหนาแน่นโดยไม่มีการสรุป
ความยากในการจัดกลุ่มค่าผิดปกติ
เซนทรอยด์อาจลากได้ด้วยค่าผิดปกติ หรือข้อมูลผิดปกติอาจได้รับคลัสเตอร์ของตัวเอง แทนที่จะถูกละเว้น โปรดพิจารณาลบหรือตัดค่าผิดปกติออกก่อน คลัสเตอร์
ความยากในการปรับขนาดด้วยจํานวนมิติข้อมูล
เมื่อมิติข้อมูลในข้อมูลเพิ่มขึ้น ความคล้ายคลึงกันตามระยะทาง เครื่องมือวัด Conversion ลู่เข้าหาค่าคงที่ระหว่างตัวอย่างที่ระบุ ลด (Reduce) มิติข้อมูลโดยใช้ PCA เกี่ยวกับข้อมูลฟีเจอร์หรือใช้คลัสเตอร์สเปกตรัมเพื่อแก้ไขการจัดคลัสเตอร์ อัลกอริทึม
คำสบถของการจัดกลุ่มมิติและสเปกตรัม
ใน 3 กราฟนี้ ให้สังเกตว่าเมื่อมิติข้อมูลเพิ่มขึ้น ค่าเบี่ยงเบนมาตรฐาน ในระยะห่างระหว่างตัวอย่างจะหดลงเมื่อเทียบกับระยะห่างเฉลี่ยระหว่าง ตัวอย่าง ช่วงเวลานี้ การบรรจบกันหมายความว่า k-หมายถึง ไม่มีประสิทธิภาพในการแยกแยะระหว่าง ตัวอย่างเมื่อมิติข้อมูลของข้อมูลเพิ่มขึ้น ซึ่งเรียกว่า คำสาปแช่งของมิติข้อมูล
คุณป้องกันไม่ให้ประสิทธิภาพลดลงได้ด้วยคลัสเตอร์สเปกตรัม ซึ่งจะเพิ่มขั้นตอนการสร้างคลัสเตอร์ล่วงหน้าให้กับอัลกอริทึม เพื่อทำสเปกตรัม คลัสเตอร์:
- ลดมิติข้อมูลของข้อมูลฟีเจอร์โดยใช้ PCA
- ฉายจุดข้อมูลทั้งหมดไปยังพื้นที่ย่อยมิติล่าง
- จัดกลุ่มข้อมูลในพื้นที่ย่อยนี้โดยใช้อัลกอริทึมที่คุณเลือก
ดู บทแนะนำเกี่ยวกับสเปกตรัม การจัดกลุ่มโดย Ulrike von Luxburg เพื่อศึกษาข้อมูลเพิ่มเติมเกี่ยวกับสเปกตรัม คลัสเตอร์