K-Means มีประโยชน์และมีประสิทธิภาพในบริบทแมชชีนเลิร์นนิงหลายบริบท แต่ก็มีจุดอ่อนที่ชัดเจนบางอย่าง
ข้อดีของ K-Means
ติดตั้งใช้งานค่อนข้างง่าย
ปรับขนาดให้เหมาะกับชุดข้อมูลขนาดใหญ่
บรรจบเสมอ
อนุญาตให้อุ่นเครื่องตําแหน่งจุดศูนย์กลาง
ปรับให้เข้ากับตัวอย่างใหม่ได้อย่างราบรื่น
สามารถนําไปใช้กับคลัสเตอร์ที่มีรูปร่างและขนาดแตกต่างกัน เช่น คลัสเตอร์รูปไข่
การทั่วไปของ K-means
การใช้ K-Means แบบตรงไปตรงมาอาจมีปัญหากับคลัสเตอร์ที่มีความหนาแน่นและขนาดแตกต่างกัน ทางด้านซ้ายของรูปที่ 1 แสดงคลัสเตอร์ที่คาดหวัง ส่วนทางด้านขวาแสดงคลัสเตอร์ที่ K-Means เสนอ
หากต้องการให้คลัสเตอร์มีความสมดุลมากขึ้น เช่น คลัสเตอร์ที่แสดงในรูปที่ 1 คุณสามารถใช้ K-Means แบบทั่วไปได้ รูปที่ 2 แสดงชุดข้อมูล 3 ชุดที่แตกต่างกันซึ่งจัดกลุ่มด้วยการทั่วไป 2 แบบ ชุดข้อมูลชุดแรกแสดง k-means โดยไม่ใช้การทั่วไป ส่วนชุดที่ 2 และ 3 อนุญาตให้คลัสเตอร์มีระดับความกว้างแตกต่างกัน
หลักสูตรนี้ไม่ได้กล่าวถึงวิธีสร้างแบบทั่วไปของ K-Means แต่ผู้สนใจควรดูการคลัสเตอร์ – โมเดลการผสมผสานแบบกaussian ของ K-Means โดย Carlos Guestrin จากมหาวิทยาลัย Carnegie Mellon
ข้อเสียของ K-means
ต้องเลือกด้วยตนเอง
ผลลัพธ์ขึ้นอยู่กับค่าเริ่มต้น
สำหรับ ต่ำ คุณสามารถลดความซับซ้อนนี้ได้โดยเรียกใช้ K-Means หลายครั้งโดยใช้ค่าเริ่มต้นที่แตกต่างกัน แล้วเลือกผลลัพธ์ที่ดีที่สุด เมื่อ เพิ่มขึ้น คุณต้องใช้การเริ่มต้นด้วย K-means เพื่อเลือกจุดศูนย์กลางเริ่มต้นที่ดีกว่า โปรดดูการอภิปรายทั้งหมดเกี่ยวกับการเริ่มต้นด้วย K-means ได้ที่"การศึกษาเปรียบเทียบวิธีการเริ่มต้นที่มีประสิทธิภาพสำหรับอัลกอริทึมการจัดกลุ่มแบบ K-means" โดย M. Emre Celebi, Hassan A. Kingravi และ Patricio A. Vela
ความยากในการคลัสเตอร์ข้อมูลที่มีขนาดและความหนาแน่นแตกต่างกันโดยไม่ใช้การทั่วไป
ความยากในการจัดกลุ่มค่าที่ผิดปกติ
ค่าศูนย์กลางอาจถูกลากโดยค่าผิดปกติ หรือค่าผิดปกติอาจได้รับคลัสเตอร์ของตนเองแทนที่จะถูกละเว้น ลองนําค่าที่ผิดปกติออกหรือตัดออกก่อนจัดกลุ่ม
ปรับขนาดได้ยากเมื่อเพิ่มจํานวนมิติข้อมูล
เมื่อจำนวนมิติข้อมูลในข้อมูลเพิ่มขึ้น การวัดความคล้ายคลึงตามระยะทางจะเข้าใกล้ค่าคงที่ระหว่างตัวอย่างที่ระบุ ลดมิติข้อมูลโดยใช้ PCA ในข้อมูลฟีเจอร์ หรือใช้การจัดกลุ่มตามสเปกตรัมเพื่อแก้ไขอัลกอริทึมการจัดกลุ่ม
ข้อจำกัดของมิติข้อมูลและการคลัสเตอร์ตามสเปกตรัม
ในผังทั้ง 3 นี้ โปรดสังเกตว่าเมื่อมิติข้อมูลเพิ่มขึ้น ค่าความเบี่ยงเบนมาตรฐานของระยะทางระหว่างตัวอย่างจะลดลงเมื่อเทียบกับระยะทางเฉลี่ยระหว่างตัวอย่าง การบรรจบนี้หมายความว่า K-Means จะมีประสิทธิภาพในการแยกแยะตัวอย่างน้อยลงเมื่อมิติข้อมูลของข้อมูลเพิ่มขึ้น ปัญหานี้เรียกว่าข้อจำกัดของมิติข้อมูล
คุณหลีกเลี่ยงการลดลงของประสิทธิภาพนี้ได้โดยใช้การจัดกลุ่มตามสเปกตรัม ซึ่งจะเพิ่มขั้นตอนการจัดกลุ่มก่อนการรวมกลุ่มลงในอัลกอริทึม วิธีทําการคลัสเตอร์ตามสเปกตรัม
- ลดมิติข้อมูลของข้อมูลฟีเจอร์โดยใช้ PCA
- โปรเจ็กต์จุดข้อมูลทั้งหมดไปยังพาร์ทเนอร์ย่อยที่มีมิติข้อมูลต่ำกว่า
- จัดกลุ่มข้อมูลในเซสชันย่อยนี้โดยใช้อัลกอริทึมที่เลือก
ดูข้อมูลเพิ่มเติมเกี่ยวกับการจัดกลุ่มเชิงสเปกตรัมได้จากบทแนะนำการจัดกลุ่มเชิงสเปกตรัม โดย Ulrike von Luxburg