ข้อดีและข้อเสียของ k-means

K-Means มีประโยชน์และมีประสิทธิภาพในบริบทแมชชีนเลิร์นนิงหลายบริบท แต่ก็มีจุดอ่อนที่ชัดเจนบางอย่าง

ข้อดีของ K-Means

ติดตั้งใช้งานค่อนข้างง่าย

ปรับขนาดให้เหมาะกับชุดข้อมูลขนาดใหญ่

บรรจบเสมอ

อนุญาตให้อุ่นเครื่องตําแหน่งจุดศูนย์กลาง

ปรับให้เข้ากับตัวอย่างใหม่ได้อย่างราบรื่น

สามารถนําไปใช้กับคลัสเตอร์ที่มีรูปร่างและขนาดแตกต่างกัน เช่น คลัสเตอร์รูปไข่

การทั่วไปของ K-means

การใช้ K-Means แบบตรงไปตรงมาอาจมีปัญหากับคลัสเตอร์ที่มีความหนาแน่นและขนาดแตกต่างกัน ทางด้านซ้ายของรูปที่ 1 แสดงคลัสเตอร์ที่คาดหวัง ส่วนทางด้านขวาแสดงคลัสเตอร์ที่ K-Means เสนอ

กราฟ 2 กราฟแสดงคู่กัน ภาพที่ 1 แสดงชุดข้อมูลที่มีคลัสเตอร์ที่ค่อนข้างชัดเจน ภาพที่ 2 แสดงการจัดกลุ่มตัวอย่างที่แปลกๆ หลังจากเรียกใช้ K-Means
รูปที่ 1: ตัวอย่าง K-means แบบไม่ทั่วไป

หากต้องการให้คลัสเตอร์มีความสมดุลมากขึ้น เช่น คลัสเตอร์ที่แสดงในรูปที่ 1 คุณสามารถใช้ K-Means แบบทั่วไปได้ รูปที่ 2 แสดงชุดข้อมูล 3 ชุดที่แตกต่างกันซึ่งจัดกลุ่มด้วยการทั่วไป 2 แบบ ชุดข้อมูลชุดแรกแสดง k-means โดยไม่ใช้การทั่วไป ส่วนชุดที่ 2 และ 3 อนุญาตให้คลัสเตอร์มีระดับความกว้างแตกต่างกัน

กราฟ 3 รายการที่แสดง K-Means ที่ไม่มีการทำให้เป็นทั่วไป จากนั้นแสดง K-Means ที่อนุญาตให้มีลําดับความกว้างที่แตกต่างกัน และแสดง K-Means ที่อนุญาตให้มีลําดับความกว้างที่แตกต่างกันในมิติข้อมูล
รูปที่ 2: คลัสเตอร์แบบ K-means ที่มีและไม่มีการสร้างแบบทั่วไป

หลักสูตรนี้ไม่ได้กล่าวถึงวิธีสร้างแบบทั่วไปของ K-Means แต่ผู้สนใจควรดูการคลัสเตอร์ – โมเดลการผสมผสานแบบกaussian ของ K-Means โดย Carlos Guestrin จากมหาวิทยาลัย Carnegie Mellon

ข้อเสียของ K-means

k ต้องเลือกด้วยตนเอง

ผลลัพธ์ขึ้นอยู่กับค่าเริ่มต้น

สำหรับ kต่ำ คุณสามารถลดความซับซ้อนนี้ได้โดยเรียกใช้ K-Means หลายครั้งโดยใช้ค่าเริ่มต้นที่แตกต่างกัน แล้วเลือกผลลัพธ์ที่ดีที่สุด เมื่อ k เพิ่มขึ้น คุณต้องใช้การเริ่มต้นด้วย K-means เพื่อเลือกจุดศูนย์กลางเริ่มต้นที่ดีกว่า โปรดดูการอภิปรายทั้งหมดเกี่ยวกับการเริ่มต้นด้วย K-means ได้ที่"การศึกษาเปรียบเทียบวิธีการเริ่มต้นที่มีประสิทธิภาพสำหรับอัลกอริทึมการจัดกลุ่มแบบ K-means" โดย M. Emre Celebi, Hassan A. Kingravi และ Patricio A. Vela

ความยากในการคลัสเตอร์ข้อมูลที่มีขนาดและความหนาแน่นแตกต่างกันโดยไม่ใช้การทั่วไป

ความยากในการจัดกลุ่มค่าที่ผิดปกติ

ค่าศูนย์กลางอาจถูกลากโดยค่าผิดปกติ หรือค่าผิดปกติอาจได้รับคลัสเตอร์ของตนเองแทนที่จะถูกละเว้น ลองนําค่าที่ผิดปกติออกหรือตัดออกก่อนจัดกลุ่ม

ปรับขนาดได้ยากเมื่อเพิ่มจํานวนมิติข้อมูล

เมื่อจำนวนมิติข้อมูลในข้อมูลเพิ่มขึ้น การวัดความคล้ายคลึงตามระยะทางจะเข้าใกล้ค่าคงที่ระหว่างตัวอย่างที่ระบุ ลดมิติข้อมูลโดยใช้ PCA ในข้อมูลฟีเจอร์ หรือใช้การจัดกลุ่มตามสเปกตรัมเพื่อแก้ไขอัลกอริทึมการจัดกลุ่ม

ข้อจำกัดของมิติข้อมูลและการคลัสเตอร์ตามสเปกตรัม

ในผังทั้ง 3 นี้ โปรดสังเกตว่าเมื่อมิติข้อมูลเพิ่มขึ้น ค่าความเบี่ยงเบนมาตรฐานของระยะทางระหว่างตัวอย่างจะลดลงเมื่อเทียบกับระยะทางเฉลี่ยระหว่างตัวอย่าง การบรรจบนี้หมายความว่า K-Means จะมีประสิทธิภาพในการแยกแยะตัวอย่างน้อยลงเมื่อมิติข้อมูลของข้อมูลเพิ่มขึ้น ปัญหานี้เรียกว่าข้อจำกัดของมิติข้อมูล

ผัง 3 รายการที่แสดงว่าค่าเบี่ยงเบนมาตรฐานของระยะทางระหว่างตัวอย่างลดลงอย่างไรเมื่อจํานวนมิติข้อมูลเพิ่มขึ้น
รูปที่ 3: การสาธิตข้อจำกัดของมิติข้อมูล ผังแต่ละผังแสดงระยะทางคู่ระหว่างจุดสุ่ม 200 จุด

คุณหลีกเลี่ยงการลดลงของประสิทธิภาพนี้ได้โดยใช้การจัดกลุ่มตามสเปกตรัม ซึ่งจะเพิ่มขั้นตอนการจัดกลุ่มก่อนการรวมกลุ่มลงในอัลกอริทึม วิธีทําการคลัสเตอร์ตามสเปกตรัม

  1. ลดมิติข้อมูลของข้อมูลฟีเจอร์โดยใช้ PCA
  2. โปรเจ็กต์จุดข้อมูลทั้งหมดไปยังพาร์ทเนอร์ย่อยที่มีมิติข้อมูลต่ำกว่า
  3. จัดกลุ่มข้อมูลในเซสชันย่อยนี้โดยใช้อัลกอริทึมที่เลือก

ดูข้อมูลเพิ่มเติมเกี่ยวกับการจัดกลุ่มเชิงสเปกตรัมได้จากบทแนะนำการจัดกลุ่มเชิงสเปกตรัม โดย Ulrike von Luxburg