เนื่องจากคลัสเตอร์ไม่มีการควบคุมดูแล จึงไม่มี ข้อมูลที่เป็นความจริงพร้อมให้ยืนยัน รายการ การไม่มีอยู่จริงทำให้การประเมินคุณภาพมีความซับซ้อน นอกจากนี้ ชุดข้อมูลในชีวิตจริงมักจะไม่มีกลุ่มตัวอย่างที่เห็นได้ชัดเหมือนใน ที่แสดงในรูปที่ 1
แต่ข้อมูลในโลกแห่งความเป็นจริงมักจะดูเหมือนรูปที่ 2 ซึ่งทำให้ยากต่อ ประเมินคุณภาพของคลัสเตอร์ด้วยสายตา
แต่ก็มีการเรียนรู้และแนวทางปฏิบัติแนะนำที่คุณนำไปใช้ซ้ำได้ เพื่อปรับปรุงคุณภาพของการจัดกลุ่ม โฟลว์ชาร์ตต่อไปนี้แสดง ภาพรวมของวิธีประเมินผลการจัดกลุ่ม เราจะขยายความ ครั้งแรก
ขั้นตอนที่ 1: ประเมินคุณภาพของคลัสเตอร์
ก่อนอื่นให้ตรวจสอบว่าคลัสเตอร์มีลักษณะตามที่คุณคาดหวังไว้และตัวอย่างที่คุณ ถือว่าคล้ายคลึงกันปรากฏในคลัสเตอร์เดียวกัน
จากนั้นตรวจสอบเมตริกที่ใช้กันโดยทั่วไปเหล่านี้ (เป็นเพียงรายการโดยสังเขป)
- คลัสเตอร์ Cardinality
- ขนาดของคลัสเตอร์
- ประสิทธิภาพที่เกิดขึ้นภายหลัง
คลัสเตอร์ Cardinality
คลัสเตอร์ Cardinality คือจํานวนตัวอย่างต่อคลัสเตอร์ พล็อต Cardinality ของคลัสเตอร์ทั้งหมดและตรวจสอบคลัสเตอร์ที่ ถือเป็นความแตกต่างที่สำคัญ ในรูปที่ 2 คลัสเตอร์นี้จะเป็นคลัสเตอร์ที่ 5
ขนาดของคลัสเตอร์
ขนาดของคลัสเตอร์คือผลรวมของระยะทางจากตัวอย่างทั้งหมดในคลัสเตอร์ ไปยังเซนทรอยด์ของคลัสเตอร์ พล็อตขนาดของคลัสเตอร์สำหรับคลัสเตอร์ทั้งหมดและ ตรวจสอบข้อผิดพลาด ในรูปที่ 3 คลัสเตอร์ 0 เป็นค่าผิดปกติ
ลองพิจารณาระยะทางสูงสุดหรือเฉลี่ยของตัวอย่างด้วย จากเซนทรอยด์ ทีละกลุ่ม เพื่อหาค่าผิดปกติ
ค่าแมกนิจูดเทียบกับจำนวนสมาชิกในเซ็ต
คุณอาจสังเกตเห็นว่าคลัสเตอร์ที่มีคาร์ดินัลลิตี้สูงนั้นสอดคล้องกับ ขนาดของคลัสเตอร์ ซึ่งดูเข้าใจง่าย เนื่องจากยิ่งมีจุด คลัสเตอร์ (Cardinality) ก็จะยิ่งมีผลรวมที่เป็นไปได้ของระยะทางของเมตริกเหล่านั้นมากขึ้น จุดจากจุดศูนย์กลาง (ขนาด) คุณยังสามารถระบุกลุ่มที่มีความผิดปกติ โดยค้นหาความสัมพันธ์ระหว่าง Cardinality และขนาดนี้ แตกต่างจากคลัสเตอร์อื่นๆ อย่างมาก ในรูปที่ 4 การปรับเส้นให้เป็น พล็อต Cardinality และขนาดบ่งชี้ว่าคลัสเตอร์ 0 มีความผิดปกติ (คลัสเตอร์ 5 จะอยู่ไกลจากบรรทัดเช่นกัน แต่หากละเว้นคลัสเตอร์ 0 คลัสเตอร์ เส้นที่เหมาะสมจะใกล้เคียงกับคลัสเตอร์ 5 มาก)
ประสิทธิภาพที่เกิดขึ้นภายหลัง
เนื่องจากเอาต์พุตคลัสเตอร์มักใช้ในระบบ ML ดาวน์สตรีม โปรดดู ประสิทธิภาพของโมเดลดาวน์สตรีมจะดีขึ้นเมื่อกระบวนการคลัสเตอร์เปลี่ยนไป วิธีนี้จะเป็นการประเมินคุณภาพของผลลัพธ์การจัดกลุ่มในโลกแห่งความเป็นจริง แม้การทดสอบประเภทนี้อาจมีความซับซ้อนและใช้ต้นทุนสูง
ขั้นตอนที่ 2: ประเมินการวัดความคล้ายคลึงกันอีกครั้ง
อัลกอริทึมการจัดกลุ่มจะดีพอๆ กับการวัดความคล้ายคลึงกันของคุณ ตรวจสอบว่า การวัดความคล้ายคลึงกันให้ผลลัพธ์ที่สมเหตุสมผล การตรวจสอบอย่างรวดเร็วคือ ระบุคู่ตัวอย่างที่ทราบว่าคล้ายคลึงกันมากหรือน้อยกว่านี้ คำนวณค่า วัดความคล้ายคลึงกันสำหรับตัวอย่างแต่ละคู่ และเปรียบเทียบผลลัพธ์กับ ความรู้ของคุณ: คู่ตัวอย่างที่คล้ายกันควรมีความคล้ายคลึงกันสูงกว่านี้ วัดมากกว่าคู่ตัวอย่างที่ไม่คล้ายคลึงกัน
ตัวอย่างที่คุณใช้ตรวจสอบการวัดความคล้ายคลึงกันควรเป็น แทนชุดข้อมูล คุณจึงมั่นใจได้ว่า วัดการคงไว้ชั่วคราวสำหรับตัวอย่างทั้งหมดของคุณ ประสิทธิภาพของ ความคล้ายคลึงกัน ไม่ว่าจะเป็นการวัดด้วยตนเองหรือภายใต้การควบคุมดูแล จะต้องมีความสอดคล้องสอดคล้องกันกับ ชุดข้อมูล หากมาตรวัดความคล้ายคลึงกันของบางตัวอย่างไม่สอดคล้องกัน ตัวอย่างจะไม่จัดอยู่ในกลุ่มตัวอย่างที่คล้ายกัน
หากคุณพบตัวอย่างที่มีคะแนนความคล้ายคลึงกันไม่ถูกต้อง ความคล้ายคลึงกันของคุณ การวัดอาจไม่ได้เก็บข้อมูลคุณลักษณะที่แยกความแตกต่างของข้อความเหล่านั้นอย่างครบถ้วน ตัวอย่าง ทดสอบโดยใช้การวัดความคล้ายคลึงกันจนกว่าจะให้ผลลัพธ์มากขึ้น ผลลัพธ์ที่แม่นยำและสม่ำเสมอ
ขั้นตอนที่ 3: หาจำนวนคลัสเตอร์ที่เหมาะสมที่สุด
k-means กำหนดให้คุณต้องเลือกจำนวนคลัสเตอร์ \(k\) ล่วงหน้า คุณจะรู้ได้อย่างไร แล้วกำหนด \(k\)ที่เหมาะสมที่สุด ลองเรียกใช้อัลกอริทึมด้วย ค่าของ \(k\) ที่เพิ่มขึ้นและบันทึกผลรวมของขนาดของคลัสเตอร์ทั้งหมด อาส \(k\) เพิ่มขึ้น คลัสเตอร์มีขนาดเล็กลง และระยะทางรวมของจุด จากเซนทรอยด์ลดลง เราสามารถถือว่าระยะทางทั้งหมดนี้เป็นการสูญเสีย วาดระยะทางนี้เทียบกับจำนวนคลัสเตอร์
ดังที่แสดงในรูปที่ 5 เหนือ \(k\)การลดการสูญเสียจะกลายเป็น เพิ่มขึ้นอย่างมาก \(k\)ลองใช้ \(k\) โดยที่ความชันในที่แรกมีการเปลี่ยนแปลงอย่างมาก ซึ่งเรียกว่า elbow Method สำหรับ แผนภาพที่แสดง จำนวนที่ดีที่สุด \(k\) คือประมาณ 11 ถ้าต้องการแบบละเอียดยิ่งขึ้น คุณสามารถเลือกคลัสเตอร์ที่สูงขึ้น \(k\)โดยดูจากแผนผังนี้
คำถามเกี่ยวกับการแก้ปัญหา
หากพบปัญหาในระหว่างการประเมิน ให้ประเมินข้อมูลอีกครั้ง ขั้นตอนการเตรียมการและการวัดความคล้ายคลึงกันที่เลือก คำถาม:
- ข้อมูลของคุณมีการปรับขนาดอย่างเหมาะสมหรือไม่
- หน่วยวัดความคล้ายคลึงของคุณถูกต้องไหม
- อัลกอริทึมของคุณดําเนินการกับข้อมูลที่มีความหมายหรือไม่
- สมมติฐานของอัลกอริทึมตรงกับข้อมูลหรือไม่