การประเมินผลลัพธ์

เนื่องจากคลัสเตอร์ไม่มีการควบคุมดูแล จึงไม่มี ข้อมูลที่เป็นความจริงพร้อมให้ยืนยัน รายการ การไม่มีอยู่จริงทำให้การประเมินคุณภาพมีความซับซ้อน นอกจากนี้ ชุดข้อมูลในชีวิตจริงมักจะไม่มีกลุ่มตัวอย่างที่เห็นได้ชัดเหมือนใน ที่แสดงในรูปที่ 1

วันที่ กราฟแสดงกลุ่มจุดข้อมูลที่ชัดเจน 3 กลุ่ม
รูปที่ 1: พล็อตข้อมูลในอุดมคติ ข้อมูลการใช้งานจริงแทบจะไม่มีลักษณะดังนี้

แต่ข้อมูลในโลกแห่งความเป็นจริงมักจะดูเหมือนรูปที่ 2 ซึ่งทำให้ยากต่อ ประเมินคุณภาพของคลัสเตอร์ด้วยสายตา

วันที่ กราฟที่มีจุดข้อมูลแบบสุ่ม
รูปที่ 2: พล็อตข้อมูลที่สมจริงมากขึ้น

แต่ก็มีการเรียนรู้และแนวทางปฏิบัติแนะนำที่คุณนำไปใช้ซ้ำได้ เพื่อปรับปรุงคุณภาพของการจัดกลุ่ม โฟลว์ชาร์ตต่อไปนี้แสดง ภาพรวมของวิธีประเมินผลการจัดกลุ่ม เราจะขยายความ ครั้งแรก

วันที่ ภาพโฟลว์ชาร์ตของขั้นตอนการยืนยัน
คลิกที่นี่เพื่อดูแผนภูมิขนาดใหญ่ขึ้น

ขั้นตอนที่ 1: ประเมินคุณภาพของคลัสเตอร์

ก่อนอื่นให้ตรวจสอบว่าคลัสเตอร์มีลักษณะตามที่คุณคาดหวังไว้และตัวอย่างที่คุณ ถือว่าคล้ายคลึงกันปรากฏในคลัสเตอร์เดียวกัน

จากนั้นตรวจสอบเมตริกที่ใช้กันโดยทั่วไปเหล่านี้ (เป็นเพียงรายการโดยสังเขป)

  • คลัสเตอร์ Cardinality
  • ขนาดของคลัสเตอร์
  • ประสิทธิภาพที่เกิดขึ้นภายหลัง

คลัสเตอร์ Cardinality

คลัสเตอร์ Cardinality คือจํานวนตัวอย่างต่อคลัสเตอร์ พล็อต Cardinality ของคลัสเตอร์ทั้งหมดและตรวจสอบคลัสเตอร์ที่ ถือเป็นความแตกต่างที่สำคัญ ในรูปที่ 2 คลัสเตอร์นี้จะเป็นคลัสเตอร์ที่ 5

วันที่ แผนภูมิแท่งแสดง Cardinality
ของคลัสเตอร์ต่างๆ คลัสเตอร์ 5 มีขนาดเล็กกว่าคลัสเตอร์ที่เหลือ
ภาพที่ 2: จำนวนสมาชิกในเซ็ตของหลายคลัสเตอร์

ขนาดของคลัสเตอร์

ขนาดของคลัสเตอร์คือผลรวมของระยะทางจากตัวอย่างทั้งหมดในคลัสเตอร์ ไปยังเซนทรอยด์ของคลัสเตอร์ พล็อตขนาดของคลัสเตอร์สำหรับคลัสเตอร์ทั้งหมดและ ตรวจสอบข้อผิดพลาด ในรูปที่ 3 คลัสเตอร์ 0 เป็นค่าผิดปกติ

ลองพิจารณาระยะทางสูงสุดหรือเฉลี่ยของตัวอย่างด้วย จากเซนทรอยด์ ทีละกลุ่ม เพื่อหาค่าผิดปกติ

วันที่ แผนภูมิแท่งแสดงขนาดของ
          ได้หลายคลัสเตอร์ คลัสเตอร์ 0 มีขนาดใหญ่กว่าคลัสเตอร์อื่นๆ มาก
รูปที่ 3: ขนาดของคลัสเตอร์หลายคลัสเตอร์

ค่าแมกนิจูดเทียบกับจำนวนสมาชิกในเซ็ต

คุณอาจสังเกตเห็นว่าคลัสเตอร์ที่มีคาร์ดินัลลิตี้สูงนั้นสอดคล้องกับ ขนาดของคลัสเตอร์ ซึ่งดูเข้าใจง่าย เนื่องจากยิ่งมีจุด คลัสเตอร์ (Cardinality) ก็จะยิ่งมีผลรวมที่เป็นไปได้ของระยะทางของเมตริกเหล่านั้นมากขึ้น จุดจากจุดศูนย์กลาง (ขนาด) คุณยังสามารถระบุกลุ่มที่มีความผิดปกติ โดยค้นหาความสัมพันธ์ระหว่าง Cardinality และขนาดนี้ แตกต่างจากคลัสเตอร์อื่นๆ อย่างมาก ในรูปที่ 4 การปรับเส้นให้เป็น พล็อต Cardinality และขนาดบ่งชี้ว่าคลัสเตอร์ 0 มีความผิดปกติ (คลัสเตอร์ 5 จะอยู่ไกลจากบรรทัดเช่นกัน แต่หากละเว้นคลัสเตอร์ 0 คลัสเตอร์ เส้นที่เหมาะสมจะใกล้เคียงกับคลัสเตอร์ 5 มาก)

วันที่ แผนภูมิกระจาย
          จำนวนสมาชิกในเซ็ตเทียบกับขนาดของกลุ่มหลายคลัสเตอร์ หนึ่ง
          คลัสเตอร์เป็นค่า Outlier บนพล็อต
รูปที่ 4: Cardinality เทียบกับขนาดของคลัสเตอร์ที่แสดงก่อนหน้านี้

ประสิทธิภาพที่เกิดขึ้นภายหลัง

เนื่องจากเอาต์พุตคลัสเตอร์มักใช้ในระบบ ML ดาวน์สตรีม โปรดดู ประสิทธิภาพของโมเดลดาวน์สตรีมจะดีขึ้นเมื่อกระบวนการคลัสเตอร์เปลี่ยนไป วิธีนี้จะเป็นการประเมินคุณภาพของผลลัพธ์การจัดกลุ่มในโลกแห่งความเป็นจริง แม้การทดสอบประเภทนี้อาจมีความซับซ้อนและใช้ต้นทุนสูง

ขั้นตอนที่ 2: ประเมินการวัดความคล้ายคลึงกันอีกครั้ง

อัลกอริทึมการจัดกลุ่มจะดีพอๆ กับการวัดความคล้ายคลึงกันของคุณ ตรวจสอบว่า การวัดความคล้ายคลึงกันให้ผลลัพธ์ที่สมเหตุสมผล การตรวจสอบอย่างรวดเร็วคือ ระบุคู่ตัวอย่างที่ทราบว่าคล้ายคลึงกันมากหรือน้อยกว่านี้ คำนวณค่า วัดความคล้ายคลึงกันสำหรับตัวอย่างแต่ละคู่ และเปรียบเทียบผลลัพธ์กับ ความรู้ของคุณ: คู่ตัวอย่างที่คล้ายกันควรมีความคล้ายคลึงกันสูงกว่านี้ วัดมากกว่าคู่ตัวอย่างที่ไม่คล้ายคลึงกัน

ตัวอย่างที่คุณใช้ตรวจสอบการวัดความคล้ายคลึงกันควรเป็น แทนชุดข้อมูล คุณจึงมั่นใจได้ว่า วัดการคงไว้ชั่วคราวสำหรับตัวอย่างทั้งหมดของคุณ ประสิทธิภาพของ ความคล้ายคลึงกัน ไม่ว่าจะเป็นการวัดด้วยตนเองหรือภายใต้การควบคุมดูแล จะต้องมีความสอดคล้องสอดคล้องกันกับ ชุดข้อมูล หากมาตรวัดความคล้ายคลึงกันของบางตัวอย่างไม่สอดคล้องกัน ตัวอย่างจะไม่จัดอยู่ในกลุ่มตัวอย่างที่คล้ายกัน

หากคุณพบตัวอย่างที่มีคะแนนความคล้ายคลึงกันไม่ถูกต้อง ความคล้ายคลึงกันของคุณ การวัดอาจไม่ได้เก็บข้อมูลคุณลักษณะที่แยกความแตกต่างของข้อความเหล่านั้นอย่างครบถ้วน ตัวอย่าง ทดสอบโดยใช้การวัดความคล้ายคลึงกันจนกว่าจะให้ผลลัพธ์มากขึ้น ผลลัพธ์ที่แม่นยำและสม่ำเสมอ

ขั้นตอนที่ 3: หาจำนวนคลัสเตอร์ที่เหมาะสมที่สุด

k-means กำหนดให้คุณต้องเลือกจำนวนคลัสเตอร์ \(k\) ล่วงหน้า คุณจะรู้ได้อย่างไร แล้วกำหนด \(k\)ที่เหมาะสมที่สุด ลองเรียกใช้อัลกอริทึมด้วย ค่าของ \(k\) ที่เพิ่มขึ้นและบันทึกผลรวมของขนาดของคลัสเตอร์ทั้งหมด อาส \(k\) เพิ่มขึ้น คลัสเตอร์มีขนาดเล็กลง และระยะทางรวมของจุด จากเซนทรอยด์ลดลง เราสามารถถือว่าระยะทางทั้งหมดนี้เป็นการสูญเสีย วาดระยะทางนี้เทียบกับจำนวนคลัสเตอร์

ดังที่แสดงในรูปที่ 5 เหนือ \(k\)การลดการสูญเสียจะกลายเป็น เพิ่มขึ้นอย่างมาก \(k\)ลองใช้ \(k\) โดยที่ความชันในที่แรกมีการเปลี่ยนแปลงอย่างมาก ซึ่งเรียกว่า elbow Method สำหรับ แผนภาพที่แสดง จำนวนที่ดีที่สุด \(k\) คือประมาณ 11 ถ้าต้องการแบบละเอียดยิ่งขึ้น คุณสามารถเลือกคลัสเตอร์ที่สูงขึ้น \(k\)โดยดูจากแผนผังนี้

วันที่ กราฟแสดงการขาดทุน
เทียบกับคลัสเตอร์ที่ใช้ การสูญเสียลดลงเมื่อจำนวนคลัสเตอร์เพิ่มขึ้นจนถึง
อยู่ที่ระดับประมาณ 10 กลุ่ม
รูปที่ 5: การสูญเสียเทียบกับจำนวนคลัสเตอร์

คำถามเกี่ยวกับการแก้ปัญหา

หากพบปัญหาในระหว่างการประเมิน ให้ประเมินข้อมูลอีกครั้ง ขั้นตอนการเตรียมการและการวัดความคล้ายคลึงกันที่เลือก คำถาม:

  • ข้อมูลของคุณมีการปรับขนาดอย่างเหมาะสมหรือไม่
  • หน่วยวัดความคล้ายคลึงของคุณถูกต้องไหม
  • อัลกอริทึมของคุณดําเนินการกับข้อมูลที่มีความหมายหรือไม่
  • สมมติฐานของอัลกอริทึมตรงกับข้อมูลหรือไม่