คลัสเตอร์คืออะไร

สมมติว่าคุณกำลังทำงานกับชุดข้อมูลที่มีข้อมูลผู้ป่วยจาก ระบบสาธารณสุข ชุดข้อมูลมีความซับซ้อนและมีทั้งเชิงหมวดหมู่และ คุณลักษณะที่เป็นตัวเลข คุณต้องการหารูปแบบและความคล้ายคลึงกันในชุดข้อมูล คุณจะดำเนินงานนี้อย่างไร

การจัดกลุ่มเป็นการดำเนินการที่ไม่มีการควบคุมดูแล เทคนิคแมชชีนเลิร์นนิงที่ออกแบบมาเพื่อจัดกลุ่ม ตัวอย่างที่ไม่มีป้ายกำกับ โดยพิจารณาจากความคล้ายคลึงกัน (หากมีป้ายกำกับตัวอย่าง คือ การจัดกลุ่มเรียกว่า classification) พิจารณาผู้ป่วยสมมติ ที่ออกแบบมาเพื่อประเมินโปรโตคอลการรักษาใหม่ ระหว่างการศึกษาวิจัย ผู้ป่วย รายงานจำนวนครั้งต่อสัปดาห์ที่มีอาการ และความรุนแรงของ อาการ นักวิจัยสามารถใช้การวิเคราะห์คลัสเตอร์เพื่อจัดกลุ่มผู้ป่วยที่มีอาการ การตอบสนองในการรักษาเป็นกลุ่ม รูปที่ 1 แสดงการจัดกลุ่มที่เป็นไปได้ ข้อมูลจำลองลงใน 3 คลัสเตอร์

วันที่ ทางด้านซ้ายจะเป็นกราฟความรุนแรงของอาการเทียบกับจำนวนอาการ
   แสดงจุดข้อมูลที่แนะนำ 3 คลัสเตอร์
   ทางด้านขวาเป็นกราฟเดียวกัน แต่แต่ละกลุ่มสีทั้ง 3 กลุ่ม
รูปที่ 1: ตัวอย่างที่ไม่มีป้ายกำกับซึ่งจัดกลุ่มเป็น 3 คลัสเตอร์ (ข้อมูลจำลอง)

เมื่อดูข้อมูลที่ไม่มีป้ายกำกับทางด้านซ้ายของรูปที่ 1 คุณอาจเดาได้ว่า ข้อมูลดังกล่าวทำให้เกิด 3 คลัสเตอร์ แม้ว่าจะไม่มีคำจำกัดความอย่างเป็นทางการของความคล้ายคลึงกัน ระหว่างจุดข้อมูล อย่างไรก็ตาม ในการใช้งานจริง คุณต้อง กําหนดการวัดความคล้ายคลึงกันหรือเมตริกที่ใช้ในการเปรียบเทียบตัวอย่างใน คำศัพท์ของฟีเจอร์ของชุดข้อมูล เมื่อตัวอย่างมีเพียง 2 ฟีเจอร์ การแสดงผลและการวัดความคล้ายคลึงกันนั้นทำได้ง่าย แต่เมื่อจำนวน เพิ่มการใช้งาน รวมและเปรียบเทียบฟีเจอร์ต่างๆ ได้ง่ายขึ้น และมีความซับซ้อนมากขึ้น การวัดความคล้ายคลึงที่แตกต่างกันอาจมีความเหมาะสมมากกว่าหรือน้อยกว่า สำหรับสถานการณ์คลัสเตอร์ต่างๆ และหลักสูตรนี้จะจัดการกับการเลือก วิธีวัดความคล้ายคลึงกันที่เหมาะสมในส่วนต่อๆ ไป การวัดความคล้ายคลึงกันที่กำหนดเอง และ การวัดความคล้ายคลึงจากการฝัง

หลังจากคลัสเตอร์แล้ว แต่ละกลุ่มจะได้รับป้ายกำกับที่ไม่ซ้ำกันซึ่งเรียกว่ารหัสคลัสเตอร์ การจัดกลุ่มมีประสิทธิภาพเพราะสามารถลดความซับซ้อนของชุดข้อมูลขนาดใหญ่และซับซ้อนได้ด้วย หลายฟีเจอร์ให้กับรหัสคลัสเตอร์เดียวได้

กรณีการใช้งานแบบคลัสเตอร์

การจัดกลุ่มมีประโยชน์ในหลากหลายอุตสาหกรรม แอปพลิเคชันทั่วไปบางรายการ สำหรับการจัดกลุ่ม:

  • การแบ่งกลุ่มตลาด
  • การวิเคราะห์โซเชียลเน็ตเวิร์ก
  • การจัดกลุ่มผลการค้นหา
  • การถ่ายภาพทางการแพทย์
  • การแบ่งกลุ่มรูปภาพ
  • การตรวจจับความผิดปกติ

ตัวอย่างบางส่วนของการจัดคลัสเตอร์มีดังนี้

  • แผนภาพ Hertzsprung-Russell แสดงกลุ่มดวงดาวเมื่อพล็อตตามความสว่างและอุณหภูมิ
  • การจัดลำดับยีนที่แสดงความคล้ายคลึงกันทางพันธุกรรมและ ความไม่คล้ายคลึงระหว่างสปีชีส์ทำให้มีการปรับเปลี่ยนการจัดหมวดหมู่ ก่อนหน้านี้อิงตามการปรากฏตัว
  • Big 5 รูปแบบของลักษณะบุคลิกภาพได้รับการพัฒนาขึ้นด้วยการจับกลุ่มคำต่างๆ ที่ อธิบายบุคลิกภาพเป็น 5 กลุ่ม เฮกซาโก โมเดลใช้ 6 คลัสเตอร์แทน 5

การคาดเดา

หากตัวอย่างในคลัสเตอร์ไม่มีข้อมูลฟีเจอร์ คุณอาจอนุมาน ไม่มีข้อมูลจากตัวอย่างอื่นๆ ในคลัสเตอร์ ซึ่งเรียกว่า การคำนวณ เช่น วิดีโอที่ได้รับความนิยมน้อยกว่าอาจจัดอยู่ในกลุ่มวิดีโอที่ได้รับความนิยมมากกว่า เพื่อปรับปรุงการแนะนำวิดีโอ

การบีบอัดข้อมูล

ดังที่ได้กล่าวไว้ รหัสคลัสเตอร์ที่เกี่ยวข้องอาจใช้แทนฟีเจอร์อื่นๆ ของ ตัวอย่างในคลัสเตอร์ดังกล่าว การแทนนี้จะลดจำนวนฟีเจอร์และ ดังนั้นจึงช่วยลดทรัพยากรที่จำเป็นในการจัดเก็บ ประมวลผล และฝึกโมเดลด้วย เกี่ยวกับข้อมูลนั้น สำหรับชุดข้อมูลขนาดใหญ่มาก การประหยัดค่าใช้จ่ายนี้จะมีความสำคัญ

ตัวอย่างเช่น วิดีโอ YouTube 1 รายการอาจมีข้อมูลฟีเจอร์ดังนี้

  • ตำแหน่ง เวลา และข้อมูลประชากรของผู้ชม
  • การประทับเวลา ข้อความ และรหัสผู้ใช้ของความคิดเห็น
  • แท็กวิดีโอ

กลุ่มวิดีโอ YouTube จะแทนที่ชุดฟีเจอร์นี้ด้วย รหัสคลัสเตอร์เดียว ซึ่งจะบีบอัดข้อมูล

การรักษาความเป็นส่วนตัว

คุณรักษาความเป็นส่วนตัวได้บางส่วนด้วยการจัดกลุ่มผู้ใช้และเชื่อมโยงข้อมูลผู้ใช้ ด้วยรหัสคลัสเตอร์แทน User-ID สมมติว่าต้องการยกตัวอย่าง เพื่อฝึกโมเดลกับผู้ใช้ YouTube ประวัติการดู แทนการส่ง User-ID คุณอาจคลัสเตอร์ผู้ใช้และส่งต่อเฉพาะรหัสคลัสเตอร์ไปยังโมเดลได้ ช่วงเวลานี้ ไม่แนบประวัติการดูของผู้ใช้แต่ละราย หมายเหตุ คลัสเตอร์ต้องมีผู้ใช้จำนวนมากพอจึงจะดำเนินการ รักษาความเป็นส่วนตัว