สมมติว่าคุณกำลังทำงานกับชุดข้อมูลที่มีข้อมูลผู้ป่วยจาก ระบบสาธารณสุข ชุดข้อมูลมีความซับซ้อนและมีทั้งเชิงหมวดหมู่และ คุณลักษณะที่เป็นตัวเลข คุณต้องการหารูปแบบและความคล้ายคลึงกันในชุดข้อมูล คุณจะดำเนินงานนี้อย่างไร
การจัดกลุ่มเป็นการดำเนินการที่ไม่มีการควบคุมดูแล เทคนิคแมชชีนเลิร์นนิงที่ออกแบบมาเพื่อจัดกลุ่ม ตัวอย่างที่ไม่มีป้ายกำกับ โดยพิจารณาจากความคล้ายคลึงกัน (หากมีป้ายกำกับตัวอย่าง คือ การจัดกลุ่มเรียกว่า classification) พิจารณาผู้ป่วยสมมติ ที่ออกแบบมาเพื่อประเมินโปรโตคอลการรักษาใหม่ ระหว่างการศึกษาวิจัย ผู้ป่วย รายงานจำนวนครั้งต่อสัปดาห์ที่มีอาการ และความรุนแรงของ อาการ นักวิจัยสามารถใช้การวิเคราะห์คลัสเตอร์เพื่อจัดกลุ่มผู้ป่วยที่มีอาการ การตอบสนองในการรักษาเป็นกลุ่ม รูปที่ 1 แสดงการจัดกลุ่มที่เป็นไปได้ ข้อมูลจำลองลงใน 3 คลัสเตอร์
เมื่อดูข้อมูลที่ไม่มีป้ายกำกับทางด้านซ้ายของรูปที่ 1 คุณอาจเดาได้ว่า ข้อมูลดังกล่าวทำให้เกิด 3 คลัสเตอร์ แม้ว่าจะไม่มีคำจำกัดความอย่างเป็นทางการของความคล้ายคลึงกัน ระหว่างจุดข้อมูล อย่างไรก็ตาม ในการใช้งานจริง คุณต้อง กําหนดการวัดความคล้ายคลึงกันหรือเมตริกที่ใช้ในการเปรียบเทียบตัวอย่างใน คำศัพท์ของฟีเจอร์ของชุดข้อมูล เมื่อตัวอย่างมีเพียง 2 ฟีเจอร์ การแสดงผลและการวัดความคล้ายคลึงกันนั้นทำได้ง่าย แต่เมื่อจำนวน เพิ่มการใช้งาน รวมและเปรียบเทียบฟีเจอร์ต่างๆ ได้ง่ายขึ้น และมีความซับซ้อนมากขึ้น การวัดความคล้ายคลึงที่แตกต่างกันอาจมีความเหมาะสมมากกว่าหรือน้อยกว่า สำหรับสถานการณ์คลัสเตอร์ต่างๆ และหลักสูตรนี้จะจัดการกับการเลือก วิธีวัดความคล้ายคลึงกันที่เหมาะสมในส่วนต่อๆ ไป การวัดความคล้ายคลึงกันที่กำหนดเอง และ การวัดความคล้ายคลึงจากการฝัง
หลังจากคลัสเตอร์แล้ว แต่ละกลุ่มจะได้รับป้ายกำกับที่ไม่ซ้ำกันซึ่งเรียกว่ารหัสคลัสเตอร์ การจัดกลุ่มมีประสิทธิภาพเพราะสามารถลดความซับซ้อนของชุดข้อมูลขนาดใหญ่และซับซ้อนได้ด้วย หลายฟีเจอร์ให้กับรหัสคลัสเตอร์เดียวได้
กรณีการใช้งานแบบคลัสเตอร์
การจัดกลุ่มมีประโยชน์ในหลากหลายอุตสาหกรรม แอปพลิเคชันทั่วไปบางรายการ สำหรับการจัดกลุ่ม:
- การแบ่งกลุ่มตลาด
- การวิเคราะห์โซเชียลเน็ตเวิร์ก
- การจัดกลุ่มผลการค้นหา
- การถ่ายภาพทางการแพทย์
- การแบ่งกลุ่มรูปภาพ
- การตรวจจับความผิดปกติ
ตัวอย่างบางส่วนของการจัดคลัสเตอร์มีดังนี้
- แผนภาพ Hertzsprung-Russell แสดงกลุ่มดวงดาวเมื่อพล็อตตามความสว่างและอุณหภูมิ
- การจัดลำดับยีนที่แสดงความคล้ายคลึงกันทางพันธุกรรมและ ความไม่คล้ายคลึงระหว่างสปีชีส์ทำให้มีการปรับเปลี่ยนการจัดหมวดหมู่ ก่อนหน้านี้อิงตามการปรากฏตัว
- Big 5 รูปแบบของลักษณะบุคลิกภาพได้รับการพัฒนาขึ้นด้วยการจับกลุ่มคำต่างๆ ที่ อธิบายบุคลิกภาพเป็น 5 กลุ่ม เฮกซาโก โมเดลใช้ 6 คลัสเตอร์แทน 5
การคาดเดา
หากตัวอย่างในคลัสเตอร์ไม่มีข้อมูลฟีเจอร์ คุณอาจอนุมาน ไม่มีข้อมูลจากตัวอย่างอื่นๆ ในคลัสเตอร์ ซึ่งเรียกว่า การคำนวณ เช่น วิดีโอที่ได้รับความนิยมน้อยกว่าอาจจัดอยู่ในกลุ่มวิดีโอที่ได้รับความนิยมมากกว่า เพื่อปรับปรุงการแนะนำวิดีโอ
การบีบอัดข้อมูล
ดังที่ได้กล่าวไว้ รหัสคลัสเตอร์ที่เกี่ยวข้องอาจใช้แทนฟีเจอร์อื่นๆ ของ ตัวอย่างในคลัสเตอร์ดังกล่าว การแทนนี้จะลดจำนวนฟีเจอร์และ ดังนั้นจึงช่วยลดทรัพยากรที่จำเป็นในการจัดเก็บ ประมวลผล และฝึกโมเดลด้วย เกี่ยวกับข้อมูลนั้น สำหรับชุดข้อมูลขนาดใหญ่มาก การประหยัดค่าใช้จ่ายนี้จะมีความสำคัญ
ตัวอย่างเช่น วิดีโอ YouTube 1 รายการอาจมีข้อมูลฟีเจอร์ดังนี้
- ตำแหน่ง เวลา และข้อมูลประชากรของผู้ชม
- การประทับเวลา ข้อความ และรหัสผู้ใช้ของความคิดเห็น
- แท็กวิดีโอ
กลุ่มวิดีโอ YouTube จะแทนที่ชุดฟีเจอร์นี้ด้วย รหัสคลัสเตอร์เดียว ซึ่งจะบีบอัดข้อมูล
การรักษาความเป็นส่วนตัว
คุณรักษาความเป็นส่วนตัวได้บางส่วนด้วยการจัดกลุ่มผู้ใช้และเชื่อมโยงข้อมูลผู้ใช้ ด้วยรหัสคลัสเตอร์แทน User-ID สมมติว่าต้องการยกตัวอย่าง เพื่อฝึกโมเดลกับผู้ใช้ YouTube ประวัติการดู แทนการส่ง User-ID คุณอาจคลัสเตอร์ผู้ใช้และส่งต่อเฉพาะรหัสคลัสเตอร์ไปยังโมเดลได้ ช่วงเวลานี้ ไม่แนบประวัติการดูของผู้ใช้แต่ละราย หมายเหตุ คลัสเตอร์ต้องมีผู้ใช้จำนวนมากพอจึงจะดำเนินการ รักษาความเป็นส่วนตัว