หน้านี้มีคำศัพท์ในอภิธานศัพท์สำหรับการจัดกลุ่ม หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การจัดกลุ่มแบบรวมกลุ่ม
C
เซนทรอยด์
จุดศูนย์กลางของคลัสเตอร์ตามที่กำหนดโดยอัลกอริทึม k-means หรือ k-median เช่น ถ้า k คือ 3 อัลกอริทึม k-me หรือ k-มัธยฐาน จะค้นหา 3 เซนทรอยด์
คลัสเตอร์แบบเซนทรอยด์
หมวดหมู่ของอัลกอริทึมการจัดคลัสเตอร์ที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นอัลกอริทึมการจัดคลัสเตอร์แบบเซนทรอยด์ที่ใช้กันมากที่สุด
คอนทราสต์กับการจัดกลุ่มแบบลําดับชั้น
การจัดกลุ่ม
การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในช่วงการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว มนุษย์สามารถเลือกระบุความหมายให้กับแต่ละคลัสเตอร์ได้
มีอัลกอริทึมในการจัดกลุ่มจำนวนมาก เช่น ตัวอย่างคลัสเตอร์อัลกอริทึม k-means โดยอิงตามระยะใกล้กับเซนทรอยด์ ดังที่แสดงในแผนภาพต่อไปนี้
จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ที่ 2 เป็น "ต้นไม้ขนาดเต็ม" เป็นต้น
อีกตัวอย่างหนึ่ง ลองพิจารณาอัลกอริทึมการจัดคลัสเตอร์โดยอิงตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ซึ่งอธิบายดังต่อไปนี้
D
คลัสเตอร์แบบหารลงตัว
ฮิต
การจัดกลุ่มแบบลำดับชั้น
หมวดหมู่ของอัลกอริทึม clustering ที่สร้างโครงสร้างของคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะสำหรับข้อมูลแบบลำดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมคลัสเตอร์แบบลำดับชั้นมี 2 ประเภท ได้แก่
- คลัสเตอร์แบบรวมจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตนเองก่อน แล้วจึงผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ที่มีลำดับชั้น
- การจัดคลัสเตอร์แบบแบ่งส่วนแรกจะจัดกลุ่มตัวอย่างทั้งหมดไว้ในคลัสเตอร์เดียว จากนั้นแบ่งคลัสเตอร์ออกเป็นลำดับชั้นตามลําดับ
คอนทราสต์กับการจัดคลัสเตอร์แบบเซนทรอยด์
K
K-means
อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยพื้นฐานแล้ว อัลกอริทึม k-means จะดำเนินการดังต่อไปนี้:
- กำหนดจุดศูนย์กลางที่ดีที่สุดซ้ำๆ (หรือเรียกว่า centroids)
- กำหนดตัวอย่างแต่ละรายการให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างเหล่านั้นที่อยู่ใกล้เซนทรอยด์เดียวกันมากที่สุดอยู่ในกลุ่มเดียวกัน
อัลกอริทึม k-means จะเลือกตำแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากแต่ละตัวอย่างไปยังเซนทรอยด์ที่ใกล้ที่สุด
ตัวอย่างเช่น ลองพิจารณาแผนผังความสูงสุนัขต่อความกว้างของสุนัขต่อไปนี้
ถ้าเป็น k=3 อัลกอริทึม k-means จะระบุ 3 เซนทรอยด์ ตัวอย่างแต่ละรายการจะได้รับการกำหนดให้กับเซนทรอยด์ที่ใกล้ที่สุด โดยจะแสดงผลเป็น 3 กลุ่มดังนี้
สมมติว่าผู้ผลิตต้องการกำหนดขนาดเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง และความกว้างเฉลี่ยของสุนัขแต่ละตัวในกลุ่มนั้น ผู้ผลิตจึงควรระบุขนาดเสื้อสเวตเตอร์ที่จุดศูนย์กลาง 3 จุด โปรดทราบว่าโดยปกติแล้ว เซนทรอยด์ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์นี้
ภาพประกอบก่อนหน้านี้แสดงค่า k-me สําหรับตัวอย่างที่มีเพียง 2 ลักษณะ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ในหลายคุณลักษณะ
มัธยฐาน K
อัลกอริทึมการจัดกลุ่มมีความเกี่ยวข้องกับ k-means อย่างใกล้ชิด ข้อแตกต่างเชิงปฏิบัติระหว่าง 2 สิ่งนี้มีดังนี้
- ใน k-means เซนทรอยด์จะกำหนดโดยการลดผลรวมของกำลังสองของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่างให้เหลือน้อยที่สุด
- ในค่ามัธยฐาน k เซนทรอยด์จะกำหนดโดยการลดผลรวมของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่าง
โปรดทราบว่าคำจำกัดความของระยะทางก็มีความหมายแตกต่างกันดังนี้
- k-means จะใช้ระยะทางยูคลิดจากเซนทรอยด์เป็นตัวอย่าง (ใน 2 มิติ ระยะทางยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณด้านตรงข้ามมุมฉาก) ตัวอย่างเช่น ระยะห่าง k-me ระหว่าง (2,2) และ (5,-2) จะเป็นดังนี้
- k-median อาศัย ระยะทางในแมนฮัตตันจากเซนทรอยด์เป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล ตัวอย่างเช่น ระยะ k-มัธยฐาน ระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้
S
การวัดความคล้ายคลึงกัน
ในอัลกอริทึม clustering เมตริกที่ใช้ระบุว่าตัวอย่าง 2 ตัวอย่างแตกต่างกันอย่างไร (ความคล้ายคลึงกัน)
การสเก็ตช์ภาพ
ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่ของอัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงกันเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพจะใช้ ฟังก์ชันแฮชที่คำนึงถึงพื้นที่ เพื่อระบุจุดที่มีแนวโน้มคล้ายคลึงกัน จากนั้นจัดกลุ่ม ลงในที่เก็บข้อมูล
การร่างภาพจะลดการคํานวณที่จำเป็นสำหรับการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงกันเฉพาะคะแนนแต่ละคู่ภายในที่เก็บข้อมูลแต่ละชุดแทนการคำนวณความคล้ายคลึงกันสำหรับตัวอย่างทุกคู่ในชุดข้อมูล
T
การวิเคราะห์อนุกรมเวลา
สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาหลายประเภทเกี่ยวกับแมชชีนเลิร์นนิงต้องมีการวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น คุณสามารถใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายในอนาคตของเสื้อโค้ทกันหนาวในแต่ละเดือนตามข้อมูลการขายที่ผ่านมา
U
แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล
การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ
การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น กับบริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่เป็นประโยชน์หรือป้ายกำกับที่มีประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น
ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล