หน้านี้มีคำศัพท์ในอภิธานคลัสเตอร์ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่
A
การแบ่งกลุ่มแบบรวมกลุ่ม
C
เซนทรอยด์
ศูนย์กลางของคลัสเตอร์ที่อัลกอริทึม K-means หรือ K-median กำหนด เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด
ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม
การคลัสเตอร์ตามเซนทรอยด์
หมวดหมู่ของอัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลําดับชั้น K-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายที่สุด
เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น
ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม
การคลัสเตอร์
จัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่างการเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่จะระบุความหมายให้กับแต่ละคลัสเตอร์ได้ (ไม่บังคับ)
อัลกอริทึมการจัดกลุ่มมีอยู่หลายประเภท เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระดับความใกล้เคียงกับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้
จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้
อีกตัวอย่างหนึ่งคืออัลกอริทึมการจัดกลุ่มที่อิงตามระยะห่างจากจุดศูนย์กลางของตัวอย่างดังที่แสดงต่อไปนี้
ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์
D
การจัดคลัสเตอร์แบบแบ่งกลุ่ม
H
การจัดกลุ่มตามลําดับชั้น
หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มตามลําดับชั้นเหมาะสําหรับข้อมูลลําดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่
- การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
- คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ
ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล
ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม
K
K-means
อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้แบบไม่ควบคุม โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทําสิ่งต่อไปนี้
- กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
- กําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้กับจุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน
อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด
ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้
หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้
สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์
ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่างจากฟีเจอร์ต่างๆ ได้
ค่ามัธยฐานแบบ K
อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ K-means อย่างใกล้ชิด ความแตกต่างที่เห็นได้ชัดระหว่าง 2 รูปแบบมีดังนี้
- ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
- ใน K-เมเดียน ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย
- K-means ใช้ระยะทางแบบยูคลิดจากจุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง K-Means ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
- ส่วนค่ามัธยฐาน k จะใช้ ระยะทางแมนฮัตตันจากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่า Delta สัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทางของเมเดียน k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
S
การวัดความคล้ายคลึง
ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ
การสเก็ตช์ภาพ
ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นจากตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม
การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างแต่ละคู่ภายในแต่ละที่เก็บข้อมูลแทนที่จะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างทุกคู่ในชุดข้อมูล
T
การวิเคราะห์อนุกรมเวลา
สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน โดยอิงตามข้อมูลยอดขายที่ผ่านมา
U
แมชชีนเลิร์นนิงแบบไม่มีการควบคุมดูแล
การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ
การใช้งานแมชชีนเลิร์นนิงแบบไม่ควบคุมที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลจะจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ กลุ่มที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย เช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น
ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล