หน้านี้มีอภิธานศัพท์ที่เป็นคลัสเตอร์ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การจัดกลุ่มแบบรวม
โปรดดูหัวข้อการจัดกลุ่มแบบลําดับชั้น
ค
เซนทรอยด์
ตรงกลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม k-means หรือ k-บ้าง ตัวอย่างเช่น ถ้า k คือ 3
การจัดกลุ่มแบบเซนทรอยด์
หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่จัดระเบียบข้อมูลไปยังคลัสเตอร์แบบลําดับชั้นแบบไม่เป็นทางการ k-means เป็นอัลกอริทึมการจัดกลุ่มแบบเซนไทรอยด์ที่ใช้กันอย่างแพร่หลายที่สุด
ตรงข้ามกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น
การจัดกลุ่ม
การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งในระหว่างการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดเรียบร้อยแล้ว เจ้าหน้าที่จะระบุความหมายของคลัสเตอร์แต่ละรายการได้
มีอัลกอริทึมการจัดกลุ่มจํานวนมาก เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามความใกล้เคียงกับศูนย์ดังที่แสดงในแผนภาพต่อไปนี้
จากนั้นนักวิจัยที่เป็นเจ้าหน้าที่จะตรวจสอบคลัสเตอร์ได้ และยกตัวอย่าง คลัสเตอร์ 1 เป็น "ต้นไม้แคระ
อีกตัวอย่างหนึ่ง คุณอาจพิจารณาใช้อัลกอริทึมการจัดกลุ่มตามระยะห่างจากตัวอย่างจากจุดศูนย์กลาง ตัวอย่างเช่น
D
การจัดกลุ่มแบบหาร
โปรดดูหัวข้อการจัดกลุ่มแบบลําดับชั้น
H
การจัดกลุ่มแบบลําดับชั้น
หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่สร้างโครงสร้างของคลัสเตอร์ การจัดกลุ่มแบบลําดับชั้นจะเหมาะกับข้อมูลแบบลําดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มลําดับชั้นมี 2 ประเภทดังนี้
- คลัสเตอร์แบบรวมจะกําหนดตัวอย่างทุกรายการให้กับคลัสเตอร์ของตนเองก่อน และผสานรวมคลัสเตอร์ที่ใกล้ที่สุดซ้ําๆ เพื่อสร้างโครงสร้างแบบลําดับชั้น
- การจัดคลัสเตอร์แบบแบ่งส่วนจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียว จากนั้นจะแบ่งคลัสเตอร์ออกเป็นลําดับชั้นตามลําดับชั้น
คอนทราสต์กับการจัดกลุ่มแบบเซนทรา
K
เค-มีน
อัลกอริทึมคลัสเตอร์ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยทั่วไปแล้วอัลกอริทึม k-means จะทําสิ่งต่อไปนี้
- กําหนดจุด k Center ที่ดีที่สุดซ้ําๆ (เรียกว่าเซนทรอยด์)
- กําหนดแต่ละตัวอย่างให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างที่ใกล้เคียงที่สุดกับเซนทรอยด์เดียวกันนี้อยู่ในกลุ่มเดียวกัน
อัลกอริทึม k-means จะเลือกตําแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากตัวอย่างแต่ละรายการไปยังเซนทรอยด์ที่ใกล้เคียงที่สุด
เช่น ลองพิจารณาโครงเรื่องของความสูงของสุนัขกับความกว้างของสุนัขดังต่อไปนี้
หาก k=3 อัลกอริทึม k-means จะกําหนด centroid 3 รายการ แต่ละตัวอย่างจะกําหนดให้ศูนย์เซนติเมตรที่ใกล้เคียงที่สุดโดยให้ 3 กลุ่ม ดังนี้
สมมติว่าผู้ผลิตต้องการกําหนดเสื้อสเวตเตอร์ที่มีขนาดเล็ก กลาง และใหญ่สําหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง เฉลี่ย และความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรจะ วางเสื้อสเวตเตอร์ที่มีขนาดต่างๆ บน centroid 3 ตัวดังกล่าว โปรดทราบว่าโดยทั่วไปแล้ว เซนทรอยด์ของคลัสเตอร์ไม่ใช่ตัวอย่างของคลัสเตอร์
ภาพประกอบก่อนหน้านี้แสดง K-mean สําหรับตัวอย่างที่มีเพียง 2 ฟีเจอร์ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่างในฟีเจอร์มากมาย
ค่ามัธยฐาน k
อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ k-means อย่างมาก ความแตกต่างในทางปฏิบัติระหว่าง 2 สิ่งนี้มีดังต่อไปนี้
- ใน K-mean นั้น เซนโตรอยด์คํานวณได้จากการลดผลรวมของกําลังสองของระยะทางระหว่างผู้สมัครศูนย์เซนติโอเวอร์กับตัวอย่างแต่ละตัวแปร
- ส่วนค่ามัธยฐานของ k นั้น centroid จะพิจารณาจากการลดผลรวมของระยะทางระหว่างผู้สมัคร centroid และตัวอย่างของแต่ละข้อ
โปรดทราบว่าคําจํากัดความของระยะทางก็แตกต่างกันด้วย
- k-means อาศัยระยะทางแบบ Euclidean จากเซนทรอยด์เป็นตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิเดียนหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทางเป็น k-means ระหว่าง (2,2) ถึง (5,-2) จะหมายถึง
- ค่ามัธยฐาน k อาศัยระยะทางแมนฮัตตันจากเซนทรอยด์เป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทางตามค่ามัธยฐานของค่า k (2,2) กับ (5,-2) จะเป็นดังนี้
ส
มาตรวัดความคล้ายคลึง
ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้กําหนดตัวอย่าง (คล้ายกัน) 2 ตัวอย่างมากน้อยเพียงใด
การสเก็ตช์ภาพ
ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล หมวดหมู่ของอัลกอริทึมที่วิเคราะห์ความคล้ายคลึงกันเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างจะใช้ฟังก์ชันแฮชที่คํานึงถึงตําแหน่งเพื่อระบุจุดที่น่าจะคล้ายกันแล้วจัดกลุ่มเหล่านั้นลงในที่เก็บข้อมูล
การร่างเพื่อลดความซับซ้อนที่ต้องใช้ในการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ แทนที่จะคํานวณความคล้ายคลึงกันของคู่ตัวอย่างทุกๆ ชุดในชุดข้อมูล เราจะคํานวณความคล้ายคลึงกันสําหรับแต่ละจุดของที่เก็บข้อมูลแต่ละชุดเท่านั้น
อ
การวิเคราะห์อนุกรมเวลา
สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาของแมชชีนเลิร์นนิงหลายประเภทต้องมีการวิเคราะห์อนุกรมเวลา รวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน ตามข้อมูลยอดขายที่ผ่านมา
U
แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล
การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติแล้วจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ
การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลโดยทั่วไปคือการจัดกลุ่มข้อมูลไปยังกลุ่มตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์อาจช่วยได้ในกรณีที่ป้ายกํากับที่มีประโยชน์ไม่มีข้อมูลน้อยมากหรือขาดหายไป ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น
ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล