อภิธานศัพท์ของแมชชีนเลิร์นนิง: การจัดกลุ่ม

หน้านี้มีคำศัพท์ในอภิธานคลัสเตอร์ ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่

A

การแบ่งกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

C

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ที่อัลกอริทึม K-means หรือ K-median กำหนด เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์ตามเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลําดับชั้น K-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายที่สุด

เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์

#clustering

จัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่างการเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่จะระบุความหมายให้กับแต่ละคลัสเตอร์ได้ (ไม่บังคับ)

อัลกอริทึมการจัดกลุ่มมีอยู่หลายประเภท เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระดับความใกล้เคียงกับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน X มีป้ายกำกับว่า "ความกว้างของต้นไม้" และแกน Y มีป้ายกำกับว่า "ความสูงของต้นไม้" กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระดับความใกล้เคียง กล่าวคือ จุดข้อมูลที่ใกล้กับจุดศูนย์กลางจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 1 ส่วนจุดข้อมูลที่ใกล้กับจุดศูนย์กลางอีกจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้

อีกตัวอย่างหนึ่งคืออัลกอริทึมการจัดกลุ่มที่อิงตามระยะห่างจากจุดศูนย์กลางของตัวอย่างดังที่แสดงต่อไปนี้

จุดข้อมูลหลายสิบจุดจะจัดเรียงเป็นวงกลมศูนย์กลางคล้ายกับรูรอบๆ ศูนย์กลางของกระดานปาเป้า วงในสุดของจุดข้อมูลจะจัดอยู่ในคลัสเตอร์ 1 วงกลางจัดอยู่ในคลัสเตอร์ 2 และวงนอกสุดจัดอยู่ในคลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

D

การจัดคลัสเตอร์แบบแบ่งกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

H

การจัดกลุ่มตามลําดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มตามลําดับชั้นเหมาะสําหรับข้อมูลลําดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่

  • การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
  • คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ

ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล

ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

K

K-means

#clustering

อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้แบบไม่ควบคุม โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทําสิ่งต่อไปนี้

  • กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
  • กําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้กับจุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

ผังพิกัดคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้

ผังพิกัดคาร์ทีเซียนเดียวกับในภาพก่อนหน้า ยกเว้นว่ามีการเพิ่มจุดศูนย์กลาง 3 จุด
          ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าออกเป็น 3 กลุ่มที่แยกกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่ใกล้กับจุดศูนย์กลางหนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่างจากฟีเจอร์ต่างๆ ได้

ค่ามัธยฐานแบบ K

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ K-means อย่างใกล้ชิด ความแตกต่างที่เห็นได้ชัดระหว่าง 2 รูปแบบมีดังนี้

  • ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
  • ใน K-เมเดียน ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย

  • K-means ใช้ระยะทางแบบยูคลิดจากจุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง K-Means ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ส่วนค่ามัธยฐาน k จะใช้ ระยะทางแมนฮัตตันจากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่า Delta สัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทางของเมเดียน k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

การวัดความคล้ายคลึง

#clustering

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นจากตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม

การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างแต่ละคู่ภายในแต่ละที่เก็บข้อมูลแทนที่จะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างทุกคู่ในชุดข้อมูล

T

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน โดยอิงตามข้อมูลยอดขายที่ผ่านมา

U

แมชชีนเลิร์นนิงแบบไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่ควบคุมที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลจะจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ กลุ่มที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย เช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล