อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การจัดกลุ่ม

หน้านี้มีอภิธานศัพท์ที่เป็นคลัสเตอร์ สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การจัดกลุ่มแบบรวม

#clustering

โปรดดูหัวข้อการจัดกลุ่มแบบลําดับชั้น

เซนทรอยด์

#clustering

ตรงกลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม k-means หรือ k-บ้าง ตัวอย่างเช่น ถ้า k คือ 3

การจัดกลุ่มแบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่จัดระเบียบข้อมูลไปยังคลัสเตอร์แบบลําดับชั้นแบบไม่เป็นทางการ k-means เป็นอัลกอริทึมการจัดกลุ่มแบบเซนไทรอยด์ที่ใช้กันอย่างแพร่หลายที่สุด

ตรงข้ามกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น

การจัดกลุ่ม

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งในระหว่างการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดเรียบร้อยแล้ว เจ้าหน้าที่จะระบุความหมายของคลัสเตอร์แต่ละรายการได้

มีอัลกอริทึมการจัดกลุ่มจํานวนมาก เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามความใกล้เคียงกับศูนย์ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x ติดป้ายกํากับ 'ความกว้างของต้นไม้'
          และแกน y มีข้อความกํากับว่า 'ความสูงของต้นไม้'  กราฟมี เซนทรอยด์ 2 ตัว และจุดข้อมูลหลายสิบรายการ ระบบจะจัดหมวดหมู่จุดข้อมูลโดยอิงตามระยะทาง กล่าวคือ จุดข้อมูลที่อยู่ใกล้กับศูนย์ผู้กํากับสูงสุด 1 กลุ่มจะได้รับการจัดประเภทเป็น 'คลัสเตอร์ 1' ส่วนที่อยู่ใกล้ศูนย์เซนทัลอื่นๆ มากที่สุดจะได้รับการจัดหมวดหมู่เป็น 'คลัสเตอร์ 2'

จากนั้นนักวิจัยที่เป็นเจ้าหน้าที่จะตรวจสอบคลัสเตอร์ได้ และยกตัวอย่าง คลัสเตอร์ 1 เป็น "ต้นไม้แคระ

อีกตัวอย่างหนึ่ง คุณอาจพิจารณาใช้อัลกอริทึมการจัดกลุ่มตามระยะห่างจากตัวอย่างจากจุดศูนย์กลาง ตัวอย่างเช่น

จุดข้อมูลหลายสิบจุดจัดเรียงเป็นวงกลมตรงกลางเกือบจะคล้ายกับรูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนด้านในสุดของจุดข้อมูลได้รับการจัดหมวดหมู่เป็น 'คลัสเตอร์ 1' วงแหวนกลาง
 ได้รับการจัดหมวดหมู่เป็น 'คลัสเตอร์ที่ 2' และวงแหวนด้านนอกสุดคือ
 'คลัสเตอร์ 3.'

D

การจัดกลุ่มแบบหาร

#clustering

โปรดดูหัวข้อการจัดกลุ่มแบบลําดับชั้น

H

การจัดกลุ่มแบบลําดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่สร้างโครงสร้างของคลัสเตอร์ การจัดกลุ่มแบบลําดับชั้นจะเหมาะกับข้อมูลแบบลําดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มลําดับชั้นมี 2 ประเภทดังนี้

  • คลัสเตอร์แบบรวมจะกําหนดตัวอย่างทุกรายการให้กับคลัสเตอร์ของตนเองก่อน และผสานรวมคลัสเตอร์ที่ใกล้ที่สุดซ้ําๆ เพื่อสร้างโครงสร้างแบบลําดับชั้น
  • การจัดคลัสเตอร์แบบแบ่งส่วนจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียว จากนั้นจะแบ่งคลัสเตอร์ออกเป็นลําดับชั้นตามลําดับชั้น

คอนทราสต์กับการจัดกลุ่มแบบเซนทรา

K

เค-มีน

#clustering

อัลกอริทึมคลัสเตอร์ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยทั่วไปแล้วอัลกอริทึม k-means จะทําสิ่งต่อไปนี้

  • กําหนดจุด k Center ที่ดีที่สุดซ้ําๆ (เรียกว่าเซนทรอยด์)
  • กําหนดแต่ละตัวอย่างให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างที่ใกล้เคียงที่สุดกับเซนทรอยด์เดียวกันนี้อยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตําแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากตัวอย่างแต่ละรายการไปยังเซนทรอยด์ที่ใกล้เคียงที่สุด

เช่น ลองพิจารณาโครงเรื่องของความสูงของสุนัขกับความกว้างของสุนัขดังต่อไปนี้

โครงเรื่องคาร์ทีเซียนซึ่งมีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม k-means จะกําหนด centroid 3 รายการ แต่ละตัวอย่างจะกําหนดให้ศูนย์เซนติเมตรที่ใกล้เคียงที่สุดโดยให้ 3 กลุ่ม ดังนี้

พล็อตเรื่อง Cartesian แบบเดียวกับในภาพก่อนหน้า ยกเว้นการเพิ่มเซนไทรอยด์ 3 ตัว
          จุดข้อมูลก่อนหน้าจะแบ่งออกเป็น 3 กลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่ใกล้เคียงที่สุด

สมมติว่าผู้ผลิตต้องการกําหนดเสื้อสเวตเตอร์ที่มีขนาดเล็ก กลาง และใหญ่สําหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง เฉลี่ย และความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรจะ วางเสื้อสเวตเตอร์ที่มีขนาดต่างๆ บน centroid 3 ตัวดังกล่าว โปรดทราบว่าโดยทั่วไปแล้ว เซนทรอยด์ของคลัสเตอร์ไม่ใช่ตัวอย่างของคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-mean สําหรับตัวอย่างที่มีเพียง 2 ฟีเจอร์ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่างในฟีเจอร์มากมาย

ค่ามัธยฐาน k

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ k-means อย่างมาก ความแตกต่างในทางปฏิบัติระหว่าง 2 สิ่งนี้มีดังต่อไปนี้

  • ใน K-mean นั้น เซนโตรอยด์คํานวณได้จากการลดผลรวมของกําลังสองของระยะทางระหว่างผู้สมัครศูนย์เซนติโอเวอร์กับตัวอย่างแต่ละตัวแปร
  • ส่วนค่ามัธยฐานของ k นั้น centroid จะพิจารณาจากการลดผลรวมของระยะทางระหว่างผู้สมัคร centroid และตัวอย่างของแต่ละข้อ

โปรดทราบว่าคําจํากัดความของระยะทางก็แตกต่างกันด้วย

  • k-means อาศัยระยะทางแบบ Euclidean จากเซนทรอยด์เป็นตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิเดียนหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทางเป็น k-means ระหว่าง (2,2) ถึง (5,-2) จะหมายถึง
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ค่ามัธยฐาน k อาศัยระยะทางแมนฮัตตันจากเซนทรอยด์เป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทางตามค่ามัธยฐานของค่า k (2,2) กับ (5,-2) จะเป็นดังนี้
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

มาตรวัดความคล้ายคลึง

#clustering

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้กําหนดตัวอย่าง (คล้ายกัน) 2 ตัวอย่างมากน้อยเพียงใด

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล หมวดหมู่ของอัลกอริทึมที่วิเคราะห์ความคล้ายคลึงกันเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างจะใช้ฟังก์ชันแฮชที่คํานึงถึงตําแหน่งเพื่อระบุจุดที่น่าจะคล้ายกันแล้วจัดกลุ่มเหล่านั้นลงในที่เก็บข้อมูล

การร่างเพื่อลดความซับซ้อนที่ต้องใช้ในการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ แทนที่จะคํานวณความคล้ายคลึงกันของคู่ตัวอย่างทุกๆ ชุดในชุดข้อมูล เราจะคํานวณความคล้ายคลึงกันสําหรับแต่ละจุดของที่เก็บข้อมูลแต่ละชุดเท่านั้น

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาของแมชชีนเลิร์นนิงหลายประเภทต้องมีการวิเคราะห์อนุกรมเวลา รวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน ตามข้อมูลยอดขายที่ผ่านมา

U

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติแล้วจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลโดยทั่วไปคือการจัดกลุ่มข้อมูลไปยังกลุ่มตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์อาจช่วยได้ในกรณีที่ป้ายกํากับที่มีประโยชน์ไม่มีข้อมูลน้อยมากหรือขาดหายไป ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น

ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล