อภิธานศัพท์ของแมชชีนเลิร์นนิง: การจัดกลุ่ม

หน้านี้มีคำศัพท์ในอภิธานศัพท์สำหรับการจัดกลุ่ม หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การจัดกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

C

เซนทรอยด์

#clustering

จุดศูนย์กลางของคลัสเตอร์ตามที่กำหนดโดยอัลกอริทึม k-means หรือ k-median เช่น ถ้า k คือ 3 อัลกอริทึม k-me หรือ k-มัธยฐาน จะค้นหา 3 เซนทรอยด์

คลัสเตอร์แบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดคลัสเตอร์ที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นอัลกอริทึมการจัดคลัสเตอร์แบบเซนทรอยด์ที่ใช้กันมากที่สุด

คอนทราสต์กับการจัดกลุ่มแบบลําดับชั้น

การจัดกลุ่ม

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในช่วงการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว มนุษย์สามารถเลือกระบุความหมายให้กับแต่ละคลัสเตอร์ได้

มีอัลกอริทึมในการจัดกลุ่มจำนวนมาก เช่น ตัวอย่างคลัสเตอร์อัลกอริทึม k-means โดยอิงตามระยะใกล้กับเซนทรอยด์ ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x มีป้ายกำกับความกว้างของต้นไม้ และแกน y มีป้ายกำกับความสูงของต้นไม้ กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลอีกหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระยะใกล้/ไกล กล่าวคือ จุดข้อมูลที่ใกล้เคียงที่สุดกับเซนทรอยด์ 1 จุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 ขณะที่คลัสเตอร์ที่ใกล้กับเซนทรอยด์อีกจุดหนึ่งจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ที่ 2 เป็น "ต้นไม้ขนาดเต็ม" เป็นต้น

อีกตัวอย่างหนึ่ง ลองพิจารณาอัลกอริทึมการจัดคลัสเตอร์โดยอิงตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ซึ่งอธิบายดังต่อไปนี้

จุดข้อมูลหลายสิบจุดถูกจัดเรียงไว้ในวงกลมซ้อนกัน คล้ายๆ กับรูรอบๆ กึ่งกลางของกระดานปาเป้า เราจัดหมวดหมู่วงแหวนด้านในของจุดข้อมูลเป็นคลัสเตอร์ 1 วงแหวนตรงกลางได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2 และวงแหวนชั้นนอกสุดเป็นคลัสเตอร์ 3

D

คลัสเตอร์แบบหารลงตัว

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

ฮิต

การจัดกลุ่มแบบลำดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่สร้างโครงสร้างของคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะสำหรับข้อมูลแบบลำดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมคลัสเตอร์แบบลำดับชั้นมี 2 ประเภท ได้แก่

  • คลัสเตอร์แบบรวมจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตนเองก่อน แล้วจึงผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ที่มีลำดับชั้น
  • การจัดคลัสเตอร์แบบแบ่งส่วนแรกจะจัดกลุ่มตัวอย่างทั้งหมดไว้ในคลัสเตอร์เดียว จากนั้นแบ่งคลัสเตอร์ออกเป็นลำดับชั้นตามลําดับ

คอนทราสต์กับการจัดคลัสเตอร์แบบเซนทรอยด์

K

K-means

#clustering

อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยพื้นฐานแล้ว อัลกอริทึม k-means จะดำเนินการดังต่อไปนี้:

  • กำหนดจุดศูนย์กลางที่ดีที่สุดซ้ำๆ (หรือเรียกว่า centroids)
  • กำหนดตัวอย่างแต่ละรายการให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างเหล่านั้นที่อยู่ใกล้เซนทรอยด์เดียวกันมากที่สุดอยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตำแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากแต่ละตัวอย่างไปยังเซนทรอยด์ที่ใกล้ที่สุด

ตัวอย่างเช่น ลองพิจารณาแผนผังความสูงสุนัขต่อความกว้างของสุนัขต่อไปนี้

แผนภูมิคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

ถ้าเป็น k=3 อัลกอริทึม k-means จะระบุ 3 เซนทรอยด์ ตัวอย่างแต่ละรายการจะได้รับการกำหนดให้กับเซนทรอยด์ที่ใกล้ที่สุด โดยจะแสดงผลเป็น 3 กลุ่มดังนี้

พล็อตคาร์ทีเซียนแบบเดียวกับในภาพประกอบก่อนหน้านี้ ยกเว้นการเพิ่มเซนทรอยด์ 3 แห่ง
          จุดข้อมูลก่อนหน้าจะแบ่งออกเป็น 3 กลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่อยู่ใกล้เซนทรอยด์หนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง และความกว้างเฉลี่ยของสุนัขแต่ละตัวในกลุ่มนั้น ผู้ผลิตจึงควรระบุขนาดเสื้อสเวตเตอร์ที่จุดศูนย์กลาง 3 จุด โปรดทราบว่าโดยปกติแล้ว เซนทรอยด์ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์นี้

ภาพประกอบก่อนหน้านี้แสดงค่า k-me สําหรับตัวอย่างที่มีเพียง 2 ลักษณะ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ในหลายคุณลักษณะ

มัธยฐาน K

#clustering

อัลกอริทึมการจัดกลุ่มมีความเกี่ยวข้องกับ k-means อย่างใกล้ชิด ข้อแตกต่างเชิงปฏิบัติระหว่าง 2 สิ่งนี้มีดังนี้

  • ใน k-means เซนทรอยด์จะกำหนดโดยการลดผลรวมของกำลังสองของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่างให้เหลือน้อยที่สุด
  • ในค่ามัธยฐาน k เซนทรอยด์จะกำหนดโดยการลดผลรวมของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่าง

โปรดทราบว่าคำจำกัดความของระยะทางก็มีความหมายแตกต่างกันดังนี้

  • k-means จะใช้ระยะทางยูคลิดจากเซนทรอยด์เป็นตัวอย่าง (ใน 2 มิติ ระยะทางยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณด้านตรงข้ามมุมฉาก) ตัวอย่างเช่น ระยะห่าง k-me ระหว่าง (2,2) และ (5,-2) จะเป็นดังนี้
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median อาศัย ระยะทางในแมนฮัตตันจากเซนทรอยด์เป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล ตัวอย่างเช่น ระยะ k-มัธยฐาน ระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

การวัดความคล้ายคลึงกัน

#clustering

ในอัลกอริทึม clustering เมตริกที่ใช้ระบุว่าตัวอย่าง 2 ตัวอย่างแตกต่างกันอย่างไร (ความคล้ายคลึงกัน)

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่ของอัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงกันเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพจะใช้ ฟังก์ชันแฮชที่คำนึงถึงพื้นที่ เพื่อระบุจุดที่มีแนวโน้มคล้ายคลึงกัน จากนั้นจัดกลุ่ม ลงในที่เก็บข้อมูล

การร่างภาพจะลดการคํานวณที่จำเป็นสำหรับการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงกันเฉพาะคะแนนแต่ละคู่ภายในที่เก็บข้อมูลแต่ละชุดแทนการคำนวณความคล้ายคลึงกันสำหรับตัวอย่างทุกคู่ในชุดข้อมูล

T

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาหลายประเภทเกี่ยวกับแมชชีนเลิร์นนิงต้องมีการวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น คุณสามารถใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายในอนาคตของเสื้อโค้ทกันหนาวในแต่ละเดือนตามข้อมูลการขายที่ผ่านมา

U

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น กับบริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่เป็นประโยชน์หรือป้ายกำกับที่มีประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล