מילון מונחים ללמידת מכונה: אשכולות

הדף הזה מכיל מונחים ממילון המונחים בנושא קיבוץ. כאן מפורטות כל ההגדרות במילון.

A

אשכולות אגרגטורים

#clustering

ראו אשכולות היררכיים.

C

מרכז כובד

#clustering

מרכז האשכול, כפי שנקבע על ידי אלגוריתם k-means או k-median. לדוגמה, אם k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 מרכזי מסה.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

קיבוץ מבוסס-נקודת מרכז

#clustering

קטגוריה של אלגוריתמים של קיבוץ שמארגנת נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם הקיבוץ הנפוץ ביותר שמבוסס על מרכז כובד.

בניגוד לאלגוריתמים של קיבוץ היררכי.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

קיבוץ

#clustering

קיבוץ דוגמאות קשורות, במיוחד במהלך למידה ללא הדרכה. אחרי שכל הדוגמאות מקובצות, אדם יכול לספק משמעות לכל אשכול.

יש הרבה אלגוריתמים של קיבוץ באשכולות. לדוגמה, האלגוריתם k-means מקבצ דוגמאות על סמך הקרבה שלהן למוקד, כפי שמתואר בתרשים הבא:

תרשים דו-מימדי שבו ציר ה-X מסומן כרוחב העץ וציר ה-Y מסומן כגובה העץ. הגרף מכיל שני מרכזי מסה וכמה עשרות נקודות נתונים. נקודות הנתונים מסווגות לפי הקרבה שלהן. כלומר, נקודות הנתונים הקרובות ביותר למרכז המסה אחד מסווגות כאשכול 1, ואילו נקודות הנתונים הקרובות ביותר למרכז המסה השני מסווגות כאשכול 2.

לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, ולתת להם תוויות, לדוגמה, אשכול 1 יסומן בתווית 'עצים ננסיים' ואשכול 2 יסומן בתווית 'עצים בגודל מלא'.

דוגמה נוספת היא אלגוריתם קיבוץ שמבוסס על המרחק של דוגמה מנקודת מרכז, כפי שמוצג בהמשך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב מרכז לוח חץ וקשת. הטבעת הפנימית ביותר של נקודות הנתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית מסווגת כאשכול 3.

מידע נוסף זמין בקורס הקיבוץ.

D

אשכול חלוקת

#clustering

ראו אשכולות היררכיים.

H

קיבוץ היררכי

#clustering

קטגוריה של אלגוריתמים של קיבוץ שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

  • בקיבוץ אגרגטיבי, קודם כל מקצים כל דוגמה לאשכולות משלה, ולאחר מכן ממזגים באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
  • בקיבוץ חלוקת (Divisive Clustering), קודם כל מקובצים כל הדוגמאות לאשכול אחד, ולאחר מכן האשכול מחולק באופן איטרטיבי לעץ היררכי.

בניגוד לקיבוץ מבוסס-מרכז.

מידע נוסף זמין במאמר אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

K

k-means

#clustering

אלגוריתם פופולרי של קיבוץ שמקבץ דוגמאות בלמידה ללא הדרכה. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:

  • מאתר באופן איטרטיבי את נקודות המרכז הטובות ביותר של k (שנקראות centroids).
  • הקצאה של כל דוגמה למרכז הכובד הקרוב ביותר. הדוגמאות הקרובות ביותר לאותו מרכז כובד שייכות לאותה קבוצה.

האלגוריתם של k-means בוחר מיקומי מרכז כובד כדי למזער את הריבוע המצטבר של המרחקים מכל דוגמה למרכז הכובד הקרוב ביותר שלה.

לדוגמה, התרשים הבא מציג את הגובה של כלב ביחס לרוחב שלו:

תרשים קרטוזי עם כמה עשרות נקודות נתונים.

אם k=3, האלגוריתם k-means יקבע שלושה מרכזי מסה. כל דוגמה מוקצה למרכז המסה הקרוב ביותר שלה, וכך נוצרות שלוש קבוצות:

אותו תרשים קרטוזי כמו באיור הקודם, רק עם שלושה מרכזי מסה נוספים.
          נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות, כאשר כל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר למרכז כובד מסוים.

נניח שחברה יצרנית רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת מרכזי הכובד מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב באשכול הזה. לכן, כנראה שהיצרן צריך לבסס את הגדלים של הסוודרים על שלושת מרכזי הכובד האלה. חשוב לזכור שבדרך כלל, מרכז הכובד של אשכול לא נכלל בדוגמאות שבאשכול.

בתמונות שלמעלה מוצגת חלוקה ל-k-means לדוגמאות עם שני מאפיינים בלבד (גובה ורוחב). חשוב לזכור ש-k-means יכול לקבץ דוגמאות לפי הרבה מאפיינים.

k-median

#clustering

אלגוריתם קיבוץ שקשור מאוד ל-k-means. ההבדל המעשי בין שניהם:

  • ב-k-means, מרכזי הכובד נקבעים על ידי צמצום הסכום של הריבועים של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.
  • בשיטת k-median, מרכזי הכובד נקבעים על ידי צמצום הסכום של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.

חשוב לזכור שההגדרות של המרחק שונות גם הן:

  • השיטה k-means מבוססת על המרחק האוקלידי מהמוקד לדוגמה. (בשתי מימדים, המרחק האוקלידי מחושב באמצעות משפט פיתגורס לחישוב היתר). לדוגמה, המרחק ב-k-means בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ה-k-median מבוסס על המרחק של Manhattan מהמרכז הגיאוגרפי לדוגמה. המרחק הזה הוא הסכום של התנודות המוחלטות בכל מאפיין. לדוגמה, המרחק של k-median בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

מדד דמיון

#clustering

באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

רישום

#clustering

בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של הדמיון בין דוגמאות. אלגוריתמים של יצירת סקיצות משתמשים ב פונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שיש סיכוי גבוה שהן דומות, ולאחר מכן לקבץ אותן לקטגוריות.

באמצעות 'רישום סכמה', אפשר לצמצם את החישובים הנדרשים לחישוב הדמיון במערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

T

ניתוח סדרות זמן

#clustering

תחום משנה של למידת מכונה וסטטיסטיקה שמנתח נתונים זמניים. סוגים רבים של בעיות למידת מכונה מחייבות ניתוח של סדרות זמן, כולל סיווג, קיבוץ, חיזוי וזיהוי חריגות. לדוגמה, אפשר להשתמש בניתוח של סדרות זמן כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש, על סמך נתוני מכירות היסטוריים.

U

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תוויות.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא הדרכה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שנוצרים יכולים להפוך לקלט לאלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). אפשר להשתמש בצבירה כשיש מעט תוויות מועילות או שאין תוויות בכלל. לדוגמה, בתחומים כמו מניעת התנהלות פוגעת ומניעת הונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה בפיקוח.