הדף הזה מכיל מונחים ממילון המונחים בנושא קיבוץ. כאן מפורטות כל ההגדרות במילון.
A
אשכולות אגרגטורים
ראו אשכולות היררכיים.
C
מרכז כובד
מרכז האשכול, כפי שנקבע על ידי אלגוריתם k-means או k-median. לדוגמה, אם k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 מרכזי מסה.
מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.
קיבוץ מבוסס-נקודת מרכז
קטגוריה של אלגוריתמים של קיבוץ שמארגנת נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם הקיבוץ הנפוץ ביותר שמבוסס על מרכז כובד.
בניגוד לאלגוריתמים של קיבוץ היררכי.
מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.
קיבוץ
קיבוץ דוגמאות קשורות, במיוחד במהלך למידה ללא הדרכה. אחרי שכל הדוגמאות מקובצות, אדם יכול לספק משמעות לכל אשכול.
יש הרבה אלגוריתמים של קיבוץ באשכולות. לדוגמה, האלגוריתם k-means מקבצ דוגמאות על סמך הקרבה שלהן למוקד, כפי שמתואר בתרשים הבא:
לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, ולתת להם תוויות, לדוגמה, אשכול 1 יסומן בתווית 'עצים ננסיים' ואשכול 2 יסומן בתווית 'עצים בגודל מלא'.
דוגמה נוספת היא אלגוריתם קיבוץ שמבוסס על המרחק של דוגמה מנקודת מרכז, כפי שמוצג בהמשך:
מידע נוסף זמין בקורס הקיבוץ.
D
אשכול חלוקת
ראו אשכולות היררכיים.
H
קיבוץ היררכי
קטגוריה של אלגוריתמים של קיבוץ שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:
- בקיבוץ אגרגטיבי, קודם כל מקצים כל דוגמה לאשכולות משלה, ולאחר מכן ממזגים באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
- בקיבוץ חלוקת (Divisive Clustering), קודם כל מקובצים כל הדוגמאות לאשכול אחד, ולאחר מכן האשכול מחולק באופן איטרטיבי לעץ היררכי.
בניגוד לקיבוץ מבוסס-מרכז.
מידע נוסף זמין במאמר אלגוריתמים של קיבוץ בקורס 'קיבוץ'.
K
k-means
אלגוריתם פופולרי של קיבוץ שמקבץ דוגמאות בלמידה ללא הדרכה. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:
- מאתר באופן איטרטיבי את נקודות המרכז הטובות ביותר של k (שנקראות centroids).
- הקצאה של כל דוגמה למרכז הכובד הקרוב ביותר. הדוגמאות הקרובות ביותר לאותו מרכז כובד שייכות לאותה קבוצה.
האלגוריתם של k-means בוחר מיקומי מרכז כובד כדי למזער את הריבוע המצטבר של המרחקים מכל דוגמה למרכז הכובד הקרוב ביותר שלה.
לדוגמה, התרשים הבא מציג את הגובה של כלב ביחס לרוחב שלו:
אם k=3, האלגוריתם k-means יקבע שלושה מרכזי מסה. כל דוגמה מוקצה למרכז המסה הקרוב ביותר שלה, וכך נוצרות שלוש קבוצות:
נניח שחברה יצרנית רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת מרכזי הכובד מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב באשכול הזה. לכן, כנראה שהיצרן צריך לבסס את הגדלים של הסוודרים על שלושת מרכזי הכובד האלה. חשוב לזכור שבדרך כלל, מרכז הכובד של אשכול לא נכלל בדוגמאות שבאשכול.
בתמונות שלמעלה מוצגת חלוקה ל-k-means לדוגמאות עם שני מאפיינים בלבד (גובה ורוחב). חשוב לזכור ש-k-means יכול לקבץ דוגמאות לפי הרבה מאפיינים.
k-median
אלגוריתם קיבוץ שקשור מאוד ל-k-means. ההבדל המעשי בין שניהם:
- ב-k-means, מרכזי הכובד נקבעים על ידי צמצום הסכום של הריבועים של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.
- בשיטת k-median, מרכזי הכובד נקבעים על ידי צמצום הסכום של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.
חשוב לזכור שההגדרות של המרחק שונות גם הן:
- השיטה k-means מבוססת על המרחק האוקלידי מהמוקד לדוגמה. (בשתי מימדים, המרחק האוקלידי מחושב באמצעות משפט פיתגורס לחישוב היתר). לדוגמה, המרחק ב-k-means בין (2,2) לבין (5,-2) יהיה:
- ה-k-median מבוסס על המרחק של Manhattan מהמרכז הגיאוגרפי לדוגמה. המרחק הזה הוא הסכום של התנודות המוחלטות בכל מאפיין. לדוגמה, המרחק של k-median בין (2,2) לבין (5,-2) יהיה:
S
מדד דמיון
באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.
רישום
בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של הדמיון בין דוגמאות. אלגוריתמים של יצירת סקיצות משתמשים ב פונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שיש סיכוי גבוה שהן דומות, ולאחר מכן לקבץ אותן לקטגוריות.
באמצעות 'רישום סכמה', אפשר לצמצם את החישובים הנדרשים לחישוב הדמיון במערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.
T
ניתוח סדרות זמן
תחום משנה של למידת מכונה וסטטיסטיקה שמנתח נתונים זמניים. סוגים רבים של בעיות למידת מכונה מחייבות ניתוח של סדרות זמן, כולל סיווג, קיבוץ, חיזוי וזיהוי חריגות. לדוגמה, אפשר להשתמש בניתוח של סדרות זמן כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש, על סמך נתוני מכירות היסטוריים.
U
למידת מכונה בלתי מונחית
אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תוויות.
השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא הדרכה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שנוצרים יכולים להפוך לקלט לאלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). אפשר להשתמש בצבירה כשיש מעט תוויות מועילות או שאין תוויות בכלל. לדוגמה, בתחומים כמו מניעת התנהלות פוגעת ומניעת הונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.
בניגוד ללמידת מכונה בפיקוח.