דף זה מכיל אשכול של מונחי מונחים. לכל המונחים במילון המונחים, לחצו כאן.
A
אשכולות אגרגטיביים
למידע נוסף על אשכולות היררכיים
C
מרכז
מרכז האשכול, כפי שנקבע באמצעות אלגוריתם k-means או k-median. לדוגמה, במקרה ש-k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 צנטרואידים.
אשכולות מבוססי-מרכז
קטגוריה של אלגוריתמים של אשכולות שמארגנים נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם האשכולות הנפוץ ביותר בשימוש במרכז.
בניגוד לאלגוריתמים של קיבוץ היררכי.
קיבוץ באשכולות
לקבץ דוגמאות קשורות, במיוחד בזמן למידה לא מונחית. אחרי שכל הדוגמאות יקובצו, אדם יכול לספק משמעות לכל אשכול.
קיימים אלגוריתמים רבים של קיבוץ לאשכולות. לדוגמה, אשכולות k-means בדוגמאות של אשכולות אלגוריתמים על סמך הקרבה שלהם למרכז, כמו בתרשים הבא:
לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לסמן את מקבץ 1 כ "עצים ננסיים" ולקבץ את מקבץ 2 כ "עצים בגודל מלא".
כדוגמה נוספת, נבחן אלגוריתם קיבוץ המבוסס על מרחק של דוגמה מנקודת מרכז, כפי שמתואר כך:
D
אשכול מחולק
למידע נוסף על אשכולות היררכיים
H
אשכולות היררכיים
קטגוריה של אלגוריתמים של אשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים במיוחד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:
- באמצעות אשכולות אגלומרטיביים, המערכת קודם כל מקצה כל דוגמה לאשכול שלה, וממזגת באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
- בקיבוץ באשכולות, כל הדוגמאות מקבצות את כל הדוגמאות לאשכול אחד ואז מחלקות את האשכול לעץ היררכי.
בניגוד לאשכולות מבוססי מרכז (Centroid).
K
k-means
אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות של למידה לא מונחית. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:
- המערכת קובעת באופן איטרטיבי את k נקודות האמצע הטובות ביותר (שנקראות סנטרואידים).
- מקצה כל דוגמה למרכז השליטה הקרוב ביותר. הדוגמאות האלה הקרובות ביותר לאותו מרכז שייכות לאותה קבוצה.
האלגוריתם k-means בוחר מיקומים של מרכזי קניות כדי לצמצם את הריבוע המצטבר של המרחקים מכל דוגמה למרכז השליטה הקרוב ביותר שלה.
לדוגמה, צריך לקחת בחשבון את התרשים הבא של גובה הכלב לעומת רוחב הכלב:
אם k=3, האלגוריתם k-means יקבע שלושה צנטרואידים. כל דוגמה מוקצית למרכז השליטה הקרוב ביותר שלה, ומפיקה שלוש קבוצות:
נניח שיצרן רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת הצנטרואידים מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב במקבץ. לכן היצרן צריך לבסס את המידות של סוודרים על שלושת המרכזים האלה. שים לב שהמרכז של אשכול הוא בדרך כלל לא דוגמה לאשכול.
באיורים הקודמים מוצג סימן k לדוגמאות עם שתי תכונות בלבד (גובה ורוחב). שימו לב ש-k-אמצעים יכולים לקבץ דוגמאות בתכונות רבות.
k-חציון
אלגוריתם אשכולות הקשור באופן הדוק ל-k-means. ההבדל המעשי בין שניהם:
- ב-k-אמצעים, נקבעים צנטרואידים על ידי צמצום סכום הריבועים של המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.
- ב-k-חציון, צנטרואידים נקבעים על ידי צמצום סכום המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.
שים לב שגם ההגדרות של מרחק שונות:
- k-means מסתמך על המרחק האוקלידי מהמרכז בדוגמה. (בשני ממדים, המרחק האוקלידי הוא שימוש במשפט פיתגורס כדי לחשב את היתר). לדוגמה, המרחק בין 2,2 לבין (5,-2) יהיה:
- k-חציון מסתמך על המרחק במנהטן ממרכז העיר בדוגמה. המרחק הזה הוא סכום ההפרשים המוחלטים בכל מאפיין. לדוגמה, המרחק של חציון k בין (2,2) ל-(5,-2) יהיה:
S
מידת דמיון
באלגוריתמים של קיבוץ, המדד שמשמש כדי לקבוע את מידת הדמיון (מידת הדמיון) בין שתי דוגמאות.
רישום
בקטע למידת מכונה לא מונחית, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של דמיון על דוגמאות. אלגוריתמים של שרטוט משתמשים ב פונקציית גיבוב תלוית מיקום כדי לזהות נקודות שסביר להניח שיהיו דומות, ולאחר מכן מקבצים אותן לקטגוריות.
השרטוט מפחית את כמות המחשוב הנדרשת לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון בין כל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.
T
ניתוח פעולות על ציר הזמן
תחום משנה של למידת מכונה וסטטיסטיקה שמנתחים נתונים זמניים. סוגים רבים של בעיות בלמידת מכונה דורשים ניתוח של פעולות על ציר הזמן, כולל סיווג, קיבוץ, חיזוי וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח סדרות זמנים כדי לחזות את המכירות העתידיות של מעילי החורף לפי חודש על סמך נתוני מכירות היסטוריים.
U
למידת מכונה בלתי מונחית
אימון model כדי למצוא דפוסים במערך נתונים, בדרך כלל במערך נתונים ללא תווית.
השימוש הנפוץ ביותר בלמידת מכונה לא מונחית הוא קיבוץ של נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידה חישובית ללא פיקוח יכול לקבץ שירים באשכולות על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט של אלגוריתמים אחרים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). אשכולות יכולים לעזור כשתוויות שימושיות חסרות או חסרות. לדוגמה, בדומיינים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.
בניגוד ללמידת מכונה מבוקרת.