מילון מונחים ללמידת מכונה: אשכולות

דף זה מכיל אשכול של מונחי מונחים. לכל המונחים במילון המונחים, לחצו כאן.

A

אשכולות אגרגטיביים

#clustering

למידע נוסף על אשכולות היררכיים

C

מרכז

#clustering

מרכז האשכול, כפי שנקבע באמצעות אלגוריתם k-means או k-median. לדוגמה, במקרה ש-k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 צנטרואידים.

אשכולות מבוססי-מרכז

#clustering

קטגוריה של אלגוריתמים של אשכולות שמארגנים נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם האשכולות הנפוץ ביותר בשימוש במרכז.

בניגוד לאלגוריתמים של קיבוץ היררכי.

קיבוץ באשכולות

#clustering

לקבץ דוגמאות קשורות, במיוחד בזמן למידה לא מונחית. אחרי שכל הדוגמאות יקובצו, אדם יכול לספק משמעות לכל אשכול.

קיימים אלגוריתמים רבים של קיבוץ לאשכולות. לדוגמה, אשכולות k-means בדוגמאות של אשכולות אלגוריתמים על סמך הקרבה שלהם למרכז, כמו בתרשים הבא:

תרשים דו-ממדי שבו ציר ה-X מסומן לרוחב העץ וציר ה-Y מסומן בגובה העץ. התרשים מכיל שני צנטרואידים וכמה עשרות נקודות נתונים. הנקודות על הגרף
          מסווגות לפי הקרבה שלהן. זאת אומרת, נקודות הנתונים
          הקרובות ביותר לצנטרואיד אחד מסווגות כצביר 1, ונקודות
          הנתונים הקרובות ביותר למרכז השליטה השני מסווגות כאשכול 2.

לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לסמן את מקבץ 1 כ "עצים ננסיים" ולקבץ את מקבץ 2 כ "עצים בגודל מלא".

כדוגמה נוספת, נבחן אלגוריתם קיבוץ המבוסס על מרחק של דוגמה מנקודת מרכז, כפי שמתואר כך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב מרכז לוח חיצים. הטבעת הפנימית ביותר של נקודות נתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית ביותר מסווגת כאשכול 3.

D

אשכול מחולק

#clustering

למידע נוסף על אשכולות היררכיים

H

אשכולות היררכיים

#clustering

קטגוריה של אלגוריתמים של אשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים במיוחד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

  • באמצעות אשכולות אגלומרטיביים, המערכת קודם כל מקצה כל דוגמה לאשכול שלה, וממזגת באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
  • בקיבוץ באשכולות, כל הדוגמאות מקבצות את כל הדוגמאות לאשכול אחד ואז מחלקות את האשכול לעץ היררכי.

בניגוד לאשכולות מבוססי מרכז (Centroid).

K

k-means

#clustering

אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות של למידה לא מונחית. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:

  • המערכת קובעת באופן איטרטיבי את k נקודות האמצע הטובות ביותר (שנקראות סנטרואידים).
  • מקצה כל דוגמה למרכז השליטה הקרוב ביותר. הדוגמאות האלה הקרובות ביותר לאותו מרכז שייכות לאותה קבוצה.

האלגוריתם k-means בוחר מיקומים של מרכזי קניות כדי לצמצם את הריבוע המצטבר של המרחקים מכל דוגמה למרכז השליטה הקרוב ביותר שלה.

לדוגמה, צריך לקחת בחשבון את התרשים הבא של גובה הכלב לעומת רוחב הכלב:

גרף קרטזי עם כמה עשרות נתונים.

אם k=3, האלגוריתם k-means יקבע שלושה צנטרואידים. כל דוגמה מוקצית למרכז השליטה הקרוב ביותר שלה, ומפיקה שלוש קבוצות:

אותה חלקה קרטזית כמו באיור הקודם, מלבד
          הוספה של שלושה צנטרואידים.
          הנקודות הקודמות על הגרף מקובצות לשלוש קבוצות נפרדות,
          
          כשכל קבוצה מייצגת את הנקודות הקרובות ביותר למרכז נתונים מסוים.

נניח שיצרן רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת הצנטרואידים מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב במקבץ. לכן היצרן צריך לבסס את המידות של סוודרים על שלושת המרכזים האלה. שים לב שהמרכז של אשכול הוא בדרך כלל לא דוגמה לאשכול.

באיורים הקודמים מוצג סימן k לדוגמאות עם שתי תכונות בלבד (גובה ורוחב). שימו לב ש-k-אמצעים יכולים לקבץ דוגמאות בתכונות רבות.

k-חציון

#clustering

אלגוריתם אשכולות הקשור באופן הדוק ל-k-means. ההבדל המעשי בין שניהם:

  • ב-k-אמצעים, נקבעים צנטרואידים על ידי צמצום סכום הריבועים של המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.
  • ב-k-חציון, צנטרואידים נקבעים על ידי צמצום סכום המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.

שים לב שגם ההגדרות של מרחק שונות:

  • k-means מסתמך על המרחק האוקלידי מהמרכז בדוגמה. (בשני ממדים, המרחק האוקלידי הוא שימוש במשפט פיתגורס כדי לחשב את היתר). לדוגמה, המרחק בין 2,2 לבין (5,-2) יהיה:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-חציון מסתמך על המרחק במנהטן ממרכז העיר בדוגמה. המרחק הזה הוא סכום ההפרשים המוחלטים בכל מאפיין. לדוגמה, המרחק של חציון k בין (2,2) ל-(5,-2) יהיה:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

מידת דמיון

#clustering

באלגוריתמים של קיבוץ, המדד שמשמש כדי לקבוע את מידת הדמיון (מידת הדמיון) בין שתי דוגמאות.

רישום

#clustering

בקטע למידת מכונה לא מונחית, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של דמיון על דוגמאות. אלגוריתמים של שרטוט משתמשים ב פונקציית גיבוב תלוית מיקום כדי לזהות נקודות שסביר להניח שיהיו דומות, ולאחר מכן מקבצים אותן לקטגוריות.

השרטוט מפחית את כמות המחשוב הנדרשת לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון בין כל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

T

ניתוח פעולות על ציר הזמן

#clustering

תחום משנה של למידת מכונה וסטטיסטיקה שמנתחים נתונים זמניים. סוגים רבים של בעיות בלמידת מכונה דורשים ניתוח של פעולות על ציר הזמן, כולל סיווג, קיבוץ, חיזוי וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח סדרות זמנים כדי לחזות את המכירות העתידיות של מעילי החורף לפי חודש על סמך נתוני מכירות היסטוריים.

U

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון model כדי למצוא דפוסים במערך נתונים, בדרך כלל במערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה לא מונחית הוא קיבוץ של נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידה חישובית ללא פיקוח יכול לקבץ שירים באשכולות על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט של אלגוריתמים אחרים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). אשכולות יכולים לעזור כשתוויות שימושיות חסרות או חסרות. לדוגמה, בדומיינים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה מבוקרת.