אלגוריתמים של יצירת אשכולות

מערכי נתונים של למידת מכונה יכולים לכלול מיליונים אבל לא כל האלגוריתמים של האשכולות משתנים ביעילות. אשכולות רבים שמחשבים את הדמיון בין כל צמדי הדוגמאות, כלומר, זמן הריצה שלהם גדל כריבוע של מספר הדוגמאות \(n\), מסומנים בתור \(O(n^2)\) בסימון מורכבות. \(O(n^2)\) אלגוריתמים לא שימושי למערכי נתונים עם מיליוני דוגמאות.

באלגוריתם k-כלומר יש של \(O(n)\), כלומר האלגוריתם מבצע התאמה באופן לינארי עם \(n\). הקורס הזה יתמקד באלגוריתם הזה.

סוגי אשכולות

לרשימה מקיפה של הגישות השונות לקיבוץ באשכולות: סקר מקיף של אלגוריתמים של אשכולות Xu, D. & טיאן, י. אן. נתונים. מדע בדיוני. (2015) 2: 165. כל גישה היא התפלגות נתונים מסוימת. בקורס הזה נדון בקצרה על ארבעה גישות שונות.

גיבוש דפי אינטרנט לאשכולות לפי מרכז

המרכז של אשכול הוא הממוצע החשבוןי של כל הנקודות אשכול. באשכולות שמבוססים על סנטרואידים הנתונים מסודרים לפי היררכיה לא היררכית. אשכולות. אלגוריתמים מבוססי-מרכז ליצירת אשכולות הם יעילים אבל רגישים תנאים ראשוניים וחריגים יוצאי דופן. מבין אלה, המשמעות של k-הוא בשימוש נרחב. המשתמשים נדרשים להגדיר את מספר המרכזים, k היא פועלת היטב עם אשכולות בגודל דומה.

דוגמאות שמקובצות באשכולות באמצעות גיבוש דפי אינטרנט לאשכולות.
           הקווים מציגים גבולות בין אשכולות.
איור 1: דוגמה לאשכולות לפי מרכז.

אשכולות לפי דחיסות

גיבוש דפי אינטרנט על בסיס דחיסות מחבר בין אזורים רציפים של צפיפות דוגמאות גבוהה לתוך אשכולות. כך ניתן לגלות כל מספר של צבירים בכל צורה. חריגים חשודי טעות לא מוקצים לאשכולות. האלגוריתמים האלה מתקשים אשכולות עם צפיפות ונתונים שונים עם מימדים גבוהים.

הדוגמאות מקובצות לשני אשכולות באמצעות אשכולות שמבוססים על צפיפות.
      לא ניתן להפריד באופן לינארי.
איור 2: דוגמה לקיבוץ אשכולות שמבוסס על צפיפות.

אשכולות מבוססי הפצה

גישת הקיבוץ הזו מבוססת על ההנחה שהנתונים מורכבים מהסתברות של התפלגויות, כמו הפצות גאוסיאניות. לחשבון איור 3, האלגוריתם מבוסס-ההפצה מקבץ נתונים לשלוש רמות גאוס להפצה דיגיטלית. ככל שהמרחק ממרכז ההתפלגות גדל, שנקודה מסוימת שייכת להתפלגות ההתפלגות. מופע הלהקות שמפחיתה בהסתברות. כאשר לא נוח לך להניח של הנתונים, צריך להשתמש באלגוריתם אחר.

קיבוץ של דוגמאות באשכולות באמצעות אשכולות שמבוססים על התפלגות. ההצללה של צפיפות הדוגמאות בכל אשכול מראה את אופן המיפוי של האשכולות להתפלגויות.
איור 3: דוגמה לאשכולות לפי הפצה.

אשכולות היררכיים

קיבוץ היררכי יוצר עץ של אשכולות. אשכולות היררכיים, באופן לא מפתיע, הוא מתאים היטב לנתונים היררכיים, כגון טקסונומיות. צפייה השוואה של 61 רצפים של Escherichia coli Genomes מאת אוקסנה לוקינצ'נקו, טרודי ווסנאאר למשל, דייב אוסרי. אפשר לבחור כל מספר של אשכולות על ידי חיתוך העץ ברמה הנכונה.

קבוצות של בעלי חיים מקובצות באמצעות עץ היררכי.
איור 4: דוגמה של עץ היררכי שמקבץ בעלי חיים.