מערכי נתונים של למידת מכונה יכולים לכלול מיליונים אבל לא כל האלגוריתמים של האשכולות משתנים ביעילות. אשכולות רבים שמחשבים את הדמיון בין כל צמדי הדוגמאות, כלומר, זמן הריצה שלהם גדל כריבוע של מספר הדוגמאות \(n\), מסומנים בתור \(O(n^2)\) בסימון מורכבות. \(O(n^2)\) אלגוריתמים לא שימושי למערכי נתונים עם מיליוני דוגמאות.
באלגוריתם k-כלומר יש של \(O(n)\), כלומר האלגוריתם מבצע התאמה באופן לינארי עם \(n\). הקורס הזה יתמקד באלגוריתם הזה.
סוגי אשכולות
לרשימה מקיפה של הגישות השונות לקיבוץ באשכולות: סקר מקיף של אלגוריתמים של אשכולות Xu, D. & טיאן, י. אן. נתונים. מדע בדיוני. (2015) 2: 165. כל גישה היא התפלגות נתונים מסוימת. בקורס הזה נדון בקצרה על ארבעה גישות שונות.
גיבוש דפי אינטרנט לאשכולות לפי מרכז
המרכז של אשכול הוא הממוצע החשבוןי של כל הנקודות אשכול. באשכולות שמבוססים על סנטרואידים הנתונים מסודרים לפי היררכיה לא היררכית. אשכולות. אלגוריתמים מבוססי-מרכז ליצירת אשכולות הם יעילים אבל רגישים תנאים ראשוניים וחריגים יוצאי דופן. מבין אלה, המשמעות של k-הוא בשימוש נרחב. המשתמשים נדרשים להגדיר את מספר המרכזים, k היא פועלת היטב עם אשכולות בגודל דומה.
אשכולות לפי דחיסות
גיבוש דפי אינטרנט על בסיס דחיסות מחבר בין אזורים רציפים של צפיפות דוגמאות גבוהה לתוך אשכולות. כך ניתן לגלות כל מספר של צבירים בכל צורה. חריגים חשודי טעות לא מוקצים לאשכולות. האלגוריתמים האלה מתקשים אשכולות עם צפיפות ונתונים שונים עם מימדים גבוהים.
אשכולות מבוססי הפצה
גישת הקיבוץ הזו מבוססת על ההנחה שהנתונים מורכבים מהסתברות של התפלגויות, כמו הפצות גאוסיאניות. לחשבון איור 3, האלגוריתם מבוסס-ההפצה מקבץ נתונים לשלוש רמות גאוס להפצה דיגיטלית. ככל שהמרחק ממרכז ההתפלגות גדל, שנקודה מסוימת שייכת להתפלגות ההתפלגות. מופע הלהקות שמפחיתה בהסתברות. כאשר לא נוח לך להניח של הנתונים, צריך להשתמש באלגוריתם אחר.
אשכולות היררכיים
קיבוץ היררכי יוצר עץ של אשכולות. אשכולות היררכיים, באופן לא מפתיע, הוא מתאים היטב לנתונים היררכיים, כגון טקסונומיות. צפייה השוואה של 61 רצפים של Escherichia coli Genomes מאת אוקסנה לוקינצ'נקו, טרודי ווסנאאר למשל, דייב אוסרי. אפשר לבחור כל מספר של אשכולות על ידי חיתוך העץ ברמה הנכונה.