היתרונות והחסרונות של K

המשמעות של K היא שימוש יעיל בהקשרים רבים של למידת מכונה, כמה חולשות מובהקות.

היתרונות של k-

פשוט יחסית להטמעה.

התאמה לקבוצות נתונים גדולות.

תמיד מתכנסת.

מאפשר הפעלה חמה של מיקומי הצנטרואידים.

הסתגלות חלקה לדוגמאות חדשות.

אפשר להכליל אותו על אשכולות של צורות וגדלים, למשל אשכולות אליפטיים.

הכללת k

יישום ישיר של k-כלומר יכול להתמודד עם אשכולות של דחיסות וגדלים שונים. בצד שמאל של איור 1 מוצגים האשכולות שרצינו לראות, בעוד שהצד הימני מציג את האשכולות שמוצעים על ידי k.

שני תרשימים זה לצד זה. הראשון הוא מערך נתונים עם אשכולות ברורים במידה מסוימת. השנייה מציגה קיבוץ אי-זוגי של דוגמאות אחרי הרצת k.
איור 1: דוגמה לשימוש לא כללי.

לביצועים טובים יותר באשכולות לא מאוזנים כמו אלה המוצגים באיור 1, אפשר ליצור כללי, כלומר, להתאים, כלומר. איור 2 מציג שלושה מערכי נתונים שמקובצים בשתי הכללות שונות. במערך הנתונים הראשון כלומר ללא הכללה, בעוד שהשני והשלישי מאפשרים לאשכולות רוחב שונה.

שלושה תרשימים שמציגים k-כלומר ללא הכללה, ואז k-
       כלומר, שימוש במידות רוחב שונות, אז k-פירוש הדבר שאפשר להגדיר במידות רוחב שונות
       במאפיינים שונים.
איור 2: המשמעות של קיבוץ באשכולות עם וללא הכללה.

הקורס הזה לא כולל איך ליצור הכללות של k, אבל אלה שמתעניינים אמור להופיע אשכולות – k-כלומר, תערובת גאוסיאנית דגמים מאת קרלוס אורחרין מאוניברסיטת קרנגי מלון.

החסרונות של k-

צריך לבחור את\(k\) באופן ידני.

התוצאות תלויות בערכים הראשוניים.

עם ערך \(k\)נמוך, אפשר לצמצם את התלות הזאת על ידי הרצת k-כלומר עם ערכים ראשוניים שונים ולבחור בתוצאה הטובה ביותר. בתור \(k\) עם עלייה, נדרש k-כלומר כדי לבחור ערכים ראשוניים טובים יותר לדיון מלא על זרעים של k-כלומר, "מודל השוואה מחקר של שיטות אתחול יעילות עבור אשכולות K Algorithm," מאת מ. אמרה סלבי, חסן א. Kingravi ו-Patricio A. ולה.

קשיים בקיבוץ נתונים בגדלים שונים ובמצבים שונים צפיפות ללא הכללה.

קשיים בקיבוץ של חריגים חשודי טעות.

ניתן לגרור צנטרואידים על ידי חריגים, או שחריגים חריגים עשויים לקבל אשכול משלהם במקום להתעלם. כדאי להסיר או לחתוך חריגים לפני כן וקיבוץ לאשכולות.

קושי לבצע התאמה לעומס (scaling) באמצעות מספר מאפיינים.

ככל שמספר המאפיינים בנתונים עולה, כך דמיון לפי המרחק. הפונקציה מתכנסת לערך קבוע בין כל הדוגמאות הנתונים. הקטנה מימדיות באמצעות PCA על נתוני התכונות או על ידי שימוש בקיבוץ ספקטרלי כדי לשנות את האשכולות באלגוריתם כלשהו.

קללת הממדים והקיבוץ ספקטרלי

בשלושת החלקים האלה, שימו לב לסטיית התקן של סטיית התקן ככל שהמאפיינים גדלים במרחק בין דוגמאות, מתכווץ ביחס למרחק הממוצע בין דוגמאות. הזה והפירוש של המילה K הוא פחות יעיל בהבחנה כאשר מידות הנתונים גדלות. נקרא קללת הממדים.

שלושה תרשימים שמראים כיצד סטיית התקן של המרחק בין דוגמאות יורדת ככל שמספר המאפיינים גדל
איור 3: הדגמה של קללת הממדים. בכל תרשים מוצגים מרחקים אקראיים בין 200 נקודות אקראיות.

אפשר להימנע מהירידה הזו בביצועים באמצעות אשכולות ספקטרליים, שמוסיפה לאלגוריתם שלבים לקיבוץ נתונים מראש. לבצע ספקטרל קיבוץ לאשכולות:

  1. צמצום המידות של נתוני התכונות באמצעות PCA.
  2. הפרויקט של כל נקודות הנתונים בתת-המרחב הקטן ביותר.
  3. אתם יכולים לקבץ את הנתונים בתת-המרחב הזה באמצעות האלגוריתם שבחרתם.

ראה מדריך בנושא ספקטרום יצירת אשכולות של Ulrike von לוקסבורג למידע נוסף על ספקטרל וקיבוץ לאשכולות.