מכיוון שקיבוץ לאשכולות הוא ללא פיקוח, אמת קרקע זמינה לאימות תוצאות. היעדר העובדות מסבך את הערכות האיכות. יתרה על כך, בדרך כלל מערכי נתונים מהעולם האמיתי לא מציעים אשכולות ברורים של דוגמאות שמוצגת באיור 1.
במקום זאת, נתונים מהעולם האמיתי נראים בדרך כלל כמו איור 2, ולכן קשה להעריך באופן חזותי את איכות האשכולות.
עם זאת, יש שיטות היוריסטיקה ושיטות מומלצות שתוכלו ליישם באופן חזרתי כדי לשפר את איכות האשכולות. תרשים הזרימה הבא נותן סקירה כללית של האופן שבו ניתן להעריך את תוצאות האשכולות. נרחיב לגבי כל אחד מהם בכל פעימה.
שלב 1: הערכת איכות האשכולות
קודם כל צריך לבדוק שהאשכולות נראים כמו שציפיתם, ושהדוגמאות שהם דומים זה לזה, מופיעים באותו אשכול.
לאחר מכן מומלץ לבדוק את המדדים הנפוצים הבאים (רשימה חלקית):
- עוצמה (cardinality) של אשכול
- גודל האשכול
- ביצועים במורד הזרם
עוצמה (cardinality) של אשכול
העוצמה (cardinality) של האשכול היא מספר הדוגמאות לכל אשכול. הציגו את אשכול עוצמה (cardinality) של כל האשכולות ולחקור אשכולות הן חריגות בולטות. באיור 2 זה יהיה אשכול 5.
גודל האשכול
גודל האשכול הוא סכום המרחקים מכל הדוגמאות באשכול למרכז האש. הצגת גודל האשכולות עבור כל האשכולות לחקור חריגים. באיור 3, אשכול 0 הוא חריג חשוד טעות.
כדאי גם לבחון את המרחק המקסימלי או הממוצע של דוגמאות ממרכזים, לפי אשכול, כדי למצוא חריגים.
עוצמה לעומת עוצמה (cardinality)
יכול להיות ששמתם לב שעוצמה (cardinality) גבוהה יותר של אשכול תואמת גודל אשכול, שהוא הגיוני מבחינה אינטואיטיבית, מאחר שככל שככל שיש יותר נקודות אשכול (cardinality), כך שהסכום הסביר של המרחקים נקודות מהמרכז (גודל). אפשר גם לזהות אשכולות חריגים אם תחפשו תחומים שבהם הקשר הזה בין עוצמה (cardinality) לבין גודל שונה מאוד מאשר באשכולות אחרים. באיור 4, התאמת קו בתרשים העוצמה והגודל אפשר להסיק שאשכול 0 הוא חריג. (אשכול 5 גם רחוק מהקו, אבל אם אשכול 0 הושמט, החלק החדש יהיה הרבה יותר קרוב לאשכול 5.)
ביצועים במורד הזרם
מכיוון שבדרך כלל משתמשים בפלט של אשכולות במערכות למידת מכונה במורד הזרם, צריך לבדוק אם ביצועי המודל במורד הזרם משתפרים כאשר תהליך הקיבוץ באשכולות משתנה. כך אפשר לבצע הערכה בעולם האמיתי של איכות תוצאות הקיבוץ באשכולות, למרות שביצוע בדיקה כזו יכול להיות מורכב ויקר.
שלב 2: הערכה מחדש של מדד הדמיון
איכות האלגוריתם של הקיבוץ באשכולות לפי מדד הדמיון. כדאי לוודא שמדד הדמיון מחזיר תוצאות הגיוניות. בדיקה מהירה היא לזהות צמדים של דוגמאות שידוע שהן דומות יותר או פחות. חשבו את את הדמיון בין כל זוג דוגמאות, ומשווים את התוצאות אל הידע שלכם: בין צמדים של דוגמאות דומות צריכים להיות דמיון גבוה יותר מאשר זוגות של דוגמאות שאינן דומות.
הדוגמאות שבהן משתמשים כדי לבדוק את מדד הדמיון מייצגים את מערך הנתונים, כך שתוכלו להיות בטוחים שהדמיון כדי למדוד את ההשהיות עבור כל הדוגמאות שלך. הביצועים של מידת הדמיון, ידנית או בפיקוח, חייבת להיות אחידה של הכיתובים. אם מדד הדמיון לא עקבי בחלק מהדוגמאות, לא יקובצו דוגמאות דומות.
אם תמצאו דוגמאות עם ציוני דמיון לא מדויקים, אז מידת הדמיון סביר להניח שהוא לא לוכד באופן מלא את נתוני התכונות שמבדילים בין התכונות האלה דוגמאות. כדאי לנסות את מדד הדמיון עד שיתקבלו יותר תוצאות מדויקות ועקביות.
שלב 3: מוצאים את המספר האופטימלי של האשכולות
k-פירוש הדבר הוא שתצטרכו להחליט כמה אשכולות \(k\) לפני כן. איך האם לקבוע \(k\)אופטימלי? מנסים להריץ את האלגוריתם מגדילים את הערכים של \(k\) ורושמים את הסכום של כל גודל האשכול. בתור \(k\) עליות, אשכולות קטנים יותר, והמרחק הכולל של הנקודות מהמרכזים יורדים. אנחנו יכולים להתייחס למרחק הכולל בתור הפסד. מצאו את המרחק הזה ביחס למספר האשכולות.
כפי שמוצג באיור 5, מעל \(k\)מסוים, הירידה באובדן הופכת שולית עם עלייה ב- \(k\). מומלץ להשתמש ב \(k\) שבו השיפוע עבר שינוי קיצוני, שנקרא המרפק. עבור התרשים שמוצג, האופטימלי \(k\) הוא בערך 11. אם מעדיפים מידע מפורט יותר אשכולות, אפשר לבחור ערך גבוה יותר \(k\), על ידי התייעצות עם התרשים הזה.
שאלות לפתרון בעיות
אם יתגלו בעיות במהלך הבדיקה, צריך להעריך מחדש את הנתונים שלבי ההכנה ובחירת הדמיון. שאל:
- האם קנה המידה של הנתונים נכון?
- האם מידת הדמיון ביניהם נכונה?
- האם האלגוריתם שלכם מבצע פעולות סמנטיות על הנתונים?
- האם ההנחות של האלגוריתם תואמות לנתונים?