כדי לקבץ את הנתונים, מבצעים את השלבים הבאים:
- מכינים נתונים.
- יצירת מדד דמיון.
- הרצת אלגוריתם של קיבוץ לאשכולות.
- לפרש תוצאות ולהתאים את האשכולות.
הדף הזה מציג בקצרה את השלבים. נתעמק בפרטים הבאים .
הכנת נתונים
כמו בכל בעיה בלמידת מכונה, צריך לנרמל, להתאים לעומס ולבצע טרנספורמציה של נתוני פיצ'רים לפני אימון או כוונון של מודל לפי הנתונים האלה. בנוסף, לפני קיבוץ לאשכולות, ודאו שהנתונים המוכנים מאפשרים לבצע חישוב מדויק דמיון בין דוגמאות.
יצירת מדד דמיון
לפני שאלגוריתם של קיבוץ יכול לקבץ נתונים, הוא צריך לדעת את מידת הדמיון כמה צמדים של דוגמאות. אפשר לכמת את הדמיון בין דוגמאות לפי ליצור מדד דמיון, שמחייב הבנה מעמיקה של .
הרצת אלגוריתם של קיבוץ לאשכולות
אלגוריתם של אשכולות משתמש במדד הדמיון כדי ליצור אשכולות של נתונים. בקורס הזה משתמשים ב-k.
פירוש של התוצאות ושינויים
כי קיבוץ לאשכולות לא מייצר או כולל 'אמת' בסיסית שמולו אתם יכול לאמת את הפלט, חשוב לבדוק את התוצאה גם ברמת האשכול וגם ברמת הדוגמה. אם התוצאה נראה מוזר או באיכות נמוכה, נסו לבצע את שלושת השלבים הקודמים. כן, אני רוצה באיטרציה עד שאיכות הפלט תתאים לצרכים שלכם.