נניח שאתם עובדים עם מערך נתונים שכולל נתונים על מטופלים במערכת הבריאות. מערך הנתונים מורכב וכולל גם קטגורית וגם תכונות מספריות. אתם רוצים למצוא דפוסים וקווי דמיון במערך הנתונים. מה הגישה שלך למשימה הזו?
Clustering היא פלטפורמה שלא מפוקחת של למידת מכונה דוגמאות ללא תווית בהתאם לדמיון ביניהם. (אם הדוגמאות מסומנות בתווית, סוג הקיבוץ נקרא סיווג). חשבו על מטופל היפותטי מחקר שנועד להעריך פרוטוקול טיפול חדש. במהלך המחקר, המטופלים לדווח כמה פעמים בשבוע הם חווים תסמינים ועל חומרת תסמינים. חוקרים יכולים להשתמש בניתוח אשכולות כדי לקבץ מטופלים עם מאפיינים דומים התגובות של הניסוי מקובצות לאשכולות. איור 1 מדגים קיבוץ אפשרי אחד של סימולציה של נתונים לשלושה אשכולות.
עיינו בנתונים הלא מתויגים בצד ימין של איור 1, כדי לנחש הנתונים מורכבים משלושה אשכולות, גם ללא הגדרה רשמית של דמיון בין נקודות על הגרף. אבל באפליקציות בעולם האמיתי צריך מגדירים מידת דמיון, או המדד שמשמש להשוואת מדגמים, התכונות של מערך הנתונים. אם בדוגמאות יש רק כמה תכונות, להמחיש ולמדוד את הדמיון בקלות. אבל ככל שהמספר של הגדלת התכונות, השילוב וההשוואה של תכונות הופכות להיות פחות אינטואיטיביות ומורכב יותר. ייתכן שמדדי דמיון שונים מתאימים יותר או פחות לתרחישי אשכולות שונים, והקורס הזה יעסוק בבחירת את מידת הדמיון המתאימה בקטעים מאוחרים יותר: מדדי דמיון ידניים וגם מידת הדמיון מהטמעות.
אחרי הקיבוץ, לכל קבוצה מוקצית תווית ייחודית שנקראת מזהה אשכול. השימוש באשכולות הוא רב-עוצמה, כי הוא יכול לפשט מערכי נתונים גדולים ומורכבים באמצעות הרבה תכונות למזהה אשכול יחיד.
תרחישים לדוגמה של יצירת אשכולות
יצירת אשכולות היא שימושית במגוון תחומים. מספר אפליקציות נפוצות לקיבוץ באשכולות:
- פילוח שוק
- ניתוח של רשתות חברתיות
- קיבוץ תוצאות חיפוש
- דימות רפואי
- סגמנטציה של תמונות
- זיהוי אנומליות
כמה דוגמאות ספציפיות של קיבוץ לאשכולות:
- תרשים הרצספורונג-ראסל מציג מצברים של כוכבים כשהם מיוצגים לפי בהירות וטמפרטורה.
- רצף גנים שמציג דמיון גנטי לא ידוע קודם לכן חוסר דמיון בין מינים גרם לשינוי בטקסונומיות בהתאם למראה שלו.
- 5 הגדולים של תכונות אישיות פותח על ידי קיבוץ מילים מתארים את האישיות ב-5 קבוצות. HEXACO משתמש ב-6 אשכולות במקום ב-5.
הטמעה
אם בחלק מהדוגמאות באשכול חסרים נתוני מאפיינים, אפשר להסיק חסרים נתונים מדוגמאות אחרות באשכול. סוג הלמידה הזה נקרא imputation. לדוגמה, אפשר לקבץ סרטונים פחות פופולריים לצד סרטונים פופולריים יותר כדי לשפר את ההמלצות על סרטונים.
דחיסת נתונים
כפי שצוין, מזהה האשכול הרלוונטי יכול להחליף תכונות אחרות לכל דוגמאות באשכול הזה. ההחלפה הזו מפחיתה את מספר התכונות ולכן גם מפחית את המשאבים הנדרשים לאחסון, לעיבוד ולאימון של מודלים לפי הנתונים האלה. במערכי נתונים גדולים מאוד, החיסכון הזה משמעותי.
לדוגמה, סרטון YouTube יחיד יכול לכלול נתונים על תכונות, כולל:
- המיקום, השעה והדמוגרפיה של הצופה
- חותמות זמן של תגובות, טקסט ומזהי משתמשים
- תגים בסרטון
יצירת אשכולות של סרטוני YouTube מחליפה את קבוצת התכונות הזו מזהה אשכול יחיד, וכך לדחוס את הנתונים.
שמירה על הפרטיות
אפשר לשמור במידה מסוימת על הפרטיות על ידי יצירת אשכולות של משתמשים ושיוך של נתוני משתמשים עם מזהי אשכולות במקום מזהי משתמשים. כדי לתת דוגמה אפשרית אחת, נניח שאתם רוצים לאמן מודל היסטוריית צפייה. במקום להעביר מזהי משתמשים אפשר ליצור אשכולות של משתמשים ולהעביר רק את מזהה האשכול. הזה מונעת שיוך של היסטוריית צפייה מסוימת למשתמשים ספציפיים. הערה שהאשכול חייב להכיל מספר גדול מספיק של משתמשים כדי לשמור על הפרטיות.