מהו אשכול?

כשאתם מנסים ללמוד משהו, למשל מוזיקה, אחת מהגישות היא לחפש קבוצות או אוספים משמעותיים. תוכלו לארגן מוזיקה לפי ז'אנר, ואילו החבר/ה שלכם עשוי/ה לארגן מוזיקה לפי עשור. האופן שבו אתם בוחרים לקבץ פריטים עוזר לכם להבין אותם כיצירות מוזיקה ספציפיות. אתם עשויים לגלות שיש לכם תחום עניין משותף של רוק פאנק, ולהוסיף עוד ז'אנרים לגישות שונות או למוזיקה ממיקומים שונים. מצד שני, החבר שלכם עשוי לבחון את המוזיקה משנות ה-80 של המאה ה-20 ולהבין איך המוזיקה מהז'אנרים הבאים באותו זמן הושפעה מהאקלים החברתי. בשני המקרים, אתם והחבר שלכם למדתם משהו מעניין על מוזיקה, למרות שנקטתם גישות שונות.

בלמידה חישובית, גם אנחנו מקבצים דוגמאות כשלב ראשון כדי להבין נושא (קבוצת נתונים) במערכת של למידה חישובית. קיבוץ דוגמאות ללא תווית נקרא קיבוץ.

מאחר שהדוגמאות אינן מסומנות, האשכול מסתמך על למידה חישובית לא מפוקחת. אם הדוגמאות מסומנות, האשכולות הופכים לסיווג. לדיון מפורט יותר על השיטות בפיקוח וללא פיקוח, קראו את המאמר מבוא לפתרון בעיות בלמידת מכונה.

תרשים שבו מוצגים שלושה אשכולות
איור 1: דוגמאות ללא תוויות מקובצות לשלושה אשכולות.

כדי לקבץ דוגמאות דומות, קודם צריך למצוא דוגמאות דומות. כדי למדוד דמיון בין דוגמאות, אפשר לשלב את נתוני התכונות של הדוגמאות למדד שנקרא מידת דמיון. כאשר כל דוגמה מוגדרת על ידי תכונה אחת או שתיים, קל למדוד דמיון. למשל, אפשר לחפש ספרים דומים של המחברים שלהם. ככל שמספר התכונות גדל, כך נוכל ליצור דמיון דומה יותר. בהמשך נראה איך ליצור מדד דמיון בתרחישים שונים.

מהם השימוש באשכולות?

באשכולות יש מגוון רחב של תחומים. כמה אפליקציות נפוצות לאשכולות כוללות:

  • פילוח שוק
  • ניתוח של רשתות חברתיות
  • קיבוץ תוצאות חיפוש
  • דימות רפואי
  • פילוח תמונות
  • זיהוי אנומליות

אחרי אשכול, לכל אשכול מוקצה מספר שנקרא מזהה אשכול. עכשיו אפשר לרכז את כל מערך התכונות לדוגמה במזהה האשכול שלו. ייצוג לדוגמה מורכבת באמצעות מזהה אשכול פשוט מחזק את האשכול. כדי להרחיב את הרעיון, שימוש באשכולות יכול לפשט מערכי נתונים גדולים.

לדוגמה, תוכלו לקבץ פריטים לפי תכונות שונות, כפי שמתואר בדוגמאות הבאות:

דוגמאות
  • מקבצים כוכבים לפי בהירות.
  • קיבוץ אורגניזמים לפי מידע גנטי לטקסונומיה.
  • מקבצים מסמכים לפי נושא.

לאחר מכן, מערכות הלמידה החישובית יכולות להשתמש במזהי אשכולות כדי לפשט את העיבוד של מערכי נתונים גדולים. לכן, הפלט של אשכולות משמש כנתוני תכונה עבור מערכות למידת מכונה ב-downstream.

ב-Google, האשכולות משמשים להכללה, לדחיסת נתונים ולשמירה על פרטיות במוצרים כמו סרטוני YouTube, אפליקציות Play וטראקים של מוזיקה.

הכללה

אם בכמה דוגמאות באשכול חסרים נתוני תכונות, תוכלו להסיק את הנתונים החסרים מדוגמאות אחרות באשכול.

דוגמה
כדי לקבל המלצות טובות יותר על סרטונים, כדאי לקבץ אותם.

דחיסת נתונים

כפי שצוין, אפשר להחליף את נתוני התכונות של כל הדוגמאות באשכול במזהה הרלוונטי באשכול. ההחלפה הזו מפשטת את נתוני התכונה וחוסכת נפח אחסון. היתרונות האלה הופכים למשמעותיים יותר ככל שמערכי הנתונים שלהם גדולים. כמו כן, מערכות למידה חישובית יכולות להשתמש במזהה האשכול בתור קלט במקום במערך הנתונים של כל התכונות. צמצום המורכבות של נתוני הקלט הופך את מודל ה-ML לפשוט וקל יותר לאימון.

דוגמה
נתוני התכונות בסרטון אחד ב-YouTube יכולים לכלול:
  • נתוני צופים לגבי מיקום, זמן ודמוגרפיה
  • נתוני תגובות עם חותמות זמן, טקסט ומזהי משתמשים
  • תגי סרטונים
אשכול סרטונים ב-YouTube מאפשר להחליף את קבוצת התכונות הזו במזהה של אשכול אחד, כדי לדחוס את הנתונים.

שימור פרטיות

תוכלו גם לשמור על הפרטיות על ידי אשכול משתמשים, לשייך נתוני משתמשים למזהי משתמשים במקום למשתמשים ספציפיים. כדי להבטיח שלא תוכלו לשייך את נתוני המשתמש למשתמש מסוים, אשכול חייב לקבץ מספיק משתמשים.

דוגמה
נניח שאתם רוצים להוסיף למודל את היסטוריית הסרטונים של משתמשי YouTube. במקום להסתמך על מזהה המשתמש, אתם יכולים לקבץ משתמשים ולהסתמך על מזהה האשכול במקום זאת. עכשיו, המודל לא יכול לשייך את היסטוריית הסרטונים למשתמש מסוים, אלא רק למזהה אשכול שמייצג קבוצה גדולה של משתמשים.