خوشه بندی چیست؟

وقتی سعی می کنید در مورد چیزی یاد بگیرید، مثلاً موسیقی، یک رویکرد ممکن است جستجوی گروه ها یا مجموعه های معنادار باشد. شما ممکن است موسیقی را بر اساس سبک سازماندهی کنید، در حالی که دوست شما ممکن است موسیقی را بر اساس دهه سازماندهی کند. نحوه گروه بندی آیتم ها به شما کمک می کند تا در مورد آنها به عنوان تک تک قطعات موسیقی بیشتر بدانید. ممکن است متوجه شوید که تمایل عمیقی به پانک راک دارید و بیشتر این ژانر را به رویکردهای مختلف یا موسیقی از مکان های مختلف تقسیم می کنید. از طرف دیگر، دوست شما ممکن است به موسیقی دهه 1980 نگاه کند و بتواند بفهمد که چگونه موسیقی در ژانرهای مختلف در آن زمان تحت تأثیر جو اجتماعی-سیاسی قرار گرفته است. در هر دو مورد، شما و دوستتان چیز جالبی در مورد موسیقی یاد گرفته اید، حتی اگر رویکردهای متفاوتی داشته باشید.

در یادگیری ماشینی نیز، ما اغلب نمونه ها را به عنوان اولین گام برای درک موضوع (مجموعه داده ها) در سیستم یادگیری ماشین گروه بندی می کنیم. گروه بندی نمونه های بدون برچسب را خوشه بندی می گویند.

از آنجایی که نمونه ها بدون برچسب هستند، خوشه بندی به یادگیری ماشینی بدون نظارت متکی است. اگر نمونه ها برچسب گذاری شوند، خوشه بندی به طبقه بندی تبدیل می شود. برای بحث دقیق‌تر در مورد روش‌های نظارت‌شده و بدون نظارت، به مقدمه‌ای بر چارچوب‌بندی مسائل یادگیری ماشین مراجعه کنید.

نموداری که سه خوشه را نمایش می دهد
شکل 1: نمونه های بدون برچسب در سه خوشه گروه بندی شده اند.

قبل از اینکه بتوانید نمونه های مشابه را گروه بندی کنید، ابتدا باید نمونه های مشابه را پیدا کنید. می‌توانید شباهت بین مثال‌ها را با ترکیب داده‌های ویژگی نمونه‌ها در یک متریک اندازه‌گیری کنید که اندازه‌گیری شباهت نامیده می‌شود. وقتی هر مثال با یک یا دو ویژگی تعریف می شود، اندازه گیری شباهت آسان است. به عنوان مثال، شما می توانید کتاب های مشابه از نویسندگان آنها را پیدا کنید. با افزایش تعداد ویژگی ها، ایجاد یک اندازه گیری شباهت پیچیده تر می شود. بعداً خواهیم دید که چگونه در سناریوهای مختلف یک معیار تشابه ایجاد کنیم.

کاربردهای خوشه بندی چیست؟

خوشه بندی کاربردهای بی شماری در صنایع مختلف دارد. برخی از کاربردهای رایج برای خوشه بندی شامل موارد زیر است:

  • تقسیم بندی بازار
  • تحلیل شبکه های اجتماعی
  • گروه بندی نتایج جستجو
  • تصویربرداری پزشکی
  • تقسیم بندی تصویر
  • تشخیص ناهنجاری

پس از خوشه بندی، به هر خوشه شماره ای به نام خوشه شناسه اختصاص داده می شود. اکنون، می‌توانید کل مجموعه ویژگی‌ها را برای مثال در شناسه خوشه آن متراکم کنید. نمایش یک مثال پیچیده توسط یک شناسه خوشه ساده، خوشه بندی را قدرتمند می کند. با گسترش این ایده، خوشه بندی داده ها می تواند مجموعه داده های بزرگ را ساده کند.

به عنوان مثال، می توانید موارد را بر اساس ویژگی های مختلف گروه بندی کنید، همانطور که در مثال های زیر نشان داده شده است:

مثال ها
  • ستارگان را بر اساس روشنایی گروه بندی کنید.
  • ارگانیسم ها را بر اساس اطلاعات ژنتیکی در یک طبقه بندی گروه بندی کنید.
  • اسناد را بر اساس موضوع گروه بندی کنید.

سپس سیستم های یادگیری ماشینی می توانند از شناسه های خوشه ای برای ساده سازی پردازش مجموعه داده های بزرگ استفاده کنند. بنابراین، خروجی خوشه‌بندی به عنوان داده ویژگی برای سیستم‌های ML پایین دستی عمل می‌کند.

در Google، خوشه‌بندی برای تعمیم، فشرده‌سازی داده‌ها و حفظ حریم خصوصی در محصولاتی مانند ویدیوهای YouTube، برنامه‌های Play، و آهنگ‌های موسیقی استفاده می‌شود.

تعمیم

هنگامی که برخی از نمونه‌ها در یک خوشه دارای داده‌های ویژگی گمشده هستند، می‌توانید داده‌های گمشده را از نمونه‌های دیگر در خوشه استنتاج کنید.

مثال
برای بهبود توصیه‌های ویدیویی، می‌توان ویدیوهای کمتر محبوب را با ویدیوهای محبوب‌تر دسته‌بندی کرد.

متراکم سازی داده ها

همانطور که بحث شد، داده های ویژگی برای همه نمونه های یک خوشه را می توان با شناسه خوشه مربوطه جایگزین کرد. این جایگزینی داده های ویژگی را ساده می کند و ذخیره سازی را ذخیره می کند. این مزایا زمانی قابل توجه می شوند که به مجموعه داده های بزرگ مقیاس شوند. علاوه بر این، سیستم‌های یادگیری ماشینی می‌توانند از شناسه خوشه به‌عنوان ورودی به‌جای کل مجموعه داده‌های ویژگی استفاده کنند. کاهش پیچیدگی داده‌های ورودی، آموزش مدل ML را ساده‌تر و سریع‌تر می‌کند.

مثال
داده‌های ویژگی برای یک ویدیوی YouTube می‌تواند شامل موارد زیر باشد:
  • داده های بیننده در مورد مکان، زمان، و جمعیت
  • داده های نظر با مُهر زمانی، متن و شناسه کاربر
  • برچسب های ویدیویی
خوشه‌بندی ویدیوهای YouTube به شما امکان می‌دهد این مجموعه از ویژگی‌ها را با یک شناسه خوشه جایگزین کنید، بنابراین داده‌های خود را فشرده کنید.

حفظ حریم خصوصی

می‌توانید با خوشه‌بندی کاربران، و مرتبط کردن داده‌های کاربر با شناسه‌های خوشه‌ای به جای کاربران خاص، حریم خصوصی را حفظ کنید. برای اطمینان از اینکه نمی توانید داده های کاربر را با یک کاربر خاص مرتبط کنید، خوشه باید تعداد کافی کاربر را گروه بندی کند.

مثال
فرض کنید می‌خواهید سابقه ویدیویی کاربران YouTube را به مدل خود اضافه کنید. به جای تکیه بر شناسه کاربری، می توانید کاربران را خوشه بندی کنید و به جای آن به شناسه خوشه تکیه کنید. اکنون، مدل شما نمی‌تواند سابقه ویدیو را با یک کاربر خاص مرتبط کند، بلکه فقط با یک شناسه خوشه‌ای که نشان‌دهنده گروه بزرگی از کاربران است.