وقتی سعی می کنید در مورد چیزی یاد بگیرید، مثلاً موسیقی، یک رویکرد ممکن است جستجوی گروه ها یا مجموعه های معنادار باشد. شما ممکن است موسیقی را بر اساس سبک سازماندهی کنید، در حالی که دوست شما ممکن است موسیقی را بر اساس دهه سازماندهی کند. نحوه گروه بندی آیتم ها به شما کمک می کند تا در مورد آنها به عنوان تک تک قطعات موسیقی بیشتر بدانید. ممکن است متوجه شوید که تمایل عمیقی به پانک راک دارید و بیشتر این ژانر را به رویکردهای مختلف یا موسیقی از مکان های مختلف تقسیم می کنید. از طرف دیگر، دوست شما ممکن است به موسیقی دهه 1980 نگاه کند و بتواند بفهمد که چگونه موسیقی در ژانرهای مختلف در آن زمان تحت تأثیر جو اجتماعی-سیاسی قرار گرفته است. در هر دو مورد، شما و دوستتان چیز جالبی در مورد موسیقی یاد گرفته اید، حتی اگر رویکردهای متفاوتی داشته باشید.
در یادگیری ماشینی نیز، ما اغلب نمونه ها را به عنوان اولین گام برای درک موضوع (مجموعه داده ها) در سیستم یادگیری ماشین گروه بندی می کنیم. گروه بندی نمونه های بدون برچسب را خوشه بندی می گویند.
از آنجایی که نمونه ها بدون برچسب هستند، خوشه بندی به یادگیری ماشینی بدون نظارت متکی است. اگر نمونه ها برچسب گذاری شوند، خوشه بندی به طبقه بندی تبدیل می شود. برای بحث دقیقتر در مورد روشهای نظارتشده و بدون نظارت، به مقدمهای بر چارچوببندی مسائل یادگیری ماشین مراجعه کنید.
قبل از اینکه بتوانید نمونه های مشابه را گروه بندی کنید، ابتدا باید نمونه های مشابه را پیدا کنید. میتوانید شباهت بین مثالها را با ترکیب دادههای ویژگی نمونهها در یک متریک اندازهگیری کنید که اندازهگیری شباهت نامیده میشود. وقتی هر مثال با یک یا دو ویژگی تعریف می شود، اندازه گیری شباهت آسان است. به عنوان مثال، شما می توانید کتاب های مشابه از نویسندگان آنها را پیدا کنید. با افزایش تعداد ویژگی ها، ایجاد یک اندازه گیری شباهت پیچیده تر می شود. بعداً خواهیم دید که چگونه در سناریوهای مختلف یک معیار تشابه ایجاد کنیم.
کاربردهای خوشه بندی چیست؟
خوشه بندی کاربردهای بی شماری در صنایع مختلف دارد. برخی از کاربردهای رایج برای خوشه بندی شامل موارد زیر است:
- تقسیم بندی بازار
- تحلیل شبکه های اجتماعی
- گروه بندی نتایج جستجو
- تصویربرداری پزشکی
- تقسیم بندی تصویر
- تشخیص ناهنجاری
پس از خوشه بندی، به هر خوشه شماره ای به نام خوشه شناسه اختصاص داده می شود. اکنون، میتوانید کل مجموعه ویژگیها را برای مثال در شناسه خوشه آن متراکم کنید. نمایش یک مثال پیچیده توسط یک شناسه خوشه ساده، خوشه بندی را قدرتمند می کند. با گسترش این ایده، خوشه بندی داده ها می تواند مجموعه داده های بزرگ را ساده کند.
به عنوان مثال، می توانید موارد را بر اساس ویژگی های مختلف گروه بندی کنید، همانطور که در مثال های زیر نشان داده شده است:
مثال ها |
---|
|
سپس سیستم های یادگیری ماشینی می توانند از شناسه های خوشه ای برای ساده سازی پردازش مجموعه داده های بزرگ استفاده کنند. بنابراین، خروجی خوشهبندی به عنوان داده ویژگی برای سیستمهای ML پایین دستی عمل میکند.
در Google، خوشهبندی برای تعمیم، فشردهسازی دادهها و حفظ حریم خصوصی در محصولاتی مانند ویدیوهای YouTube، برنامههای Play، و آهنگهای موسیقی استفاده میشود.
تعمیم
هنگامی که برخی از نمونهها در یک خوشه دارای دادههای ویژگی گمشده هستند، میتوانید دادههای گمشده را از نمونههای دیگر در خوشه استنتاج کنید.
مثال |
---|
برای بهبود توصیههای ویدیویی، میتوان ویدیوهای کمتر محبوب را با ویدیوهای محبوبتر دستهبندی کرد. |
متراکم سازی داده ها
همانطور که بحث شد، داده های ویژگی برای همه نمونه های یک خوشه را می توان با شناسه خوشه مربوطه جایگزین کرد. این جایگزینی داده های ویژگی را ساده می کند و ذخیره سازی را ذخیره می کند. این مزایا زمانی قابل توجه می شوند که به مجموعه داده های بزرگ مقیاس شوند. علاوه بر این، سیستمهای یادگیری ماشینی میتوانند از شناسه خوشه بهعنوان ورودی بهجای کل مجموعه دادههای ویژگی استفاده کنند. کاهش پیچیدگی دادههای ورودی، آموزش مدل ML را سادهتر و سریعتر میکند.
مثال |
---|
دادههای ویژگی برای یک ویدیوی YouTube میتواند شامل موارد زیر باشد:
|
حفظ حریم خصوصی
میتوانید با خوشهبندی کاربران، و مرتبط کردن دادههای کاربر با شناسههای خوشهای به جای کاربران خاص، حریم خصوصی را حفظ کنید. برای اطمینان از اینکه نمی توانید داده های کاربر را با یک کاربر خاص مرتبط کنید، خوشه باید تعداد کافی کاربر را گروه بندی کند.
مثال |
---|
فرض کنید میخواهید سابقه ویدیویی کاربران YouTube را به مدل خود اضافه کنید. به جای تکیه بر شناسه کاربری، می توانید کاربران را خوشه بندی کنید و به جای آن به شناسه خوشه تکیه کنید. اکنون، مدل شما نمیتواند سابقه ویدیو را با یک کاربر خاص مرتبط کند، بلکه فقط با یک شناسه خوشهای که نشاندهنده گروه بزرگی از کاربران است. |