خوشه بندی چیست؟

فرض کنید با مجموعه داده ای کار می کنید که شامل اطلاعات بیمار از یک سیستم مراقبت های بهداشتی است. مجموعه داده پیچیده است و شامل هر دو ویژگی دسته بندی و عددی است. شما می خواهید الگوها و شباهت ها را در مجموعه داده پیدا کنید. چگونه ممکن است به این کار نزدیک شوید؟

خوشه بندی یک تکنیک یادگیری ماشینی بدون نظارت است که برای گروه بندی نمونه های بدون برچسب بر اساس شباهت آنها به یکدیگر طراحی شده است. (اگر نمونه ها برچسب گذاری شده باشند، این نوع گروه بندی طبقه بندی نامیده می شود.) یک مطالعه فرضی بیمار را در نظر بگیرید که برای ارزیابی یک پروتکل درمانی جدید طراحی شده است. در طول مطالعه، بیماران گزارش می دهند که چند بار در هفته علائم و شدت علائم را تجربه می کنند. محققان می توانند از تجزیه و تحلیل خوشه بندی برای گروه بندی بیماران با پاسخ های درمانی مشابه در خوشه ها استفاده کنند. شکل 1 یک گروه بندی احتمالی داده های شبیه سازی شده را در سه خوشه نشان می دهد.

در سمت چپ، نموداری از شدت علائم در مقابل تعداد علائم نشان می دهد که نقاط داده ای را نشان می دهد که سه خوشه را نشان می دهد.    در سمت راست، همان نمودار اما با هر یک از سه خوشه رنگی.
شکل 1: نمونه های بدون برچسب گروه بندی شده در سه خوشه (داده های شبیه سازی شده).

با نگاهی به داده های بدون برچسب در سمت چپ شکل 1، می توانید حدس بزنید که داده ها سه خوشه را تشکیل می دهند، حتی بدون تعریف رسمی شباهت بین نقاط داده. با این حال، در برنامه‌های کاربردی دنیای واقعی، باید به صراحت یک معیار تشابه یا معیاری که برای مقایسه نمونه‌ها استفاده می‌شود، از نظر ویژگی‌های مجموعه داده تعریف کنید. وقتی نمونه ها فقط چند ویژگی دارند، تجسم و اندازه گیری شباهت ساده است. اما با افزایش تعداد ویژگی ها، ترکیب و مقایسه ویژگی ها کمتر بصری و پیچیده تر می شود. معیارهای شباهت مختلف ممکن است کم و بیش برای سناریوهای مختلف خوشه‌بندی مناسب باشند، و این دوره به انتخاب معیار شباهت مناسب در بخش‌های بعدی می‌پردازد: معیارهای تشابه دستی و اندازه‌گیری تشابه از جاسازی‌ها .

پس از خوشه بندی، به هر گروه یک برچسب منحصر به فرد به نام Cluster ID اختصاص داده می شود. خوشه‌بندی قدرتمند است زیرا می‌تواند مجموعه داده‌های بزرگ و پیچیده را با ویژگی‌های بسیار به یک شناسه خوشه ساده کند.

موارد استفاده خوشه بندی

خوشه بندی در صنایع مختلف مفید است. برخی از کاربردهای رایج برای خوشه بندی:

  • تقسیم بندی بازار
  • تحلیل شبکه های اجتماعی
  • گروه بندی نتایج جستجو
  • تصویربرداری پزشکی
  • تقسیم بندی تصویر
  • تشخیص ناهنجاری

چند مثال خاص از خوشه بندی:

  • نمودار هرتزسپرونگ-راسل خوشه هایی از ستارگان را هنگامی که بر اساس درخشندگی و دما ترسیم می شود نشان می دهد.
  • توالی ژنی که شباهت‌ها و تفاوت‌های ژنتیکی ناشناخته قبلی را بین گونه‌ها نشان می‌دهد، منجر به تجدیدنظر در طبقه‌بندی‌هایی شده است که قبلاً بر اساس ظواهر انجام می‌شد.
  • مدل 5 بزرگ از ویژگی های شخصیتی با خوشه بندی کلماتی که شخصیت را در 5 گروه توصیف می کنند، ایجاد شد. مدل HEXACO از 6 خوشه به جای 5 خوشه استفاده می کند.

انتساب

هنگامی که برخی از نمونه‌ها در یک خوشه دارای داده‌های ویژگی گمشده هستند، می‌توانید داده‌های گمشده را از نمونه‌های دیگر در خوشه استنتاج کنید. به این می گویند انتساب . برای مثال، برای بهبود توصیه‌های ویدیویی، می‌توان ویدیوهای کمتر محبوب را با ویدیوهای محبوب‌تر دسته‌بندی کرد.

متراکم سازی داده ها

همانطور که بحث شد، شناسه خوشه مربوطه می تواند جایگزین ویژگی های دیگر برای همه نمونه های آن خوشه شود. این جایگزینی تعداد ویژگی ها را کاهش می دهد و بنابراین منابع مورد نیاز برای ذخیره، پردازش و آموزش مدل ها را بر روی آن داده ها نیز کاهش می دهد. برای مجموعه داده های بسیار بزرگ، این پس انداز قابل توجه است.

برای مثال، یک ویدیوی YouTube منفرد می‌تواند داده‌های ویژگی داشته باشد از جمله:

  • مکان بیننده، زمان، و جمعیت
  • مُهرهای زمان، متن و شناسه‌های کاربر نظر دهید
  • برچسب های ویدیویی

خوشه‌بندی ویدیوهای YouTube این مجموعه از ویژگی‌ها را با یک شناسه خوشه جایگزین می‌کند، بنابراین داده‌ها را فشرده می‌کند.

حفظ حریم خصوصی

می‌توانید با خوشه‌بندی کاربران و مرتبط کردن داده‌های کاربر با شناسه‌های خوشه‌ای به جای شناسه‌های کاربر، حریم خصوصی را تا حدودی حفظ کنید. برای ارائه یک مثال ممکن، بگویید می‌خواهید مدلی را در سابقه تماشای کاربران YouTube آموزش دهید. به جای ارسال شناسه های کاربری به مدل، می توانید کاربران را خوشه بندی کنید و فقط شناسه خوشه را ارسال کنید. این باعث می‌شود تاریخچه‌های تماشای فردی به کاربران فردی متصل نشود. توجه داشته باشید که برای حفظ حریم خصوصی، خوشه باید دارای تعداد کافی کاربر باشد.