مزایا و معایب k-means

K-means در بسیاری از زمینه های یادگیری ماشین مفید و کارآمد است، اما دارای نقاط ضعف مشخصی است.

مزایای k-means

اجرای نسبتا ساده

مقیاس به مجموعه داده های بزرگ.

همیشه همگرا می شود.

اجازه می دهد تا موقعیت های سانتروئیدها را گرم شروع کنید.

به آرامی با نمونه های جدید سازگار می شود.

را می توان به خوشه هایی با اشکال و اندازه های مختلف، مانند خوشه های بیضی تعمیم داد.

تعمیم k-means

اجرای ساده k-means می تواند با خوشه هایی با چگالی و اندازه های مختلف مبارزه کند. سمت چپ شکل 1 خوشه هایی را نشان می دهد که انتظار داریم ببینیم، در حالی که سمت راست خوشه های پیشنهاد شده با k-means را نشان می دهد.

دو نمودار در کنار هم اولی مجموعه داده ای را با خوشه های تا حدودی آشکار نشان می دهد. دومی گروه بندی فرد مثال ها را پس از اجرای k-means نشان می دهد.
شکل 1: مثال k-means تعمیم نیافته.

برای عملکرد بهتر در خوشه های نامتعادل مانند آنچه در شکل 1 نشان داده شده است، می توانید تعمیم دهید، یعنی، k-means را تطبیق دهید. شکل 2 سه مجموعه داده مختلف را نشان می دهد که با دو تعمیم متفاوت خوشه بندی شده اند. مجموعه داده اول k-means را بدون تعمیم نشان می دهد، در حالی که مجموعه دوم و سوم اجازه می دهد تا خوشه ها در عرض متفاوت باشند.

سه نمودار که k-means را بدون تعمیم نشان می دهد، سپس k-means اجازه می دهد تا عرض های مختلف، سپس k-means اجازه می دهد برای عرض های مختلف در ابعاد.
شکل 2: k-به معنی خوشه بندی با و بدون تعمیم.

این دوره نحوه تعمیم k-means را پوشش نمی دهد، اما علاقه مندان باید Clustering – مدل های مخلوط گاوسی k-means توسط کارلوس گسترین از دانشگاه کارنگی ملون را مشاهده کنند.

معایب k-means

\(k\) باید به صورت دستی انتخاب شود.

نتایج به مقادیر اولیه بستگی دارد.

برای \(k\)کم، می توانید این وابستگی را با اجرای k-means چندین بار با مقادیر اولیه متفاوت و انتخاب بهترین نتیجه کاهش دهید. با افزایش \(k\)، برای انتخاب مرکزهای اولیه بهتر به بذر k-means نیاز دارید . ، حسن ا. کینگراوی و پاتریسیو آ. ولا.

مشکل در خوشه‌بندی داده‌ها با اندازه‌ها و چگالی‌های مختلف بدون تعمیم.

مشکل در خوشه بندی نقاط پرت.

Centroids را می توان توسط پرت کشیدند، یا نقاط پرت ممکن است به جای نادیده گرفتن، خوشه خود را بدست آورند. قبل از خوشه بندی، حذف یا برش نقاط پرت را در نظر بگیرید.

مشکل در مقیاس بندی با تعداد ابعاد.

با افزایش تعداد ابعاد در داده ها، اندازه گیری شباهت مبتنی بر فاصله به یک مقدار ثابت بین هر مثال داده شده همگرا می شود. ابعاد را با استفاده از PCA روی داده های ویژگی یا با استفاده از خوشه بندی طیفی برای اصلاح الگوریتم خوشه بندی کاهش دهید.

نفرین ابعاد و خوشه بندی طیفی

در این سه نمودار، توجه کنید که چگونه با افزایش ابعاد، انحراف معیار در فاصله بین نمونه ها نسبت به میانگین فاصله بین نمونه ها کاهش می یابد. این همگرایی به این معنی است که با افزایش ابعاد داده ها، k-means در تمایز بین مثال ها کمتر موثر می شود. از این به عنوان نفرین ابعاد یاد می شود.

سه نمودار که نشان می دهد چگونه انحراف استاندارد فاصله بین نمونه ها با افزایش تعداد ابعاد کاهش می یابد
شکل 3: نمایشی از نفرین ابعاد. هر نمودار فواصل زوجی بین 200 نقطه تصادفی را نشان می دهد.

می‌توانید با خوشه‌بندی طیفی ، که مراحل پیش خوشه‌بندی را به الگوریتم اضافه می‌کند، از این کاهش عملکرد جلوگیری کنید. برای انجام خوشه بندی طیفی:

  1. با استفاده از PCA ابعاد داده های ویژگی را کاهش دهید.
  2. تمام نقاط داده را در فضای فرعی با ابعاد پایین‌تر طراحی کنید.
  3. داده ها را در این زیرفضا با استفاده از الگوریتم انتخابی خود خوشه بندی کنید.

برای اطلاعات بیشتر در مورد خوشه بندی طیفی، به کتاب آموزشی در مورد خوشه بندی طیفی توسط اولریکه فون لوکسبورگ مراجعه کنید.