K-means در بسیاری از زمینه های یادگیری ماشین مفید و کارآمد است، اما دارای نقاط ضعف مشخصی است.
مزایای k-means
اجرای نسبتا ساده
مقیاس به مجموعه داده های بزرگ.
همیشه همگرا می شود.
اجازه می دهد تا موقعیت های سانتروئیدها را گرم شروع کنید.
به آرامی با نمونه های جدید سازگار می شود.
را می توان به خوشه هایی با اشکال و اندازه های مختلف، مانند خوشه های بیضی تعمیم داد.
تعمیم k-means
اجرای ساده k-means می تواند با خوشه هایی با چگالی و اندازه های مختلف مبارزه کند. سمت چپ شکل 1 خوشه هایی را نشان می دهد که انتظار داریم ببینیم، در حالی که سمت راست خوشه های پیشنهاد شده با k-means را نشان می دهد.
برای عملکرد بهتر در خوشه های نامتعادل مانند آنچه در شکل 1 نشان داده شده است، می توانید تعمیم دهید، یعنی، k-means را تطبیق دهید. شکل 2 سه مجموعه داده مختلف را نشان می دهد که با دو تعمیم متفاوت خوشه بندی شده اند. مجموعه داده اول k-means را بدون تعمیم نشان می دهد، در حالی که مجموعه دوم و سوم اجازه می دهد تا خوشه ها در عرض متفاوت باشند.
این دوره نحوه تعمیم k-means را پوشش نمی دهد، اما علاقه مندان باید Clustering – مدل های مخلوط گاوسی k-means توسط کارلوس گسترین از دانشگاه کارنگی ملون را مشاهده کنند.
معایب k-means
\(k\) باید به صورت دستی انتخاب شود.
نتایج به مقادیر اولیه بستگی دارد.
برای \(k\)کم، می توانید این وابستگی را با اجرای k-means چندین بار با مقادیر اولیه متفاوت و انتخاب بهترین نتیجه کاهش دهید. با افزایش \(k\)، برای انتخاب مرکزهای اولیه بهتر به بذر k-means نیاز دارید . ، حسن ا. کینگراوی و پاتریسیو آ. ولا.
مشکل در خوشهبندی دادهها با اندازهها و چگالیهای مختلف بدون تعمیم.
مشکل در خوشه بندی نقاط پرت.
Centroids را می توان توسط پرت کشیدند، یا نقاط پرت ممکن است به جای نادیده گرفتن، خوشه خود را بدست آورند. قبل از خوشه بندی، حذف یا برش نقاط پرت را در نظر بگیرید.
مشکل در مقیاس بندی با تعداد ابعاد.
با افزایش تعداد ابعاد در داده ها، اندازه گیری شباهت مبتنی بر فاصله به یک مقدار ثابت بین هر مثال داده شده همگرا می شود. ابعاد را با استفاده از PCA روی داده های ویژگی یا با استفاده از خوشه بندی طیفی برای اصلاح الگوریتم خوشه بندی کاهش دهید.
نفرین ابعاد و خوشه بندی طیفی
در این سه نمودار، توجه کنید که چگونه با افزایش ابعاد، انحراف معیار در فاصله بین نمونه ها نسبت به میانگین فاصله بین نمونه ها کاهش می یابد. این همگرایی به این معنی است که با افزایش ابعاد داده ها، k-means در تمایز بین مثال ها کمتر موثر می شود. از این به عنوان نفرین ابعاد یاد می شود.
میتوانید با خوشهبندی طیفی ، که مراحل پیش خوشهبندی را به الگوریتم اضافه میکند، از این کاهش عملکرد جلوگیری کنید. برای انجام خوشه بندی طیفی:
- با استفاده از PCA ابعاد داده های ویژگی را کاهش دهید.
- تمام نقاط داده را در فضای فرعی با ابعاد پایینتر طراحی کنید.
- داده ها را در این زیرفضا با استفاده از الگوریتم انتخابی خود خوشه بندی کنید.
برای اطلاعات بیشتر در مورد خوشه بندی طیفی، به کتاب آموزشی در مورد خوشه بندی طیفی توسط اولریکه فون لوکسبورگ مراجعه کنید.