این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

مزایا و معایب k-means

K-means در بسیاری از زمینه های یادگیری ماشین مفید و کارآمد است، اما دارای نقاط ضعف مشخصی است.

مزایای k-means

اجرای نسبتا ساده

مقیاس به مجموعه داده های بزرگ.

همیشه همگرا می شود.

اجازه می دهد تا موقعیت های سانتروئیدها را گرم شروع کنید.

به آرامی با نمونه های جدید سازگار می شود.

را می توان به خوشه هایی با اشکال و اندازه های مختلف، مانند خوشه های بیضی تعمیم داد.

تعمیم k-means

اجرای ساده k-means می تواند با خوشه هایی با چگالی و اندازه های مختلف مبارزه کند. سمت چپ شکل 1 خوشه هایی را نشان می دهد که انتظار داریم ببینیم، در حالی که سمت راست خوشه های پیشنهاد شده با k-means را نشان می دهد.

دو نمودار در کنار هم اولی مجموعه داده ای را با خوشه های تا حدودی آشکار نشان می دهد. دومی گروه بندی فرد مثال ها را پس از اجرای k-means نشان می دهد. — **شکل 1: مثال k-means تعمیم نیافته.**

برای عملکرد بهتر در خوشه های نامتعادل مانند آنچه در شکل 1 نشان داده شده است، می توانید تعمیم دهید، یعنی، k-means را تطبیق دهید. شکل 2 سه مجموعه داده مختلف را نشان می دهد که با دو تعمیم متفاوت خوشه بندی شده اند. مجموعه داده اول k-means را بدون تعمیم نشان می دهد، در حالی که مجموعه دوم و سوم اجازه می دهد تا خوشه ها در عرض متفاوت باشند.

سه نمودار نشان دهنده k-means بدون تعمیم، سپس k-means اجازه دادن به عرض های مختلف، سپس k-means اجازه دادن به عرض های مختلف را می دهد در سراسر ابعاد — **شکل 2: k-به معنی خوشه بندی با و بدون تعمیم.**

این دوره نحوه تعمیم k-means را پوشش نمی دهد، اما علاقه مندان باید Clustering – مدل های مخلوط گاوسی k-means توسط کارلوس گسترین از دانشگاه کارنگی ملون را مشاهده کنند.

معایب k-means

\(k\) باید به صورت دستی انتخاب شود

نتایج به مقادیر اولیه بستگی دارد.

برای کم \(k\)، می توانید این وابستگی را با اجرای k-means چندین بار با مقادیر اولیه متفاوت و انتخاب بهترین نتیجه کاهش دهید. همانطور که \(k\)افزایش می یابد، برای انتخاب مرکز اولیه بهتر به بذر k-means نیاز دارید برای بحث کامل در مورد بذر k-means، به «مطالعه مقایسه ای روش های اولیه سازی کارآمد برای الگوریتم خوشه بندی K-means» توسط M. Emre Celebi، Hassan A. Kingravi و Patricio A. Vela مراجعه کنید.

مشکل در خوشه‌بندی داده‌ها با اندازه‌ها و چگالی‌های مختلف بدون تعمیم.

مشکل در خوشه بندی نقاط پرت.

Centroids را می توان توسط پرت کشیدند، یا نقاط پرت ممکن است به جای نادیده گرفتن، خوشه خود را بدست آورند. قبل از خوشه بندی، حذف یا برش نقاط پرت را در نظر بگیرید.

مشکل در مقیاس بندی با تعداد ابعاد.

با افزایش تعداد ابعاد در داده ها، اندازه گیری شباهت مبتنی بر فاصله به یک مقدار ثابت بین هر مثال داده شده همگرا می شود. ابعاد را با استفاده از PCA روی داده های ویژگی یا با استفاده از خوشه بندی طیفی برای اصلاح الگوریتم خوشه بندی کاهش دهید.

نفرین ابعاد و خوشه بندی طیفی

در این سه نمودار، توجه کنید که چگونه با افزایش ابعاد، انحراف معیار در فاصله بین نمونه ها نسبت به میانگین فاصله بین نمونه ها کاهش می یابد. این همگرایی به این معنی است که با افزایش ابعاد داده ها، k-means در تمایز بین مثال ها کمتر موثر می شود. از این به عنوان نفرین ابعاد یاد می شود.