الخوارزمية التصنيفية K-means مفيدة وفعّالة في العديد من سياقات تعلُّم الآلة، ولكنّها تتضمن بعض نقاط الضعف الواضحة.
مزايا الخوارزمية التصنيفية
سهولة التنفيذ نسبيًا:
التوافق مع مجموعات البيانات الكبيرة:
تلتقي دائمًا.
السماح ببدء تدفئة مواضع النقاط المركزية
التكيّف بسلاسة مع الأمثلة الجديدة:
يمكن تعميمها على مجموعات مختلفة من الأشكال والأحجام، مثل المجموعات البيضاوية.
تعميم الخوارزمية التصنيفية
يمكن أن يواجه التنفيذ المباشر للخوارزمية التصنيفية صعوبة في التعامل مع مجموعات بكثافات وأحجام مختلفة. يعرض الجانب الأيسر من الشكل 1 المجموعات التي نتوقع رؤيتها، بينما يعرض الجانب الأيمن المجموعات التي تقترحها طريقة "متوسطات k".
للحصول على أداء أفضل في المجموعات غير المتوازنة، مثل المجموعات الموضّحة في الشكل 1، يمكنك تعميم طريقة "متوسطة عدد المجموعات"، أي استخدامها مع مجموعات أخرى. يعرض الشكل 2 ثلاث مجموعات مختلفة من البيانات مجمّعة مع تعميمَين مختلفَين. تعرض مجموعة البيانات الأولى أسلوب التحليل المتعدّد باستخدام المتوسطات بدون تعميم، بينما تسمح المجموعة الثانية والثالثة للمجموعات بالاختلاف في العرض.
لا تتناول هذه الدورة التدريبية كيفية تعميم الخوارزمية التصنيفية k-Means، ولكن على المهتمين الاطّلاع على التجميع - نماذج المزيج الغاوسي للخوارزمية التصنيفية k-Means التي كتبها "كارلوس غيسترين" من جامعة كارنيغي ميلون.
سلبيات الخوارزمية التصنيفية
يجب اختيار يدويًا.
تعتمد النتائج على القيم الأولية.
بالنسبة إلى القيم المنخفضة من ، يمكنك تخفيف هذا الاعتماد من خلال تشغيل "طريقة المتوسطات الكمية" عدة مرات باستخدام قيم أولية مختلفة واختيار أفضل نتيجة. مع زيادة ، ستحتاج إلى إنشاء المجموعات العنقودية باستخدام الخوارزمية التصنيفية لاختيار نقاط أولى مركزية أفضل. للاطّلاع على مناقشة كاملة حول إنشاء المجموعات العنقودية باستخدام الخوارزمية التصنيفية، اطّلِع على مقالة "دراسة مقارنة لطرق الإعداد الفعّالة لخوارزمية التجميع باستخدام الخوارزمية التصنيفية"، تأليف "م. Emre Celebi, Hassan A. Kingravi، وPatricio A. جميلة.
صعوبة تجميع البيانات ذات الأحجام والكثافات المختلفة بدون التعميم
صعوبة تجميع القيم الشاذة:
يمكن أن يتم سحب المراكز المركّزة بواسطة القيم الشاذة، أو قد تحصل القيم الشاذة على مجموعة خاصة بها بدلاً من تجاهلها. ننصحك بإزالة القيم الشاذة أو اقتصاصها قبل التجميع.
صعوبة التوسّع مع عدد السمات
مع زيادة عدد السمات في البيانات، ينحدر قياس التشابه المُستند إلى المسافة إلى قيمة ثابتة بين أي أمثلة مُعطاة. يمكنك تقليل الأبعاد إما باستخدام تحليل المكونات الأساسية على بيانات السمات أو باستخدام التجميع الطيفي لتعديل خوارزمية التجميع.
مشكلة الأبعاد العالية والتجميع الطيفي
في هذه المخطّطات الثلاث، لاحظ كيف أنّه مع زيادة الأبعاد، ينخفض التباين المعياري في المسافة بين الأمثلة مقارنةً بمتوسّط المسافة بين الأمثلة. ويعني هذا التقارب أنّ الخوارزمية التصنيفية تصبح أقل فعالية في التمييز بين المثالين مع زيادة أبعاد البيانات. ويُشار إلى ذلك باسم لعنة الأبعاد.
يمكنك تجنُّب هذا الانخفاض في الأداء باستخدام التجميع الطيفي، الذي يضيف خطوات ما قبل التجميع إلى الخوارزمية. لإجراء معالجة spectral التجميع:
- يمكنك تقليل أبعاد بيانات السمات باستخدام تحليل المكونات الأساسية.
- اعرض جميع نقاط البيانات في الفضاء الفرعي ذي الأبعاد الأقل.
- تجميع البيانات في هذا الفضاء الفرعي باستخدام الخوارزمية التي اخترتها
اطّلِع على برنامج تعليمي حول التجميع بالاستناد إلى تحليل الطيف من تأليف "أولريكه فون لوكسبورغ" للحصول على مزيد من المعلومات حول التجميع بالاستناد إلى تحليل الطيف.