تعتبر الخوارزمية التصنيفية مفيدة وفعالة في العديد من سياقات التعلم الآلي، لكنها بعض نقاط الضعف المميزة.
مزايا الخوارزمية التصنيفية
سهولة التنفيذ نسبيًا:
تتناسب مع مجموعات البيانات الكبيرة.
يتقارب دائمًا:
يتيح ذلك بدء مواضع النقاط المركزية بالدفء.
تتكيّف مع الأمثلة الجديدة بسلاسة.
يمكن تعميمها على مجموعات عنقودية مختلفة والأشكال والأحجام، مثل المجموعات العنقودية البيضاوية.
تعميم الخوارزمية التصنيفية
إن التنفيذ المباشر للخوارزمية التصنيفية يمكن أن يواجه صعوبة مع مجموعات بكثافات وأحجام مختلفة. ويوضح الجانب الأيسر من الشكل 1 المجموعات العنقودية نتوقع أن نرى، بينما في الجانب الأيمن يُظهر المجموعات العنقودية المقترحة باستخدام الخوارزمية التصنيفية.
وللحصول على أداء أفضل في المجموعات العنقودية غير المتوازنة كتلك التي تظهر في الشكل 1، يمكنك تعميمها، أي التكيّف، الخوارزمية التصنيفية. يوضح الشكل 2 ثلاثة مختلفة ومجموعات بيانات مجمّعة مع عموميتين مختلفتين. تظهر مجموعة البيانات الأولى الخوازمية التصنيفية بدون تعميم، بينما تسمح الخوارزمية الثانية والثالثة للمجموعات العنقودية تختلف في العرض.
هذه الدورة لا تتناول كيفية تعميم الخوارزمية التصنيفية، وإنما يشمل هؤلاء المهتمون التجميع العنقودي – خليط غاوسي بالخوارزمية التصنيفية النماذج بواسطة كارلوس غيسترين من جامعة كارنيجي ميلون.
عيوب الخوارزمية التصنيفية
يجب اختيار الحقل "\(k\) " يدويًا.
تعتمد النتائج على القيم الأولية.
بالنسبة إلى الانخفاض \(k\)، يمكنك التخفيف من هذا الاعتماد عن طريق تنفيذ الخوارزمية التصنيفية عدة مرات بقيم أولية مختلفة واختيار أفضل نتيجة. كـ \(k\) تحتاج إلى خوارزمية التصنيف لاختيار قيمة أولية أفضل للحصول على مناقشة كاملة عن الخوارزمية التصنيفية، راجع "مقارنة دراسة طرق الإعداد الفعّالة للخوارزمية التصنيفية خوارزمية"، من تأليف م. "إمري سيليبي" و"حسن أ. وكينغرافي، وباتريسيو إيه. فيلا.
هناك صعوبات في تجميع بيانات ذات أحجام و الكثافات بدون تعميم
صعوبة في تجميع القيم المتطرفة:
يمكن سحب النقاط المركزية باستخدام القيم الاستثنائية، أو قد تحصل القيم الاستثنائية على مجموعتها العنقودية بدلاً من تجاهلها. ننصحك بإزالة القيم الشاذّة أو اقتطاعها قبل والتجميع العنقودي.
صعوبة القياس مع عدد السمات:
وكلّما زاد عدد الأبعاد في البيانات، اتسم التشابه بناءً على المسافة. قياس تتقارب إلى قيمة ثابتة بين أي أمثلة محددة. تقليل الأبعاد إما باستخدام PCA على بيانات الميزة أو باستخدام التجميع الطيفي لتعديل التجميع العنقودي للخوارزمية.
لعنة الأبعاد والتجميع الطيفي
في هذه المخططات الثلاثة، لاحظ كيف أن الانحراف المعياري مع زيادة الأبعاد في المسافة بين الأمثلة تتقلص بالنسبة لمتوسط المسافة بين الأمثلة. هذا النمط يعني التقارب أن الخوارزمية التصنيفية تصبح أقل فعالية في التمييز بين الأمثلة مع زيادة أبعاد البيانات. يشار إلى هذا باسم لعنة الأبعاد.
يمكنك تجنُّب هذا الانخفاض في الأداء باستخدام التجميع الطيفي، والتي تضيف خطوات التجميع العنقودي المسبق إلى الخوارزمية. لإجراء تأثير طيفي التجميع العنقودي:
- تقليل أبعاد بيانات الميزة باستخدام PCA.
- إسقاط جميع نقاط البيانات في المجال الفرعي ذي الأبعاد الأقل.
- اجمع البيانات في هذا المجال الفرعي باستخدام الخوارزمية التي اخترتها.
الاطلاع على برنامج تعليمي عن الطيف التجميع العنقودي من إعداد "أولريكي فون لوكسبورغ" للحصول على مزيد من المعلومات عن الطيف والتجميع العنقودي.