لنلقِ نظرة سريعة على أنواع خوارزميات التجميع والوقت الذي يجب فيه اختيار كل نوع.
عند اختيار خوارزمية تجميع، يجب مراعاة ما إذا كانت الخوارزمية ستتدرج وفقًا لمجموعة بياناتك أم لا. يمكن أن تتضمّن مجموعات البيانات في تعلُّم الآلة الملايين من الأمثلة، ولكن لا يمكن توسيع نطاق جميع خوارزميات التجميع بكفاءة. تعمل العديد من خوارزميات التجميع من خلال حساب التشابه بين جميع أزواج الأمثلة. ويعني هذا أنّ وقت التشغيل يزداد كمربّع لعدد الأمثلة \(n\)، ويُشار إليه باسم \(O(n^2)\) تدوين التعقيد. \(O(n^2)\) الخوارزميات ليست عملية عندما يكون عدد الأمثلة بالملايين. تركّز هذه الدورة التدريبية على خوارزمية k-mean، التي تتضمن تعقيدًا \(O(n)\)، ما يعني أنّ الخوارزمية تتوسّع خطيًا باستخدام \(n\).
أنواع التجميع
هناك العديد من الأساليب للتجميع. للحصول على قائمة شاملة، يمكنك الاطّلاع على استطلاع شامل عن خوارزميات التجميع Xu، د. وتيان، Y. بيانات آن الخيال العلمي (2015) 2: 165. يناسب كل أسلوب توزيع بيانات معينًا. في ما يلي مناقشة قصيرة لأربعة أساليب شائعة، تركّز على التجميع المستند إلى الطرد المركزي باستخدام k-me.
تجميع إلكتروني يركّز على مركزية
ينظّم تجميع استنادًا إلى Centroid البيانات في مجموعات غير هرمية، على عكس التجميع الهرمي المحدّد أدناه. وتشير القيمة k-me إلى خوارزمية التجميع المركزية الأكثر استخدامًا على نطاق واسع. إنّ الخوارزميات المستندة إلى أجهزة مركزية هي فعّالة ولكنّها حسّاسة للحالات الأولية والخارجية. تركّز هذه الدورة التدريبية على المبادئ الأساسية لأنّها خوارزمية تجميع فعّالة وبسيطة.
التجميع القائم على الكثافة
يربط التجميع المستند إلى كثافة المناطق ذات الكثافة العالية في مجموعات. ويسمح ذلك بتوزيع توزيع عشوائي، طالما يمكن ربط المناطق ذات الكثافة الكثيفة. تعرض هذه الخوارزميات صعوبة في استخدام بيانات ذات كثافات مختلفة وأبعاد عالية. بالإضافة إلى ذلك، لا تحدّد هذه الخوارزميات قيمًا خارجة عن المجموعات بطبيعتها.
التجميع المستند إلى التوزيع
تفترض طريقة التجميع هذه أنّ البيانات تتألف من توزيعات، مثل توزيعات غاوس. في الشكل 3، تجمع الخوارزمية المستندة إلى التوزيع البيانات إلى ثلاث توزيعات غاوس. كلما زادت المسافة من مركز التوزيع، قلّ احتمال أن تنتمي النقطة إلى التوزيع. تشير النطاقات إلى انخفاض احتماليةها. إذا لم تكن تعرف نوع التوزيع في بياناتك، عليك استخدام خوارزمية مختلفة.
التجميع الهرمي
تُنشئ ميزة التسلسل الهرمي شجرة من المجموعات. لا عجب أن تجميع العروض الهرمية يناسب البيانات الهرمية، مثل التصنيفات. يمكنك الاطّلاع على مقارنة بين 61 تسلسلاً تسلسليًا لـ Escherichia coli Genomes من أوكسانا لوكوجنسكو، ترودي فاسنار وديف أوسري. بالإضافة إلى ذلك، هناك ميزة أخرى وهي أنه يمكن اختيار أي عدد من المجموعات من خلال قص الأشجار على المستوى الصحيح.