الخوارزميات المجمّعة

لنلقِ نظرة سريعة على أنواع خوارزميات التجميع والوقت الذي يجب فيه اختيار كل نوع.

عند اختيار خوارزمية تجميع، يجب مراعاة ما إذا كانت الخوارزمية ستتدرج وفقًا لمجموعة بياناتك أم لا. يمكن أن تتضمّن مجموعات البيانات في تعلُّم الآلة الملايين من الأمثلة، ولكن لا يمكن توسيع نطاق جميع خوارزميات التجميع بكفاءة. تعمل العديد من خوارزميات التجميع من خلال حساب التشابه بين جميع أزواج الأمثلة. ويعني هذا أنّ وقت التشغيل يزداد كمربّع لعدد الأمثلة \(n\)، ويُشار إليه باسم \(O(n^2)\) تدوين التعقيد. \(O(n^2)\) الخوارزميات ليست عملية عندما يكون عدد الأمثلة بالملايين. تركّز هذه الدورة التدريبية على خوارزمية k-mean، التي تتضمن تعقيدًا \(O(n)\)، ما يعني أنّ الخوارزمية تتوسّع خطيًا باستخدام \(n\).

أنواع التجميع

هناك العديد من الأساليب للتجميع. للحصول على قائمة شاملة، يمكنك الاطّلاع على استطلاع شامل عن خوارزميات التجميع Xu، د. وتيان، Y. بيانات آن الخيال العلمي (2015) 2: 165. يناسب كل أسلوب توزيع بيانات معينًا. في ما يلي مناقشة قصيرة لأربعة أساليب شائعة، تركّز على التجميع المستند إلى الطرد المركزي باستخدام k-me.

تجميع إلكتروني يركّز على مركزية

ينظّم تجميع استنادًا إلى Centroid البيانات في مجموعات غير هرمية، على عكس التجميع الهرمي المحدّد أدناه. وتشير القيمة k-me إلى خوارزمية التجميع المركزية الأكثر استخدامًا على نطاق واسع. إنّ الخوارزميات المستندة إلى أجهزة مركزية هي فعّالة ولكنّها حسّاسة للحالات الأولية والخارجية. تركّز هذه الدورة التدريبية على المبادئ الأساسية لأنّها خوارزمية تجميع فعّالة وبسيطة.

أمثلة مجمّعة في مجموعات باستخدام ميزة التجميع استنادًا إلى وسط الطرد
           توضّح الخطوط الحدود بين المجموعات.
الشكل 1: مثال على التجميع استنادًا إلى اللون المركزي.

التجميع القائم على الكثافة

يربط التجميع المستند إلى كثافة المناطق ذات الكثافة العالية في مجموعات. ويسمح ذلك بتوزيع توزيع عشوائي، طالما يمكن ربط المناطق ذات الكثافة الكثيفة. تعرض هذه الخوارزميات صعوبة في استخدام بيانات ذات كثافات مختلفة وأبعاد عالية. بالإضافة إلى ذلك، لا تحدّد هذه الخوارزميات قيمًا خارجة عن المجموعات بطبيعتها.

يتم تجميع الأمثلة في مجموعتَين باستخدام التجميع المستند إلى الكثافة. لا يمكن فصل المجموعات بشكل خطي.
الشكل 2: مثال على التجميع المستند إلى الكثافة.

التجميع المستند إلى التوزيع

تفترض طريقة التجميع هذه أنّ البيانات تتألف من توزيعات، مثل توزيعات غاوس. في الشكل 3، تجمع الخوارزمية المستندة إلى التوزيع البيانات إلى ثلاث توزيعات غاوس. كلما زادت المسافة من مركز التوزيع، قلّ احتمال أن تنتمي النقطة إلى التوزيع. تشير النطاقات إلى انخفاض احتماليةها. إذا لم تكن تعرف نوع التوزيع في بياناتك، عليك استخدام خوارزمية مختلفة.

أمثلة على التجميع باستخدام التجميع المستند إلى التوزيع. يعرض تظليل كثافة الأمثلة في كل مجموعة كيفية ربط المجموعات بالتوزيعات.
الشكل 3: مثال على تجميع مستند إلى التوزيع.

التجميع الهرمي

تُنشئ ميزة التسلسل الهرمي شجرة من المجموعات. لا عجب أن تجميع العروض الهرمية يناسب البيانات الهرمية، مثل التصنيفات. يمكنك الاطّلاع على مقارنة بين 61 تسلسلاً تسلسليًا لـ Escherichia coli Genomes من أوكسانا لوكوجنسكو، ترودي فاسنار وديف أوسري. بالإضافة إلى ذلك، هناك ميزة أخرى وهي أنه يمكن اختيار أي عدد من المجموعات من خلال قص الأشجار على المستوى الصحيح.

حيوانات مجمّعة باستخدام شجرة هرمية.
الشكل 4: مثال على شجرة هرمية تجمع الحيوانات.