خوارزميات التجميع العنقودي

يمكن أن تحتوي مجموعات بيانات التعلم الآلي على ملايين من الأمثلة، ولكن لا يمكن قياس كل خوارزميات التجميع العنقودي بكفاءة. العديد من التجميع العنقودي وتحسب الخوارزميات التشابه بين جميع أزواج الأمثلة، وهو ما يعني زيادة وقت التشغيل مع زيادة عدد الأمثلة \(n\)، ويرمز إليها \(O(n^2)\) في تدوين التعقيد. \(O(n^2)\) والخوارزميات غير عمليًا لمجموعات البيانات التي تحتوي على ملايين الأمثلة.

تتضمن الخوارزمية التصنيفية مدى تعقيد \(O(n)\)، مما يعني أن الخوارزمية تتدرج خطيًا مع \(n\). ستكون هذه الخوارزمية هي محور هذه الدورة.

أنواع التجميع العنقودي

للحصول على قائمة شاملة بالنُهج المختلفة للتجميع العنقودي، يُرجى الاطّلاع على استبيان شامل عن خوارزميات التجميع العنقودي Xu, D. & تيان واي. آن. البيانات. علوم (2015) 2: 165. يكون كل نهج هو الأنسب بتوزيع بيانات معين. تناقش هذه الدورة بإيجاز أربعة الأخرى.

التجميع العنقودي القائم على المركز

إن النقطة المركزية لأي مجموعة عنقودية هي المتوسط الحسابي لجميع النقاط في تجميع. يعمل التجميع المستند إلى النظام المركزي على تنظيم البيانات في شكل غير هرمي. المجموعات العنقودية. تتميز خوارزميات التجميع العنقودي القائم على النقطة المركزية بالفعالية، ولكنها حساسة الشروط الأولية والقيم الاستثنائية. ومن بين هذه الخوارزميات، تُعد الخوارزمية التصنيفية هي شائعة الاستخدام. ويتطلّب من المستخدمين تحديد عدد النقاط المركزية، وk. مناسبة مع المجموعات العنقودية متماثلة الحجم تقريبًا.

الأمثلة مجمعة في مجموعات عنقودية باستخدام التجميع العنقودي القائم على النقطة المركزية.
           توضح الخطوط الحدود بين المجموعات.
الشكل 1: مثال على التجميع العنقودي المستند إلى النقطة المركزية

التجميع العنقودي القائم على الكثافة

يربط التجميع العنقودي القائم على الكثافة المناطق المتجاورة ذات الأمثلة العالية المجموعات العنقودية. وهذا يسمح باكتشاف أي عدد من المجموعات العنقودية من أي شكل. لا يتم تعيين القيم الاستثنائية للمجموعات العنقودية. تواجه هذه الخوارزميات صعوبة في مجموعات عنقودية ذات كثافة مختلفة وبيانات ذات أبعاد عالية.

أمثلة مجمّعة في مجموعتين عنقوديتين باستخدام التجميع العنقودي القائم على الكثافة.
      لا يمكن فصل المجموعات العنقودية خطيًا.
الشكل 2: مثال على التجميع العنقودي القائم على الكثافة

التجميع العنقودي القائم على التوزيع

ويفترض نهج التجميع العنقودي هذا بأن البيانات تتألف من احتمالية التوزيعات، مثل توزيعات غاوس. ضِمن الشكل 3، تجمع الخوارزمية القائمة على التوزيع البيانات في ثلاث قيم غاوسية التوزيعات. فمع زيادة المسافة من مركز التوزيع، انخفاض احتمالية انتماء نقطة ما إلى التوزيع. عروض الفرق الموسيقية التي تقل في الاحتمالية. عندما لا تشعر بالارتياح لافتراض أن نوعًا ما والتوزيع الأساسي للبيانات، فيجب عليك استخدام خوارزمية مختلفة.

تم تجميع الأمثلة باستخدام التجميع العنقودي القائم على التوزيع. يوضح تظليل كثافة الأمثلة في كل مجموعة عنقودية كيفية تعيين المجموعات العنقودية إلى التوزيعات.
الشكل 3: مثال على التجميع العنقودي القائم على التوزيع.

التجميع الهرمي

ينشئ التجميع الهرمي شجرة من المجموعات العنقودية. والتجميع العنقودي الهرمي، وهي مناسبة تمامًا للبيانات الهرمية، مثل التصنيفات. عرض مقارنة بين 61 جينومًا متسلسلاً للإصابة بالوعاء الذكري بواسطة "أوكسانا لوكجانسينكو" و"ترودي فاسنار" ديف أوسيري كمثال. ويمكن اختيار أي عدد من المجموعات عن طريق قطع الشجرة على المستوى الصحيح.

تم تجميع الحيوانات باستخدام شجرة هرمية.
الشكل 4: مثال على شكل هرمي يتضمّن مجموعات عنقودية للحيوانات