مسرد مصطلحات التعلم الآلي: التجميع العنقودي

تحتوي هذه الصفحة على مصطلحات مسرد التجميع. للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.

A

التجميع من الأسفل إلى الأعلى

#clustering

اطّلِع على التجميع الهرمي.

C

مركز

#clustering

يشير ذلك المصطلح إلى مركز مجموعة يتم تحديده من خلال خوارزمية k-means أو k-median. على سبيل المثال، إذا كانت قيمة k هي 3، تجد الخوارزمية التصنيفية أو خوارزمية تحليل المجموعات 3 نقاط مركزية.

اطّلِع على خوارزميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.

التجميع العنقودي المستنِد إلى النقاط المركزية

#clustering

فئة من خوارزميات التجميع العنقودي التي تنظِّم البيانات في مجموعات غير هرمية. والخوارزمية التصنيفية هي خوارزمية التجميع العنقودي المستندة إلى النقاط المركزية الأكثر استخدامًا.

يختلف ذلك عن خوارزميات التجميع الهرمي.

اطّلِع على خوارزميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.

التجميع

#clustering

تجميع الأمثلة ذات الصلة، خاصةً أثناء التعلُّم غير الخاضع للإشراف بعد تجميع كل الأمثلة، يمكن لأحد الأشخاص اختياريًا تقديم معنى لكل مجموعة.

تتوفّر العديد من خوارزميات التجميع. على سبيل المثال، تجمع خوارزمية الوسط الحسابي الأمثلة معًا استنادًا إلى قربها من نقطة مركزية، كما هو موضّح في المخطّط البياني التالي:

رسم بياني ثنائي الأبعاد تم تصنيف محور السينات فيه على أنّه عرض الشجرة،
          وتم تصنيف محور الصادات على أنّه ارتفاع الشجرة. يحتوي الرسم البياني على نقطتَين
          مركزيتَين وعدة عشرات من نقاط البيانات. يتم
          تصنيف نقاط البيانات استنادًا إلى قربها من بعضها. وهذا يعني أنّ نقاط البيانات
          الأقرب إلى نقطة مركزية واحدة تُصنَّف على أنّها المجموعة 1، بينما نقاط البيانات
          الأقرب إلى النقطة المركزية الأخرى تُصنَّف على أنّها المجموعة 2.

يمكن بعد ذلك لأحد الباحثين مراجعة المجموعات، على سبيل المثال، وتصنيف المجموعة 1 على أنّها "أشجار قزمة" والمجموعة 2 على أنّها "أشجار بالحجم الكامل".

في مثال آخر، نأخذ خوارزمية تجميع عنقودي تستند إلى المسافة بين نموذج معيّن ونقطة مركزية، كما هو موضّح أدناه:

يتم ترتيب عشرات نقاط البيانات في دوائر متحدة المركز، تشبه
          تقريبًا الثقوب حول مركز لوحة رمي السهام. يتم تصنيف الحلقة الداخلية
          لنقاط البيانات على أنّها المجموعة 1، ويتم تصنيف الحلقة الوسطى
          على أنّها المجموعة 2، ويتم تصنيف الحلقة الخارجية
          على أنّها المجموعة 3.

اطّلِع على دورة التجميع لمزيد من المعلومات.

D

التجميع التفاضلي

#clustering

اطّلِع على التجميع الهرمي.

H

التجميع الهرمي

#clustering

فئة من خوارزميات التجميع العنقودي التي تُنشئ شجرة للمجموعات العنقودية يناسب التجميع الهرمي البيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهيكلي:

  • في التجميع التجميعي، يتم أولاً تعيين كل مثال إلى مجموعته الخاصة، ويُدمج بشكل متكرر المجموعات الأقرب لإنشاء شجرة هرمية.
  • يجمع التجميع التقسيمي أولاً جميع العيّنات في مجموعة واحدة، ثم يقسّم المجموعة بشكل متكرّر إلى شجرة هرمية.

يختلف ذلك عن التجميع العنقودي المستنِد إلى النقاط المركزية.

اطّلِع على خورازميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.

K

المتوسطات التصنيفية

#clustering

خوارزمية تجميع شائعة تُجمِّع الأمثلة في التعلم غير الخاضع للإشراف تُجري الخوارزمية التصنيفية في الأساس ما يلي:

  • تُحدِّد هذه الخوارزمية بشكلٍ متكرّر أفضل k نقاط مركزية (المعروفة باسم النقاط المركزية).
  • تُحدِّد كل مثال على أنّه أقرب نقطة مركزية. تنتمي الأمثلة الأقرب إلى النقطة المركزية نفسها إلى المجموعة نفسها.

تختار الخوارزمية التصنيفية مواقع النقاط المركزية لتقليل القيمة التراكمية للمربّع للمسافات من كل مثال إلى أقرب نقطة مركزية له.

على سبيل المثال، فكِّر في الرسم البياني التالي لارتفاع الكلب إلى عرضه:

رسم بياني كارتيزيتي يتضمّن عدة عشرات من نقاط البيانات

إذا كان k=3، تحدِّد الخوارزمية التصنيفية ثلاث نقاط مركزية. يتمّ تحديد كلّ مثال بأقرب نقطة مركزية له، ما يؤدّي إلى إنشاء ثلاث مجموعات:

الرسم البياني الديكارتي نفسه كما هو موضّح في الرسم التوضيحي السابق، باستثناء
          أنّه تمت إضافة ثلاثة مراكز ثقل.
          يتم تجميع نقاط البيانات السابقة في ثلاث مجموعات متمايزة،
          حيث تمثّل كل مجموعة نقاط البيانات الأقرب إلى نقطة مركزية معيّنة

لنفترض أنّ أحد المصنّعين يريد تحديد المقاسات المثالية للكنزات الصغيرة والمتوسطة والكبيرة للكلاب. تحدِّد النقاط المركزية الثلاث متوسّط الطول ومتوسّط العرض لكلّ كلب في هذه المجموعة. وبالتالي، على المصنّع تحديد مقاسات البلوفرات استنادًا إلى هذه المراكز الثلاثية للكتلة. يُرجى العِلم أنّهلا يكون عادةً مركز المجموعة العنقودية مثالاً في المجموعة.

تعرض الرسوم التوضيحية السابقة طريقة "متوسطة k" لأمثلة تتضمّن سمتَين فقط (الارتفاع والعرض). تجدر الإشارة إلى أنّ خوارزمية k-means يمكنها تجميع الأمثلة على مستوى العديد من الميزات.

وسيط تصنيفي

#clustering

خوارزمية تجميع عنقودي ذات صلة وثيقة بالخوارزمية التصنيفية إليك اختلافات هذين الإجراءَين:

  • في الخوارزمية التصنيفية، يتم تحديد النقاط المركزية من خلال تقليل مجموع المربّعات للمسافة بين نقطة مركزية مُحتمَلة وكلّ من أمثلتها.
  • في خوارزمية المتوسط الحسابي لـ k، يتم تحديد النقاط المركزية من خلال تقليل مجموع المسافة بين نقطة مركزية مرشحة وكل مثال منها.

يُرجى العلم أنّ تعريفات المسافة تختلف أيضًا:

  • تعتمد الخوارزمية التصنيفية على المسافة الإقليدية من المركز إلى مثال. (في بعدَين، يشير البعد Euclidean إلى استخدام نظرية فيثاغورس لاحتساب الوتر). على سبيل المثال، تكون المسافة بين نقطتَي (2,2) و (5,-2) وفقًا لطريقة "متوسطات k" على النحو التالي:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • تعتمد طريقة "متوسط k" على مسافة مانهاتن من النقطة المركزية إلى مثال. وهذه المسافة هي مجموع التغيُّرات المطلقة في كل سمة. على سبيل المثال، ستكون المسافة بين (2,2) و (5,-2) باستخدام متوسّط k-متوسط هي:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

مقياس التشابه

#clustering

في خوارزميات التجميع العنقودي، هو المقياس المستخدَم لتحديد مدى تشابه أي مثالَين.

الرسم

#clustering

في التعلم الآلي غير المُوجَّه، يشير ذلك المصطلح إلى فئة من الخوارزميات التي تُجري تحليلاً أوليًا للتشابه في الأمثلة. تستخدِم خوارزميات الرسم دالة تجزئة حسّاسة للموقع الجغرافي لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجميعها في مجموعات.

تؤدي ميزة "التقسيم إلى أقسام" إلى تقليل العمليات الحسابية المطلوبة لعمليات احتساب التشابه في مجموعات البيانات الكبيرة. بدلاً من احتساب التشابه لكل مزدوجة من الأمثلة في مجموعة البيانات، لا نحسب التشابه إلا لكل مزدوجة من النقاط ضمن كل مجموعة.

T

تحليل السلاسل الزمنية

#clustering

حقل فرعي من تعلُّم الآلة والإحصاءات يحلِّل البيانات الزمنية. تتطلّب العديد من أنواع مشاكل تعلُّم الآلة تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع والتوقّعات واكتشاف القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلاسل الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.

U

تعلُّم الآلة غير الخاضع للإشراف

#clustering
#fundamentals

تدريب نموذج للعثور على أنماط في مجموعة بيانات، عادةً ما تكون مجموعة بيانات غير مصنّفة

إنّ الاستخدام الأكثر شيوعًا لتقنية تعلُّم الآلة غير الخاضع للإشراف هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن أن تجمع خوارزمية التعلم الآلي غير الخاضعة للإشراف الأغاني استنادًا إلى خصائص مختلفة للموسيقى. يمكن أن تصبح المجموعات الناتجة مدخلات لخوارزميات تعلُّم الآلة الأخرى (مثل خدمة اقتراح الموسيقى). يمكن أن يساعد التجميع العنقودي في حال ندرت التصنيفات المفيدة أو عدم توفّرها. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات في فهم البيانات بشكل أفضل.

يختلف هذا النوع عن تعلُّم الآلة المراقَب.