تحتوي هذه الصفحة على مصطلحات مسرد التجميع. للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.
A
التجميع من الأسفل إلى الأعلى
اطّلِع على التجميع الهرمي.
C
مركز
يشير ذلك المصطلح إلى مركز مجموعة يتم تحديده من خلال خوارزمية k-means أو k-median. على سبيل المثال، إذا كانت قيمة k هي 3، تجد الخوارزمية التصنيفية أو خوارزمية تحليل المجموعات 3 نقاط مركزية.
اطّلِع على خوارزميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.
التجميع العنقودي المستنِد إلى النقاط المركزية
فئة من خوارزميات التجميع العنقودي التي تنظِّم البيانات في مجموعات غير هرمية. والخوارزمية التصنيفية هي خوارزمية التجميع العنقودي المستندة إلى النقاط المركزية الأكثر استخدامًا.
يختلف ذلك عن خوارزميات التجميع الهرمي.
اطّلِع على خوارزميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.
التجميع
تجميع الأمثلة ذات الصلة، خاصةً أثناء التعلُّم غير الخاضع للإشراف بعد تجميع كل الأمثلة، يمكن لأحد الأشخاص اختياريًا تقديم معنى لكل مجموعة.
تتوفّر العديد من خوارزميات التجميع. على سبيل المثال، تجمع خوارزمية الوسط الحسابي الأمثلة معًا استنادًا إلى قربها من نقطة مركزية، كما هو موضّح في المخطّط البياني التالي:
يمكن بعد ذلك لأحد الباحثين مراجعة المجموعات، على سبيل المثال، وتصنيف المجموعة 1 على أنّها "أشجار قزمة" والمجموعة 2 على أنّها "أشجار بالحجم الكامل".
في مثال آخر، نأخذ خوارزمية تجميع عنقودي تستند إلى المسافة بين نموذج معيّن ونقطة مركزية، كما هو موضّح أدناه:
اطّلِع على دورة التجميع لمزيد من المعلومات.
D
التجميع التفاضلي
اطّلِع على التجميع الهرمي.
H
التجميع الهرمي
فئة من خوارزميات التجميع العنقودي التي تُنشئ شجرة للمجموعات العنقودية يناسب التجميع الهرمي البيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهيكلي:
- في التجميع التجميعي، يتم أولاً تعيين كل مثال إلى مجموعته الخاصة، ويُدمج بشكل متكرر المجموعات الأقرب لإنشاء شجرة هرمية.
- يجمع التجميع التقسيمي أولاً جميع العيّنات في مجموعة واحدة، ثم يقسّم المجموعة بشكل متكرّر إلى شجرة هرمية.
يختلف ذلك عن التجميع العنقودي المستنِد إلى النقاط المركزية.
اطّلِع على خورازميات التجميع في دورة التجميع للحصول على مزيد من المعلومات.
K
المتوسطات التصنيفية
خوارزمية تجميع شائعة تُجمِّع الأمثلة في التعلم غير الخاضع للإشراف تُجري الخوارزمية التصنيفية في الأساس ما يلي:
- تُحدِّد هذه الخوارزمية بشكلٍ متكرّر أفضل k نقاط مركزية (المعروفة باسم النقاط المركزية).
- تُحدِّد كل مثال على أنّه أقرب نقطة مركزية. تنتمي الأمثلة الأقرب إلى النقطة المركزية نفسها إلى المجموعة نفسها.
تختار الخوارزمية التصنيفية مواقع النقاط المركزية لتقليل القيمة التراكمية للمربّع للمسافات من كل مثال إلى أقرب نقطة مركزية له.
على سبيل المثال، فكِّر في الرسم البياني التالي لارتفاع الكلب إلى عرضه:
إذا كان k=3، تحدِّد الخوارزمية التصنيفية ثلاث نقاط مركزية. يتمّ تحديد كلّ مثال بأقرب نقطة مركزية له، ما يؤدّي إلى إنشاء ثلاث مجموعات:
لنفترض أنّ أحد المصنّعين يريد تحديد المقاسات المثالية للكنزات الصغيرة والمتوسطة والكبيرة للكلاب. تحدِّد النقاط المركزية الثلاث متوسّط الطول ومتوسّط العرض لكلّ كلب في هذه المجموعة. وبالتالي، على المصنّع تحديد مقاسات البلوفرات استنادًا إلى هذه المراكز الثلاثية للكتلة. يُرجى العِلم أنّهلا يكون عادةً مركز المجموعة العنقودية مثالاً في المجموعة.
تعرض الرسوم التوضيحية السابقة طريقة "متوسطة k" لأمثلة تتضمّن سمتَين فقط (الارتفاع والعرض). تجدر الإشارة إلى أنّ خوارزمية k-means يمكنها تجميع الأمثلة على مستوى العديد من الميزات.
وسيط تصنيفي
خوارزمية تجميع عنقودي ذات صلة وثيقة بالخوارزمية التصنيفية إليك اختلافات هذين الإجراءَين:
- في الخوارزمية التصنيفية، يتم تحديد النقاط المركزية من خلال تقليل مجموع المربّعات للمسافة بين نقطة مركزية مُحتمَلة وكلّ من أمثلتها.
- في خوارزمية المتوسط الحسابي لـ k، يتم تحديد النقاط المركزية من خلال تقليل مجموع المسافة بين نقطة مركزية مرشحة وكل مثال منها.
يُرجى العلم أنّ تعريفات المسافة تختلف أيضًا:
- تعتمد الخوارزمية التصنيفية على المسافة الإقليدية من المركز إلى مثال. (في بعدَين، يشير البعد Euclidean إلى استخدام نظرية فيثاغورس لاحتساب الوتر). على سبيل المثال، تكون المسافة بين نقطتَي (2,2) و (5,-2) وفقًا لطريقة "متوسطات k" على النحو التالي:
- تعتمد طريقة "متوسط k" على مسافة مانهاتن من النقطة المركزية إلى مثال. وهذه المسافة هي مجموع التغيُّرات المطلقة في كل سمة. على سبيل المثال، ستكون المسافة بين (2,2) و (5,-2) باستخدام متوسّط k-متوسط هي:
S
مقياس التشابه
في خوارزميات التجميع العنقودي، هو المقياس المستخدَم لتحديد مدى تشابه أي مثالَين.
الرسم
في التعلم الآلي غير المُوجَّه، يشير ذلك المصطلح إلى فئة من الخوارزميات التي تُجري تحليلاً أوليًا للتشابه في الأمثلة. تستخدِم خوارزميات الرسم دالة تجزئة حسّاسة للموقع الجغرافي لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجميعها في مجموعات.
تؤدي ميزة "التقسيم إلى أقسام" إلى تقليل العمليات الحسابية المطلوبة لعمليات احتساب التشابه في مجموعات البيانات الكبيرة. بدلاً من احتساب التشابه لكل مزدوجة من الأمثلة في مجموعة البيانات، لا نحسب التشابه إلا لكل مزدوجة من النقاط ضمن كل مجموعة.
T
تحليل السلاسل الزمنية
حقل فرعي من تعلُّم الآلة والإحصاءات يحلِّل البيانات الزمنية. تتطلّب العديد من أنواع مشاكل تعلُّم الآلة تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع والتوقّعات واكتشاف القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلاسل الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.
U
تعلُّم الآلة غير الخاضع للإشراف
تدريب نموذج للعثور على أنماط في مجموعة بيانات، عادةً ما تكون مجموعة بيانات غير مصنّفة
إنّ الاستخدام الأكثر شيوعًا لتقنية تعلُّم الآلة غير الخاضع للإشراف هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن أن تجمع خوارزمية التعلم الآلي غير الخاضعة للإشراف الأغاني استنادًا إلى خصائص مختلفة للموسيقى. يمكن أن تصبح المجموعات الناتجة مدخلات لخوارزميات تعلُّم الآلة الأخرى (مثل خدمة اقتراح الموسيقى). يمكن أن يساعد التجميع العنقودي في حال ندرت التصنيفات المفيدة أو عدم توفّرها. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات في فهم البيانات بشكل أفضل.
يختلف هذا النوع عن تعلُّم الآلة المراقَب.