مسرد تعلّم الآلة: التجميع

تتضمّن هذه الصفحة عبارات مجمّعة حول مسرد المصطلحات. للاطّلاع على كل عبارات مسرد المصطلحات، انقر هنا.

A

تجميع مجمَّع

#clustering

يُرجى الاطّلاع على التصنيف الهرمي.

ج

مِئَوِيّ

#clustering

مركز المجموعة كما هو محدّد من خلال خوارزمية k-means أو k-median. على سبيل المثال، إذا كانت قيمة k هي 3، ترصد الخوارزمية k-mean أو الخوارزمية k-medium في البداية 3 خطوط مئوية.

التجميع المستنِد إلى المركز

#clustering

فئة خوارزميات من التجميع التي تنظّم البيانات في مجموعات غير هرمية. إنّ k-means هي خوارزمية التجميع الأكثر استخدامًا على نطاق مركزي.

قارِن مع خوارزميات التجميع الهرمي.

التجميع

#clustering

تجميع الأمثلة ذات الصلة، لا سيما خلال التعلّم غير الخاضع للإشراف بعد تجميع جميع الأمثلة، يمكن للإنسان تقديم المعنى المناسب لكل مجموعة.

توجد العديد من خوارزميات التجميع. على سبيل المثال، تُجمِّع خوارزميات k-means الخوارزميات استنادًا إلى قربها من المركز، كما هو موضّح في المخطّط التالي:

رسم بياني ثنائي الأبعاد يُصنَّف فيه المحور س على أنه "عرض الأشجار" ويُصنَّف المحور ص على "ارتفاع الأشجار". يحتوي الرسم البياني على
          مركزين للعشرات وعشرات من نقاط البيانات. ويتم تصنيف نقاط البيانات
          استنادًا إلى قربها. ويعني ذلك أنّ نقاط البيانات
          الأقرب إلى مركز مركزي يتم تصنيفها ضمن الفئة "المجموعة 1"، بينما يتم تصنيف
          النقاط الأقرب إلى المنطقة المركزية الأخرى على أنها "المجموعة 2".

وبعد ذلك، أجرى أحد الباحثين في المجموعة مراجعة المجموعات، على سبيل المثال، يمكنك تصنيف المجموعة 1 على أنها "شجرة قزم" والمجموعة 2 على أنها "شجرة كاملة الحجم".

كمثال آخر، جرِّب خوارزمية التجميع استنادًا إلى بُعد المسافة من مثال على النقطة المركزية، كما هو موضّح في ما يلي:

ويتم تنظيم عشرات نقاط البيانات في دوائر متحدة المركز،
          مثل الثقوب حول وسط لعبة رمي السهام. يتم تصنيف الحلقة الداخلية
 من نقاط البيانات على أنها "المجموعة 1"، ويتم تصنيف الحلقة الوسطى
 على أنها "المجموعة 2"، والحلقة الخارجية على أنها "المجموعة 3".

د

التجميع المقسّم

#clustering

يُرجى الاطّلاع على التصنيف الهرمي.

H

التجميع الهرمي

#clustering

فئة خوارزميات من التجميع التي تنشئ شجرة من المجموعات. ويكون التجميع الهرمي مناسبًا للبيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهرمي:

  • تجميع البيانات المجمَّعة يُعيِّن أولاً كل مثال إلى مجموعته الخاصة، ويدمج أقرب المجموعات بشكل متكرر لإنشاء شجرة هرمية.
  • تعمل التصنيف المجمّع على تجميع كل الأمثلة في مجموعة واحدة ثم تقسيمها بشكل متكرر إلى شجرة هرمية.

التباين مع التجميع المستند إلى سنترويد

K

معنى k

#clustering

خوارزمية شائعة للتجميع تجمع أمثلة في التعلُّم غير الخاضع للإشراف. تعمل خوارزمية k-me في الأساس على ما يلي:

  • تحدّد هذه العلامة بشكل متكرّر أفضل النقاط في k للمركز (المعروفة باسم centroid).
  • تخصيص كل مثال إلى أقرب مركز مركزية. تنتمي هذه الأمثلة الأقرب إلى المنطقة المركزية نفسها إلى المجموعة نفسها.

تختار خوارزمية k-meًا المواقع الجغرافية للمركز، وذلك لتقليل المربّع التراكمي للمسافات من كل مثال إلى أقرب نقطة مئوية.

على سبيل المثال، ضع في الاعتبار الرسم البياني التالي لارتفاع الكلب لعرض الكلاب:

مخطط كارتيسي يتضمن عشرات نقاط البيانات.

إذا كانت k=3، ستحدد خوارزمية k-mes ثلاث سنتات. يتم تخصيص كل مثال إلى أقرب نقطة مئوية، ما يؤدي إلى ثلاث مجموعات:

مخطط كارتيسي نفسه كما هو موضّح في الرسم التوضيحي السابق، باستثناء ثلاث نقاط مئوية تمت إضافتها.
          يتم تجميع نقاط البيانات السابقة في ثلاث مجموعات مختلفة،
          وتمثّل كل مجموعة نقاط البيانات الأقرب إلى مجموعة
          مركزية.

لنفترض أنّ الشركة المصنّعة تريد تحديد المقاسات المناسبة للكنزات الصغيرة والمتوسطة والكبيرة للكلاب. تعرِض الشيطاني الثلاث متوسط ارتفاع كلب في كل مجموعة بالإضافة إلى متوسط عرضها. لذا، من المرجّح أن تصنّع الشركة المصنّعة الكنزات المقوّسة في هذه الفئات الثلاثة. ويُرجى العِلم أنّ المنطقة الوسطى من المجموعة ليست مثالاً عادةً في المجموعة.

توضّح الصور التوضيحية السابقة معنى k مع الأمثلة التي تتضمّن ميزتَين فقط (الارتفاع والعرض). تجدُر الإشارة إلى أنّه يمكن تجميع الأمثلة معًا على مستوى العديد من الميزات.

متوسط الروضة

#clustering

خوارزمية تجميع ذات صلة وثيقة بـ k-means. وفي ما يلي الفرق العملي بين الاثنين:

  • أما بالنسبة إلى الكلمات المفتاحة المئونة، فيتم تحديدها من خلال تقليل مجموع مربّعات المسافة بين المرشّح المركزي وكل من أمثلةه.
  • في المتوسط، يتم تحديد الفئات المركزية من خلال تقليل مجموع المسافة بين المرشّح المركزي وكل مثال من هذه الأمثلة.

لاحظ أن تعريفات المسافة مختلفة أيضًا:

  • وتعتمد طريقة k-me على المسافة المُقدَّمة بالخط الأفريقي من المحطة المركزية إلى مثال. (في البُعدين، تعني "المسافة الإقلدية" استخدام نظرية فيثاغورس لاحتساب وتر الوتر.) على سبيل المثال، ستكون مسافة k-me بين (2,2) و (5,-2) على النحو التالي:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • يعتمد k-media على مسافة مانهاتن من وسط الأرض إلى مثال. هذه المسافة هي مجموع دلتا المطلقة في كل سمة. على سبيل المثال، ستكون المسافة المتوسطة بين (2 و2) و (5--2) كما يلي:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

ح

مقياس التشابه

#clustering

في خوارزميات التجميع، يتم استخدام المقياس المستخدَم لتحديد مدى التشابه مع أي مثالَين.

رسم تخطيطي

#clustering

في تعلُّم الآلة غير الخاضع للإشراف، فئة خوارزميات تُجري تحليلاً أوليًا للتشابه على الأمثلة. تستخدم خوارزميات الرسم وظيفة تجزئة حساسة محليًا لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجميعها في مجموعات بيانات.

يقلل الرسم الحوسبة المطلوبة لحسابات التشابه في مجموعات البيانات الكبيرة. بدلاً من حساب التشابه لكل إقران واحد من الأمثلة في مجموعة البيانات، نحسب التشابه فقط لكل زوج من النقاط داخل كل مجموعة.

T

تحليل السلسلة الزمنية

#clustering

حقل فرعي لتعلُّم الآلة والإحصاءات يحلِّل البيانات المؤقتة. تتطلب العديد من أنواع مشاكل تعلُّم الآلة تحليل السلسلة الزمنية، بما في ذلك التصنيف والتصنيف والتوقّع ورصد القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلسلة الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.

U

تعلُّم الآلة غير الخاضع للإشراف

#clustering
#fundamentals

تدريب نموذج للعثور على أنماط في مجموعة بيانات، وعادةً ما تكون مجموعة بيانات غير مُصنَّفة.

الاستخدام الأكثر شيوعًا لتعلُّم الآلة غير الخاضع للإشراف هو تجميع البيانات في مجموعات من الأمثلة المشابهة. على سبيل المثال، يمكن لخوارزمية تعلُّم الآلة غير الخاضعة للإشراف تجميع الأغاني استنادًا إلى خصائص الموسيقى المختلفة. يمكن أن تصبح المجموعات الناتجة إدخالاً إلى خوارزميات أخرى لتعلُّم الآلة (على سبيل المثال، في خدمة لتقديم اقتراحات المحتوى الموسيقي). يمكن أن يكون التجميع مفيدًا عندما تكون التصنيفات المفيدة غير متوفرة أو غير متوفّرة. على سبيل المثال، في النطاقات، مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات الإنسان في فهم البيانات بشكل أفضل.

التباين مع تعلُّم الآلة الخاضع للإشراف