مسرد مصطلحات التعلم الآلي: التجميع العنقودي

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات التجميع العنقودي. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.

جيم

التجميع من الأسفل إلى الأعلى

#clustering

راجِع التجميع الهرمي.

C

النقطة المركزية

#clustering

مركز مجموعة كما يتم تحديده بواسطة الخوارزمية التصنيفية أو المتوسط التصنيفي. على سبيل المثال، إذا كانت قيمة k تساوي 3، فإن الخوارزمية التصنيفية أو الخوارزمية التصنيفية تعثر على 3 نقاط مركزية.

التجميع العنقودي القائم على النقطة المركزية

#clustering

يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنظّم البيانات في مجموعات غير هرمية، مثل الخوارزمية التصنيفية الأكثر استخدامًا على نطاق واسع.

على عكس خوارزميات التجميع الهرمي.

تجميع

#clustering

تجميع الأمثلة ذات الصلة، لا سيّما أثناء التعلّم غير الخاضع للإشراف. بمجرد تجميع كل الأمثلة، يمكن للإنسان تقديم معنى لكل مجموعة عنقودية بشكل اختياري.

هناك العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمّع أمثلة الخوارزمية التصنيفية الخوارزمية التصنيفية استنادًا إلى قُربها من النقطة المركزية، كما هو موضّح في الرسم البياني التالي:

هو رسم بياني ثنائي الأبعاد يتم فيه تسمية المحور "س" باسم "عرض الشجرة" والمحور
          "ص" إلى "ارتفاع الشجرة". ويتضمّن الرسم البياني نقطتَين مركزيتَين وعشرات من نقاط البيانات. يتم تصنيف نقاط البيانات
          حسب قربها. وهذا يعني أنّ نقاط البيانات الأقرب إلى نقطة مركزية يتم تصنيفها ضمن المجموعة 1، في حين يتم تصنيف النقاط الأقرب إلى النقطة المركزية الأخرى ضمن المجموعة 2.

يمكن لباحث بشري بعد ذلك مراجعة المجموعات العنقودية، وعلى سبيل المثال، تصنيف المجموعة 1 على أنها "أشجار قزمة" والمجموعة 2 على أنها "أشجار بالحجم الكامل".

وكمثال آخر، يمكن استخدام خوارزمية التجميع العنقودي القائم على المسافة في المثال من النقطة المركزية، كما هو موضح على النحو التالي:

يتم ترتيب العشرات من نقاط البيانات في دوائر متحدة المركز، مثل الثقوب حول وسط لوحة رمي السهام. ويتم تصنيف الحلقة الأعمق لنقاط البيانات ضمن المجموعة 1 والحلقة الوسطى من المجموعة 2 والحلقة الخارجية على أنها المجموعة 3.

D

التجميع العنقودي التقسيمي

#clustering

راجِع التجميع الهرمي.

H

التجميع الهرمي

#clustering

يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنشئ شجرة من المجموعات العنقودية. يناسب التجميع الهرمي البيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهرمي:

  • يعيّن التجميع العنقودي التراكمي أولاً كل مثال إلى مجموعته العنقودية، ويدمج بصورة متكررة أقرب المجموعات العنقودية لإنشاء شجرة هرمية.
  • يعمل التجميع العنقودي أولاً على تجميع جميع الأمثلة في مجموعة عنقودية واحدة، ثم تقسيم المجموعة العنقودية بالتكرار إلى شجرة هرمية.

قارِنها مع التجميع العنقودي القائم على النقطة المركزية.

K

المتوسطات التصنيفية

#clustering

هو خوارزمية تجميعية شائعة تجمع الأمثلة في التعلم غير المُوجّه. تقوم الخوارزمية التصنيفية بشكل أساسي بما يلي:

  • ويحدد بشكل متكرر أفضل نقاط مركزية لكل نقطة (تُعرف باسم النقاط المركزية).
  • لتحديد كل مثال لأقرب نقطة مركزية. تنتمي تلك الأمثلة الأقرب نفس النقطة المركزية إلى نفس المجموعة.

تختار الخوارزمية التصنيفية مواقع النقاط المركزية لتقليل المربع التراكمي للمسافات من كل مثال إلى أقرب نقطة مركزية له.

على سبيل المثال، بالنظر إلى الرسم التالي لارتفاع الكلب إلى عرض الكلب:

مخطط الديكارتي فيه عدة عشرات من نقاط البيانات.

وإذا كانت متوسط التصنيف k=3، فستحدد الخوارزمية التصنيفية ثلاثة نقاط مركزية. يتم تعيين كل مثال لأقرب نقطة مركزية له، ما ينتج عنه ثلاث مجموعات:

نفس المخطط الديكارتي كما في الرسم التوضيحي السابق، باستثناء
          ثلاث نقاط مركزية.
          يتم تجميع نقاط البيانات السابقة في ثلاث مجموعات مختلفة، حيث تمثل كل مجموعة نقاط البيانات الأقرب إلى نقطة مركزية معينة.

تخيل أن شركة تصنيع تريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة للكلاب. تحدد النقاط المركزية الثلاثة متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، ربما يجب على الشركة المصنعة أن تضع مقاسات السترات على تلك النقاط المركزية الثلاثة. يُرجى العلم أن النقطة المركزية للمجموعة لا تكون عادةً مثالاً في المجموعة.

توضح الرسوم التوضيحية السابقة الخوارزمية التصنيفية لأمثلة ذات سمتين فقط (الارتفاع والعرض). لاحظ أن الخوارزمية التصنيفية يمكن أن تجمع أمثلة عبر العديد من الميزات.

المتوسّط التصنيفي

#clustering

يشير ذلك المصطلح إلى خوارزمية تجميع ترتبط ارتباطًا وثيقًا بالخوارزمية التصنيفية. يكمن الفرق العملي بين الاثنين في ما يلي:

  • في الخوارزمية التصنيفية، يتم تحديد النقاط المركزية من خلال خفض مجموع المربعات للمسافة بين العنصر المرشح للنقطة المركزية وكل مثال من أمثلةه.
  • في الوسيط التصنيفي، يتم تحديد النقاط المركزية من خلال خفض مجموع المسافة بين مرشح نقطة مركزية وكل مثال من أمثلته.

تجدر الإشارة إلى أنّ تعريفات المسافة تختلف أيضًا:

  • تعتمد الخوارزمية التصنيفية على المسافة الإقليدية من النقطة المركزية إلى مثال. (في البعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لحساب وتر المثلث). على سبيل المثال، الخوارزمية التصنيفية بين (2,2) و (5,-2) ستكون:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • يعتمد المتوسط التصنيفي على مسافة مانهاتن من النقطة المركزية إلى مثال. هذه المسافة هي مجموع دلتا المطلقة في كل بُعد. على سبيل المثال، المسافة المتوسطة التصنيفية بين (2,2) و (5,-2) ستكون:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

مقياس التشابه

#clustering

في خوارزميات التجميع، يتم استخدام المقياس المستخدَم لتحديد مدى تشابه (مدى تشابه) أي مثالَين.

رسم

#clustering

في التعلم الآلي غير المُوجّه، يشير ذلك المصطلح إلى فئة من الخوارزميات التي تُجري تحليلاً أوليًا للتشابه على الأمثلة. تستخدم خوارزميات الرسومات دالة تجزئة حساسة للمناطق المحلية لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجمعها في مجموعات.

يقلل الرسم التخطيطي من العملية الحسابية المطلوبة لحسابات التشابه على مجموعات البيانات الكبيرة. وبدلاً من حساب التشابه لكل زوج فردي من الأمثلة في مجموعة البيانات، فإننا نحسب التشابه فقط لكل زوج من النقاط داخل كل مجموعة.

T

تحليل المتسلسلات الزمنية

#clustering

هو حقل فرعي من تعلُّم الآلة والإحصاءات التي تحلل البيانات المؤقتة. تتطلب العديد من أنواع مشكلات التعلم الآلي تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع العنقودي والتنبؤ ورصد القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلسلة الزمنية للتنبؤ بالمبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات التاريخية.

U

تعلُّم الآلة غير الخاضع للإشراف

#clustering
#fundamentals

تدريب model للعثور على أنماط في مجموعة بيانات، عادة مجموعة بيانات غير مصنفة.

إنّ الاستخدام الأكثر شيوعًا للتعلّم الآلي غير المُوجّه هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية التعلم الآلي غير المُوجّهة تجميع الأغاني بناءً على خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات العنقودية الناتجة مدخلات لخوارزميات التعلم الآلي الأخرى (على سبيل المثال، لخدمة اقتراح الموسيقى). يمكن أن يساعد التجميع العنقودي عندما تكون التسميات المفيدة نادرة أو غير موجودة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن للمجموعات أن تساعد المستخدمين على فهم البيانات بشكل أفضل.

على عكس التعلُّم الآلي الخاضع للإشراف