تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات التجميع العنقودي. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.
جيم
التجميع من الأسفل إلى الأعلى
راجِع التجميع الهرمي.
C
النقطة المركزية
مركز مجموعة كما يتم تحديده بواسطة الخوارزمية التصنيفية أو المتوسط التصنيفي. على سبيل المثال، إذا كانت قيمة k تساوي 3، فإن الخوارزمية التصنيفية أو الخوارزمية التصنيفية تعثر على 3 نقاط مركزية.
التجميع العنقودي القائم على النقطة المركزية
يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنظّم البيانات في مجموعات غير هرمية، مثل الخوارزمية التصنيفية الأكثر استخدامًا على نطاق واسع.
على عكس خوارزميات التجميع الهرمي.
تجميع
تجميع الأمثلة ذات الصلة، لا سيّما أثناء التعلّم غير الخاضع للإشراف. بمجرد تجميع كل الأمثلة، يمكن للإنسان تقديم معنى لكل مجموعة عنقودية بشكل اختياري.
هناك العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمّع أمثلة الخوارزمية التصنيفية الخوارزمية التصنيفية استنادًا إلى قُربها من النقطة المركزية، كما هو موضّح في الرسم البياني التالي:
يمكن لباحث بشري بعد ذلك مراجعة المجموعات العنقودية، وعلى سبيل المثال، تصنيف المجموعة 1 على أنها "أشجار قزمة" والمجموعة 2 على أنها "أشجار بالحجم الكامل".
وكمثال آخر، يمكن استخدام خوارزمية التجميع العنقودي القائم على المسافة في المثال من النقطة المركزية، كما هو موضح على النحو التالي:
D
التجميع العنقودي التقسيمي
راجِع التجميع الهرمي.
H
التجميع الهرمي
يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنشئ شجرة من المجموعات العنقودية. يناسب التجميع الهرمي البيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهرمي:
- يعيّن التجميع العنقودي التراكمي أولاً كل مثال إلى مجموعته العنقودية، ويدمج بصورة متكررة أقرب المجموعات العنقودية لإنشاء شجرة هرمية.
- يعمل التجميع العنقودي أولاً على تجميع جميع الأمثلة في مجموعة عنقودية واحدة، ثم تقسيم المجموعة العنقودية بالتكرار إلى شجرة هرمية.
قارِنها مع التجميع العنقودي القائم على النقطة المركزية.
K
المتوسطات التصنيفية
هو خوارزمية تجميعية شائعة تجمع الأمثلة في التعلم غير المُوجّه. تقوم الخوارزمية التصنيفية بشكل أساسي بما يلي:
- ويحدد بشكل متكرر أفضل نقاط مركزية لكل نقطة (تُعرف باسم النقاط المركزية).
- لتحديد كل مثال لأقرب نقطة مركزية. تنتمي تلك الأمثلة الأقرب نفس النقطة المركزية إلى نفس المجموعة.
تختار الخوارزمية التصنيفية مواقع النقاط المركزية لتقليل المربع التراكمي للمسافات من كل مثال إلى أقرب نقطة مركزية له.
على سبيل المثال، بالنظر إلى الرسم التالي لارتفاع الكلب إلى عرض الكلب:
وإذا كانت متوسط التصنيف k=3، فستحدد الخوارزمية التصنيفية ثلاثة نقاط مركزية. يتم تعيين كل مثال لأقرب نقطة مركزية له، ما ينتج عنه ثلاث مجموعات:
تخيل أن شركة تصنيع تريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة للكلاب. تحدد النقاط المركزية الثلاثة متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، ربما يجب على الشركة المصنعة أن تضع مقاسات السترات على تلك النقاط المركزية الثلاثة. يُرجى العلم أن النقطة المركزية للمجموعة لا تكون عادةً مثالاً في المجموعة.
توضح الرسوم التوضيحية السابقة الخوارزمية التصنيفية لأمثلة ذات سمتين فقط (الارتفاع والعرض). لاحظ أن الخوارزمية التصنيفية يمكن أن تجمع أمثلة عبر العديد من الميزات.
المتوسّط التصنيفي
يشير ذلك المصطلح إلى خوارزمية تجميع ترتبط ارتباطًا وثيقًا بالخوارزمية التصنيفية. يكمن الفرق العملي بين الاثنين في ما يلي:
- في الخوارزمية التصنيفية، يتم تحديد النقاط المركزية من خلال خفض مجموع المربعات للمسافة بين العنصر المرشح للنقطة المركزية وكل مثال من أمثلةه.
- في الوسيط التصنيفي، يتم تحديد النقاط المركزية من خلال خفض مجموع المسافة بين مرشح نقطة مركزية وكل مثال من أمثلته.
تجدر الإشارة إلى أنّ تعريفات المسافة تختلف أيضًا:
- تعتمد الخوارزمية التصنيفية على المسافة الإقليدية من النقطة المركزية إلى مثال. (في البعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لحساب وتر المثلث). على سبيل المثال، الخوارزمية التصنيفية بين (2,2) و (5,-2) ستكون:
- يعتمد المتوسط التصنيفي على مسافة مانهاتن من النقطة المركزية إلى مثال. هذه المسافة هي مجموع دلتا المطلقة في كل بُعد. على سبيل المثال، المسافة المتوسطة التصنيفية بين (2,2) و (5,-2) ستكون:
S
مقياس التشابه
في خوارزميات التجميع، يتم استخدام المقياس المستخدَم لتحديد مدى تشابه (مدى تشابه) أي مثالَين.
رسم
في التعلم الآلي غير المُوجّه، يشير ذلك المصطلح إلى فئة من الخوارزميات التي تُجري تحليلاً أوليًا للتشابه على الأمثلة. تستخدم خوارزميات الرسومات دالة تجزئة حساسة للمناطق المحلية لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجمعها في مجموعات.
يقلل الرسم التخطيطي من العملية الحسابية المطلوبة لحسابات التشابه على مجموعات البيانات الكبيرة. وبدلاً من حساب التشابه لكل زوج فردي من الأمثلة في مجموعة البيانات، فإننا نحسب التشابه فقط لكل زوج من النقاط داخل كل مجموعة.
T
تحليل المتسلسلات الزمنية
هو حقل فرعي من تعلُّم الآلة والإحصاءات التي تحلل البيانات المؤقتة. تتطلب العديد من أنواع مشكلات التعلم الآلي تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع العنقودي والتنبؤ ورصد القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلسلة الزمنية للتنبؤ بالمبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات التاريخية.
U
تعلُّم الآلة غير الخاضع للإشراف
تدريب model للعثور على أنماط في مجموعة بيانات، عادة مجموعة بيانات غير مصنفة.
إنّ الاستخدام الأكثر شيوعًا للتعلّم الآلي غير المُوجّه هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية التعلم الآلي غير المُوجّهة تجميع الأغاني بناءً على خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات العنقودية الناتجة مدخلات لخوارزميات التعلم الآلي الأخرى (على سبيل المثال، لخدمة اقتراح الموسيقى). يمكن أن يساعد التجميع العنقودي عندما تكون التسميات المفيدة نادرة أو غير موجودة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن للمجموعات أن تساعد المستخدمين على فهم البيانات بشكل أفضل.
على عكس التعلُّم الآلي الخاضع للإشراف