ونظرًا لأن التجميع العنقودي غير مُوجّه، فليس هناك الحقيقة للتحقق نتائجك. ويؤدي غياب الحقيقة إلى تعقيد عمليات تقييم الجودة. علاوة على ذلك، ولا تقدم عادةً مجموعات البيانات الواقعية مجموعات عنقودية واضحة من الأمثلة كما هو الحال في المثال الموضح في الشكل 1.
بدلاً من ذلك، غالبًا ما تبدو البيانات الواقعية مثل الشكل 2، مما يجعل من الصعب وتقييم جودة التجميع العنقودي بصريًا.
ومع ذلك، هناك استدلالات وأفضل الممارسات التي يمكنك تطبيقها تكراريًا. لتحسين جودة التجميع العنقودي. يعطي المخطط الانسيابي التالي نظرة عامة على كيفية تقييم نتائج التجميع العنقودي. سنتوسع في كل .
الخطوة 1: تقييم جودة التجميع العنقودي
تحقق أولاً من أن المجموعات العنقودية تبدو بالشكل الذي تتوقعه، ومن الأمثلة على ذلك تشبه بعضها بعضًا وتظهر في نفس المجموعة العنقودية.
ثم تحقَّق من هذه المقاييس شائعة الاستخدام (ليست قائمة شاملة):
- عدد عناصر المجموعة في المجموعة
- حجم المجموعة
- أداء الإعلان بعد الآن
عدد عناصر المجموعة في المجموعة
عدد القيم الفريدة للسمة العنقودية هو عدد الأمثلة لكل مجموعة. ارسم تجميع القيم الفريدة للسمة في كل المجموعات العنقودية والتحقق من المجموعات العنقودية هي قيم استثنائية رئيسية. في الشكل 2، سيكون ذلك المجموعة العنقودية 5.
حجم المجموعة
المقدار العنقودي هو مجموع المسافات من جميع الأمثلة في مجموعة عنقودية إلى النقطة المركزية للمجموعة العنقودية. ارسم حجم التجمع لكل المجموعات العنقودية والتحقيق في القيم الاستثنائية. في الشكل 3، تعد المجموعة 0 قيمة استثنائية.
ضع في اعتبارك أيضًا الاطلاع على الحد الأقصى أو متوسط المسافة من الأمثلة من النقاط المركزية، حسب المجموعة العنقودية، لإيجاد القيم الاستثنائية.
القوة مقابل عدد العناصر في الحقل
ربما لاحظت أن العدد الأعلى من القيم الفريدة في المجموعة العنقودية تتجاوب مع حجم المجموعة العنقودية، وهو أمر منطقي، حيث إنه كلما زاد عدد النقاط في المجموعة العنقودية (عدد القيم الفريدة للسمة)، كلما زاد المجموع المحتمل للمسافات النقاط من النقطة المركزية (المقدار). كما يمكنك تحديد المجموعات العنقودية ذات القيم الشاذة بالبحث عن تلك التي تكون فيها العلاقة بين عدد القيم الفريدة للسمة والمقدار مختلفًا تمامًا عن المجموعات العنقودية الأخرى. في الشكل 4، يؤدي وضع خط يشير مخطط عدد القيم الفريدة للسمة والمقدار إلى أنّ المجموعة 0 قيمة شاذة. (المجموعة 5 بعيدة أيضًا عن الخط، ولكن إذا تم حذف المجموعة 0، فإن المجموعة الجديدة الخط التوافقي يكون أقرب بكثير إلى المجموعة العنقودية 5).
أداء الإعلان بعد الآن
ونظرًا لأن مخرجات التجميع العنقودي غالبًا ما تُستخدم في أنظمة تعلُّم الآلة التي ستتبعها، فتعرف على ما إذا عند تغيُّر عملية التجميع العنقودي. ويقدم هذا تقييمًا فعليًا لجودة نتائج التجميع العنقودي، رغم أن إجراء هذا النوع من الاختبارات قد يكون معقدًا ومكلفًا.
الخطوة 2: إعادة تقييم مقياس التشابه
تُعد خوارزمية التجميع العنقودي جيدة مثل مقياس التشابه. يُرجى التأكد من أنّ: فمقياس التشابه ينتج عنه نتائج معقولة. يتمثل التحقق السريع في تحديد أزواج من الأمثلة المعروفة بأنها متشابهة بدرجةٍ أكبر أو أقل. احسِب مقياس التشابه لكل زوج من الأمثلة، وقارن نتائجك معرفتك: يجب أن يكون هناك تشابه أعلى في أزواج الأمثلة المتشابهة أكثر من أزواج من الأمثلة غير المتشابهة.
ينبغي أن تكون الأمثلة التي تستخدمها للتحقق الفوري من مقياس التشابه ممثلين لمجموعة البيانات، بحيث يمكنك أن تكون واثقًا من أن التشابه لقياس عمليات الاحتفاظ بالبيانات لجميع أمثلتك. يساعد أداء بمقياس التشابه، سواء كان يدويًا أو خاضعًا للإشراف، متسقًا على مستوى مجموعة البيانات الأصلية. إذا كان مقياس التشابه غير متسق لبعض الأمثلة، فإن تلك فلن يتم تجميع الأمثلة مع أمثلة مماثلة.
إذا وجدت أمثلة ذات درجات تشابه غير دقيقة، فإن التشابه قد لا يجمع بشكل كامل بيانات الميزة التي تميز تلك الأمثلة. جرِّب مقياس التشابه إلى أن يظهر مقدارًا أكبر. نتائج دقيقة ومتسقة.
الخطوة 3: إيجاد العدد الأمثل للمجموعات
تتطلب الخوارزمية التصنيفية أن تحدد عدد المجموعات العنقودية \(k\) مسبقًا. كيف تعرف أنّك مصاب التي حددت \(k\)الأمثل؟ حاول تشغيل الخوارزمية باستخدام زيادة قيم \(k\) وملاحظة مجموع كل القيم العنقودية. بالنسبة \(k\) الزيادات، وتصبح المجموعات العنقودية أصغر، وإجمالي مسافة النقاط انخفاض النقاط من النقاط المركزية. ولكن يمكننا التعامل مع إجمالي المسافة هذه على أنها خسارة. ارسم هذه المسافة وفقًا لعدد المجموعات العنقودية.
كما هو موضح في الشكل 5، أعلى من \(k\)معين، يصبح انخفاض الخسارة هامشية مع زيادة \(k\). ننصحك باستخدام \(k\) حيث يحدث تغيير جذري في الانحدار أولاً، وهو ما يسمى طريقة الانعطاف. بالنسبة إلى المخطط البياني، المثالي \(k\) يبلغ 11 تقريبًا. إذا كنت تفضّل استخدام عناوين أكثر دقة المجموعات العنقودية، يمكنك اختيار \(k\)أعلى، بالرجوع إلى هذا الرسم.
أسئلة تحديد المشاكل وحلّها
إذا اكتشفت مشكلات في مسار التقييم، فأعد تقييم بياناتك وخطوات الإعداد ومقياس التشابه المختار. سؤال:
- هل تم تحجيم بياناتك بشكل مناسب؟
- هل مقياس التشابه صحيح؟
- هل تنفذ خوارزميتك عمليات ذات مغزى دلالي على البيانات؟
- هل تتطابق افتراضات الخوارزمية مع البيانات؟