لنفترض أنك تعمل على مجموعة بيانات تتضمن معلومات مريض من نظام الرعاية الصحية. وتكون مجموعة البيانات معقدة وتتضمن كلاً من الميزات الرقمية. تريد العثور على الأنماط وأوجه التشابه في مجموعة البيانات. كيف يمكنك التعامل مع هذه المهمة؟
التجميع العنقودي هو نظام غير خاضع للإشراف تقنية التعلم الآلي المصممة لتجميع أمثلة غير مصنَّفة بناءً على التشابه فيما بينها. (إذا تم تسمية الأمثلة، فإن هذا نوع التجميع التصنيف). ضع في اعتبارك مريضًا افتراضيًا المصممة لتقييم بروتوكول علاج جديد. أثناء الدراسة، يستخدم المرضى والإبلاغ عن عدد المرات التي يعانون من الأعراض كل أسبوع وشدة الأعراض. يمكن للباحثين استخدام تحليل التجميع العنقودي لتجميع المرضى من ذوي المرض الاستجابات للعلاج في مجموعات. يوضح الشكل 1 مجموعة واحدة محتملة من البيانات المحكية في ثلاث مجموعات عنقودية.
وبالنظر إلى البيانات غير المصنفة على يسار الشكل 1، يمكنك تخمين أنه تشكل البيانات ثلاث مجموعات عنقودية، حتى بدون تعريف رسمي للتشابه بين نقاط البيانات. ومع ذلك، في تطبيقات العالم الحقيقي، فإنك تحتاج إلى تحديد مقياس التشابه، أو المقياس المستخدم لمقارنة النماذج، في مصطلحات ميزات مجموعة البيانات. عندما تحتوي الأمثلة على ميزتين فقط، يُعد تصور التشابه وقياسه أمرًا بسيطًا. ولكن مع زيادة الميزات الجديدة، يصبح دمج الميزات ومقارنتها أكثر سهولة وأكثر تعقيدًا. قد تكون مقاييس التشابه المختلفة أكثر أو أقل ملاءمة لسيناريوهات التجميع العنقودي المختلفة، وستتناول هذه الدورة اختيار مقياس التشابه المناسب في الأقسام اللاحقة: مقاييس التشابه اليدوية أو قياس التشابه من التضمينات:
بعد التجميع العنقودي، يتم تعيين تصنيف فريد لكل مجموعة يُسمى معرّف المجموعة. يعد التجميع العنقودي قويًا لأنه يمكن أن يبسط مجموعات البيانات الكبيرة والمعقدة باستخدام العديد من الميزات في معرف مجموعة واحدة.
حالات استخدام التجميع العنقودي
يعد التجميع العنقودي مفيدًا في مجموعة متنوعة من المجالات. بعض التطبيقات الشائعة للتجميع العنقودي:
- تقسيم السوق
- تحليل الشبكة الاجتماعية
- تجميع نتائج البحث
- التصوير الطبي
- تقسيم الصور
- رصد القيم الشاذة
في ما يلي بعض الأمثلة المحددة للتجميع العنقودي:
- مخطّط Hertzsprung-Russell مجموعات من النجوم عند رسمها باستخدام السطوع ودرجة الحرارة.
- التسلسل الجيني الذي يُظهر أوجه التشابه الجينية غير المعروفة وقد أدّت الاختلافات بين الأنواع إلى مراجعة التصنيفات. بناءً على مرات الظهور سابقًا.
- الأهم 5 ونموذجتها لسمات الشخصية عن طريق تجميع الكلمات تصف الشخصية في 5 مجموعات. تشير رسالة الأشكال البيانية الهيكساكو في النموذج 6 مجموعات عنقودية بدلاً من 5.
الحساب
عندما تفتقر بعض الأمثلة في إحدى المجموعات العنقودية إلى بيانات الخصائص، يمكنك استنتاج البيانات المفقودة من الأمثلة الأخرى في المجموعة العنقودية. وهذا ما يسمى . على سبيل المثال، يمكن تجميع الفيديوهات الأقل رواجًا ضمن فيديوهات أكثر رواجًا. لتحسين الفيديوهات المقترَحة
ضغط البيانات
وكما أوضحنا سابقًا، يمكن أن يحل معرِّف المجموعة ذي الصلة محل الميزات الأخرى لجميع الأمثلة في تلك المجموعة. يقلل هذا الاستبدال من عدد الميزات وبالتالي يقلل أيضًا الموارد اللازمة لتخزين النماذج ومعالجتها وتدريبها استنادًا إلى تلك البيانات. بالنسبة إلى مجموعات البيانات الكبيرة جدًا، تصبح عمليات التوفير هذه كبيرة.
على سبيل المثال، يمكن أن يتضمّن فيديو واحد على YouTube بيانات ميزة، بما في ذلك:
- الموقع الجغرافي للمشاهد ووقته وخصائصه الديمغرافية
- الطوابع الزمنية للتعليقات والنص وأرقام تعريف المستخدمين
- علامات الفيديو
يستبدل تجميع مقاطع فيديو YouTube هذه المجموعة من الميزات معرّف مجموعة واحدة، وبالتالي ضغط البيانات.
الحفاظ على الخصوصية
يمكنك الحفاظ على الخصوصية إلى حد ما من خلال تجميع المستخدمين وربط بياناتهم باستخدام معرِّفات المجموعات بدلاً من أرقام تعريف المستخدمين. لتقديم مثال واحد محتمل، لنفترض أنك تريد لتدريب نموذج على صفحة مستخدمي YouTube سجلّ المشاهدة بدلاً من تمرير أرقام تعريف المستخدمين مع النموذج، يمكنك تجميع المستخدمين وتمرير معرف المجموعة فقط. هذا النمط لمنع إرفاق سجلات المشاهدة الفردية بمستخدمين فرديين. ملاحظة يجب أن تحتوي المجموعة العنقودية على عدد كبير بما يكفي من المستخدمين من أجل الحفاظ على الخصوصية.