ما هو التجميع؟

عندما تحاول التعرّف على معلومات حول محتوى موسيقي معيّن، يمكنك أيضًا البحث عن مجموعات أو مجموعات مفيدة. يمكنك تنظيم الموسيقى حسب النوع، في حين قد ينظّم صديقك الموسيقى حسب العقد. تساعدك الطريقة التي تختارها لتجميع العناصر في فهم المزيد عنها كأعمال موسيقية فردية. قد يتضح لك أنّ لديك اهتمامًا كبيرًا بموسيقى البانك روك وتقسيمها إلى أساليب أو موسيقى مختلفة من مواقع جغرافية مختلفة. من ناحية أخرى، يمكن أن يستعرض صديقك موسيقى من ثمانينيات القرن الماضي وقد يتمكّن من فهم مدى تأثير الموسيقى في مختلف الأنواع في ذلك الوقت على المناخ السياسي والسياسي. في كلتا الحالتين، تعلّمت أنت وصديقك شيقًا حول الموسيقى، على الرغم من اتّباعك أساليب مختلفة.

في تعلُّم الآلة أيضًا، غالبًا ما نجمع الأمثلة كخطوة أولى لفهم الموضوع (مجموعة البيانات) في نظام تعلّم الآلة. يُطلق على التجميع أمثلة غير مُصنَّفة اسم التجميع.

وبسبب عدم تصنيف الأمثلة، يعتمد التجميع على تقنية تعلُّم الآلة غير الخاضعة للإشراف. إذا تم تصنيف الأمثلة، يصبح التجميع تصنيفًا. للحصول على مناقشة أكثر تفصيلاً حول الطرق الخاضعة للإشراف وتلك غير الخاضعة للإشراف، يُرجى الاطّلاع على مقدمة حول تأطير مشاكل تعلُّم الآلة.

رسم بياني يعرض ثلاث مجموعات
الشكل 1: أمثلة غير مُصنَّفة مجمَّعة في ثلاث مجموعات.

قبل تجميع أمثلة مشابهة، عليك أولاً العثور على أمثلة مشابهة. يمكنك قياس التشابه بين الأمثلة من خلال الجمع بين بيانات أمثلة الأمثلة في مقياس، ويُسمّى مقياس التشابه. عند تحديد كل مثال حسب ميزة واحدة أو ميزتين، من السهل قياس التشابه. على سبيل المثال، يمكنك العثور على كتب مشابهة لمؤلفيها. ومع زيادة عدد الميزات، يصبح إنشاء مقياس تشابه أكثر تعقيدًا. وسنرى لاحقًا كيفية إنشاء مقياس تشابه في سيناريوهات مختلفة.

ما هي استخدامات التجميع؟

هناك مجموعة كبيرة من الاستخدامات في مجموعة متنوعة من المجالات. تتضمن بعض تطبيقات التجميع الشائعة ما يلي:

  • تصنيف السوق
  • تحليل الشبكات الاجتماعية
  • تجميع نتائج البحث
  • التصوير الطبي
  • تصنيف الصور
  • رصد القيم الشاذة

بعد التجميع، يتم تخصيص رقم لرقم تعريف المجموعة لكل مجموعة. يمكنك الآن اختصار مجموعة الميزات بالكامل كمثال في معرِّف المجموعة الخاص بها. يؤدي تقديم مثال معقّد من خلال رقم تعريف مجموعة بسيطة إلى جعل التجميع فعّالًا. ومن خلال توسيع نطاق الفكرة، يمكن أن يؤدي تجميع البيانات إلى تبسيط مجموعات البيانات الكبيرة.

على سبيل المثال، يمكنك تجميع العناصر حسب ميزات مختلفة كما هو موضّح في الأمثلة التالية:

أمثلة
  • يمكنك تجميع النجوم حسب السطوع.
  • تجميع الكائنات الكائنات حسب المعلومات الجينية في تصنيف.
  • تجميع المستندات حسب الموضوع.

يمكن لأنظمة تعلُّم الآلة بعد ذلك استخدام معرّفات المجموعات لتبسيط معالجة مجموعات البيانات الكبيرة. وبالتالي، فإنّ نتائج التجميع تكون بمثابة بيانات عن الميزات الخاصة بأنظمة تعلُّم الآلة في البداية.

في Google، يُستخدم التجميع للتعميم وضغط البيانات والحفاظ على الخصوصية في منتجات مثل فيديوهات YouTube وتطبيقات Play والمقاطع الموسيقية.

التعميم

عندما تحتوي بعض الأمثلة في مجموعة على بيانات ميزة غير متوفّرة، يمكنك استنتاج البيانات المفقودة من الأمثلة الأخرى في المجموعة.

مثال
ويمكن تجميع الفيديوهات الأقل رواجًا مع الفيديوهات الأكثر رواجًا لتحسين الفيديوهات المقترَحة.

ضغط البيانات

كما تمت مناقشته، يمكن استبدال بيانات الميزات لجميع الأمثلة في مجموعة برقم تعريف المجموعة ذي الصلة. ويعمل هذا الاستبدال على تبسيط بيانات الميزة وتوفير مساحة التخزين. وتتزايد أهمية هذه المزايا عند توسيع نطاقها لتشمل مجموعات بيانات كبيرة. بالإضافة إلى ذلك، يمكن لأنظمة تعلُّم الآلة استخدام رقم تعريف المجموعة كإدخال بدلاً من مجموعة بيانات الميزات بالكامل. يؤدي الحد من تعقيدات بيانات الإدخال إلى جعل نموذج تعلّم الآلة بسيطًا وأسرع في التدريب.

مثال
يمكن أن تتضمّن بيانات الميزة لفيديو واحد على YouTube ما يلي:
  • بيانات المشاهدين حول الموقع الجغرافي والوقت والخصائص الديمغرافية
  • بيانات التعليقات التي تتضمّن الطوابع الزمنية والنصوص وأرقام تعريف المستخدمين
  • علامات الفيديو
يتيح لك تجميع فيديوهات YouTube استبدال مجموعة الميزات هذه بمعرّف مجموعة واحد، ما يؤدي إلى ضغط بياناتك.

الحفاظ على الخصوصية

يمكنك الحفاظ على الخصوصية عن طريق تجميع المستخدمين وربط بيانات المستخدمين بأرقام تعريف المجموعة بدلاً من مستخدمين محددين. لضمان عدم إمكانية ربط بيانات المستخدم بمستخدم معيّن، يجب أن تجمع المجموعة عددًا كافيًا من المستخدمين.

مثال
لنفترض أنك تريد إضافة سجلّ الفيديو لمستخدمي YouTube إلى نموذجك. بدلاً من الاعتماد على رقم تعريف المستخدم، يمكنك تجميع المستخدمين والاعتماد على رقم تعريف المجموعة بدلاً من ذلك. والآن، لا يمكن للنموذج ربط سجلّ الفيديو بمستخدم محدّد، بل بمعرّف مجموعة يمثل مجموعة كبيرة من المستخدمين.