مجموعات البيانات: التصنيفات

يركّز هذا القسم على التصنيفات.

التصنيفات المباشرة في مقابل التصنيفات التقريبية

هناك نوعان مختلفان من التصنيفات:

  • التصنيفات المباشرة، وهي تصنيفات مطابقة للتوقّع الذي يحاول النموذج تحديده. أي أنّ التوقّع الذي يحاول النموذج إجراؤه يظهر تمامًا كعمود في مجموعة البيانات. على سبيل المثال، سيكون العمود الذي يحمل الاسم bicycle owner تصنيفًا مباشرًا لنموذج تصنيف ثنائي يحدّد ما إذا كان الشخص يملك دراجة أم لا.
  • التصنيفات البديلة، وهي تصنيفات مشابهة للتصنيف الذي يحاول النموذج توقّعه، ولكنها ليست مطابقة له. على سبيل المثال، من المحتمل أنّ الشخص الذي يشترك في مجلة Bicycle Bizarre يملك دراجة، ولكن ليس من المؤكد ذلك.

تكون التصنيفات المباشرة أفضل بشكل عام من التصنيفات البديلة. إذا كانت مجموعة البيانات توفّر تصنيفًا مباشرًا محتملاً، من الأفضل استخدامه. ومع ذلك، لا تتوفّر التصنيفات المباشرة في كثير من الأحيان.

تُعدّ التصنيفات البديلة دائمًا حلاً وسطًا، فهي تقريب غير مثالي للتصنيف المباشر. ومع ذلك، تكون بعض التصنيفات البديلة تقريبية بدرجة كافية لتكون مفيدة. إنّ النماذج التي تستخدم تصنيفات بديلة تكون مفيدة فقط بقدر فائدة العلاقة بين التصنيف البديل والتوقّع.

تذكَّر أنّ كل تصنيف يجب أن يتم تمثيله كعدد ذي فاصلة عائمة، على غرار متّجه الميزات (لأنّ التعلّم الآلي هو في الأساس مجموعة من العمليات الرياضية). في بعض الأحيان، تتوفّر تصنيفات مباشرة ولكن لا يمكن تمثيلها بسهولة كعدد ذي فاصلة عشرية. في هذه الحالة، استخدِم تصنيفًا وكيلاً.

تمرين: التحقّق من فهمك

تريد شركتك إجراء ما يلي:

إرسال قسائم ("احصل على خصم% 15 على خوذة دراجة جديدة") إلى مالكي الدراجات

لذا، يجب أن يقوم نموذجك بما يلي:

توقُّع الأشخاص الذين يملكون دراجة

للأسف، لا تحتوي مجموعة البيانات على عمود باسم bike owner. ومع ذلك، تحتوي مجموعة البيانات على عمود باسم recently bought a bicycle.

هل سيكون recently bought a bicycle تصنيفًا جيدًا أو سيئًا كبديل لهذا النموذج؟
تصنيف تقريبي جيد
العمود recently bought a bicycle هو تصنيف بديل جيد نسبيًا. فمعظم الأشخاص الذين يشترون دراجات حاليًا يملكون دراجات. ومع ذلك، مثل جميع التصنيفات البديلة، حتى تلك الجيدة جدًا، فإنّ recently bought a bicycle غير مثالية. ففي النهاية، ليس الشخص الذي يشتري المنتج هو دائمًا الشخص الذي يستخدمه (أو يملكه). على سبيل المثال، يشتري الأشخاص أحيانًا دراجات كهدايا.
تصنيف تقريبي ضعيف
كما هو الحال مع جميع التصنيفات البديلة، فإنّ recently bought a bicycle غير مثالي (يتم شراء بعض الدراجات كهدية وتقديمها للآخرين). ومع ذلك، لا يزال recently bought a bicycle مؤشرًا جيدًا نسبيًا على أنّ شخصًا ما يملك دراجة.

البيانات من إنشاء الإنسان

بعض البيانات من إنشاء البشر، أي أنّ شخصًا واحدًا أو أكثر يفحصون بعض المعلومات ويقدّمون قيمة، عادةً للتصنيف. على سبيل المثال، يمكن أن يفحص خبير أرصاد جوية واحد أو أكثر صورًا للسماء ويحدّد أنواع السحب.

بدلاً من ذلك، يتم إنشاء بعض البيانات تلقائيًا. أي أنّ البرنامج (وربما نموذج آخر للتعلم الآلي) يحدّد القيمة. على سبيل المثال، يمكن لنموذج تعلُّم آلة فحص صور السماء والتعرّف تلقائيًا على أنواع السحب.

يستكشف هذا القسم مزايا وعيوب البيانات التي ينشئها المستخدمون.

المزايا

  • يمكن للمقيّمين البشريين تنفيذ مجموعة كبيرة من المهام التي قد يصعب حتى على نماذج تعلُّم الآلة المتطورة تنفيذها.
  • تفرض العملية على مالك مجموعة البيانات وضع معايير واضحة ومتسقة.

العيوب

  • عادةً ما تدفع للمقيّمين البشريين، لذا قد تكون البيانات التي ينشئها البشر مكلفة.
  • الخطأ من طبيعة البشر. لذلك، قد يضطر عدة مقيّمين إلى تقييم البيانات نفسها.

فكِّر في هذه الأسئلة لتحديد احتياجاتك:

  • ما هي المهارات المطلوبة لدى المقيمين؟ (على سبيل المثال، هل يجب أن يتقن المقيمون لغة معيّنة؟ هل تحتاج إلى لغويين لتطبيقات الحوار أو معالجة اللغة الطبيعية؟)
  • كم عدد الأمثلة المصنّفة التي تحتاج إليها؟ متى ستحتاج إليها؟
  • ما هي ميزانيتك؟

يجب دائمًا التحقّق من صحة تقييمات المقيمين. على سبيل المثال، صنِّف 1,000 مثال بنفسك، واطّلِع على مدى تطابق نتائجك مع نتائج المصنّفين الآخرين. في حال ظهور اختلافات، لا تفترض أنّ تقييماتك هي الصحيحة، خاصةً إذا كان الأمر يتضمّن حكمًا على القيمة. إذا كان المقيّمون البشريون قد أضافوا أخطاء، يمكنك إضافة تعليمات لمساعدتهم وإعادة المحاولة.