مجموعات البيانات: التصنيفات

يركّز هذا القسم على التصنيفات.

التصنيفات المباشرة في مقابل التصنيفات التقريبية

هناك نوعان مختلفان من التصنيفات:

  • التصنيفات المباشرة، وهي تصنيفات مطابقة للتوقّع الذي يحاول النموذج تحديده. أي أنّ التوقّع الذي يحاول النموذج إجراؤه يظهر تمامًا كعمود في مجموعة البيانات. على سبيل المثال، سيكون العمود الذي يحمل الاسم bicycle owner تصنيفًا مباشرًا لنموذج تصنيف ثنائي يحدّد ما إذا كان الشخص يملك دراجة أم لا.
  • التصنيفات البديلة، وهي تصنيفات مشابهة للتصنيف الذي يحاول النموذج توقّعه، ولكنها ليست مطابقة له. على سبيل المثال، من المحتمل أنّ الشخص الذي يشترك في مجلة Bicycle Bizarre يملك دراجة، ولكن ليس من المؤكد ذلك.

تكون التصنيفات المباشرة أفضل بشكل عام من التصنيفات البديلة. إذا كانت مجموعة البيانات توفّر تصنيفًا مباشرًا محتملاً، من الأفضل استخدامه. ومع ذلك، لا تتوفّر التصنيفات المباشرة في كثير من الأحيان.

تُعدّ التصنيفات البديلة دائمًا حلاً وسطًا، فهي تقريب غير مثالي للتصنيف المباشر. ومع ذلك، تكون بعض التصنيفات البديلة تقريبية بدرجة كافية لتكون مفيدة. إنّ النماذج التي تستخدم تصنيفات بديلة تكون مفيدة فقط بقدر الصلة بين التصنيف البديل والتوقّع.

تذكَّر أنّه يجب تمثيل كل تصنيف كرقم نقطة عائمة في متّجه الميزات (لأنّ التعلّم الآلي هو في الأساس مزيج كبير من العمليات الرياضية). في بعض الأحيان، يتوفّر تصنيف مباشر ولكن لا يمكن تمثيله بسهولة كرقم ذي فاصلة عشرية في متجه الميزات. في هذه الحالة، استخدِم تصنيفًا وكيلاً.

تمرين: التحقّق من فهمك

تريد شركتك إجراء ما يلي:

إرسال قسائم ("احصل على خصم% 15 على خوذة دراجة جديدة") إلى مالكي الدراجات

لذا، يجب أن يقوم نموذجك بما يلي:

توقُّع الأشخاص الذين يملكون دراجة هوائية

للأسف، لا تحتوي مجموعة البيانات على عمود باسم bike owner. ومع ذلك، تحتوي مجموعة البيانات على عمود باسم recently bought a bicycle.

هل سيكون recently bought a bicycle تصنيفًا جيدًا أو سيئًا كبديل لهذا النموذج؟
تصنيف تقريبي جيد
العمود recently bought a bicycle هو تصنيف بديل جيد نسبيًا. فمعظم الأشخاص الذين يشترون دراجات حاليًا يملكون دراجات. ومع ذلك، مثل جميع التصنيفات البديلة، حتى تلك الجيدة جدًا، فإنّ recently bought a bicycle غير مثالية. ففي النهاية، ليس الشخص الذي يشتري المنتج هو دائمًا الشخص الذي يستخدمه (أو يملكه). على سبيل المثال، يشتري الأشخاص أحيانًا دراجات كهدايا.
تصنيف تقريبي ضعيف
كما هو الحال مع جميع التصنيفات البديلة، فإنّ recently bought a bicycle غير دقيق (يتم شراء بعض الدراجات كهدية وتقديمها إلى آخرين). ومع ذلك، يظل recently bought a bicycle مؤشرًا جيدًا نسبيًا على أنّ شخصًا ما يملك دراجة.

البيانات من إنشاء الإنسان

بعض البيانات من إنشاء البشر، أي أنّ شخصًا واحدًا أو أكثر يفحصون بعض المعلومات ويقدّمون قيمة، عادةً للتصنيف. على سبيل المثال، يمكن أن يفحص خبير أرصاد جوية واحد أو أكثر صورًا للسماء ويحدّد أنواع السحب.

بدلاً من ذلك، يتم إنشاء بعض البيانات تلقائيًا. أي أنّ البرنامج (وربما نموذج آخر من نماذج تعلُّم الآلة) يحدّد القيمة. على سبيل المثال، يمكن لنموذج تعلُّم آلة فحص صور السماء والتعرّف تلقائيًا على أنواع السحب.

يستكشف هذا القسم مزايا وعيوب البيانات التي ينشئها المستخدمون.

المزايا

  • يمكن للمقيّمين البشريين تنفيذ مجموعة واسعة من المهام التي قد يصعب تنفيذها حتى باستخدام نماذج تعلُّم الآلة المتطورة.
  • تفرض العملية على مالك مجموعة البيانات وضع معايير واضحة ومتسقة.

العيوب

  • عادةً ما تدفع للمقيّمين البشريين، لذا قد تكون البيانات التي ينشئها البشر مكلفة.
  • الخطأ من طبيعة البشر. لذلك، قد يضطر عدة مقيّمين إلى تقييم البيانات نفسها.

فكِّر في هذه الأسئلة لتحديد احتياجاتك:

  • ما هي المهارات المطلوبة لدى المقيمين؟ (على سبيل المثال، هل يجب أن يتقن المقيمون لغة معيّنة؟ هل تحتاج إلى لغويين لتطبيقات الحوار أو معالجة اللغة الطبيعية؟)
  • كم عدد الأمثلة المصنّفة التي تحتاج إليها؟ متى ستحتاج إليها؟
  • ما هي ميزانيتك؟

يجب دائمًا التحقّق من صحة التقييمات التي يقدّمها المقيمون. على سبيل المثال، يمكنك تصنيف 1,000 مثال بنفسك ومعرفة مدى تطابق نتائجك مع نتائج المقيمين الآخرين. في حال ظهور اختلافات، لا تفترض أنّ تقييماتك هي الصحيحة، خاصةً إذا كان الأمر يتضمّن حكمًا على القيمة. إذا كان المقيّمون البشريون قد أضافوا أخطاء، يمكنك إضافة تعليمات لمساعدتهم وإعادة المحاولة.