مجموعات البيانات: التصنيفات

يركز هذا القسم على التصنيفات.

التصنيفات المباشرة في مقابل التصنيفات التقريبية

هناك نوعان مختلفان من التصنيفات:

  • التصنيفات المباشرة، وهي تصنيفات مطابقة للتنبؤ الذي يحاول نموذجك إجراؤه. وهذا يعني أنّ التوقّع الذي يحاول النموذج تقديمه هو معروض تمامًا كعمود في مجموعة البيانات. على سبيل المثال، سيكون العمود الذي يحمل الاسم bicycle owner تصنيفًا مباشرًا ل نموذج تصنيف ثنائي يتنبّأ ما إذا كان الشخص يملك دراجة أم لا.
  • التصنيفات الوكيلة، وهي تصنيفات مشابهة، ولكن ليست متطابقة، للتصنيف الذي يحاول النموذج إجراؤه على سبيل المثال، من المرجّح أن يكون لدى الشخص الذي يشترك في مجلة Bicycle Bizarre دراجة، ولكن ليس بالتأكيد.

تكون التصنيفات المباشرة بشكل عام أفضل من التصنيفات الوكيلة. إذا كانت مجموعة بياناتك توفّر تصنيفًا مباشرًا محتملًا، من المرجّح أن تستخدمه. في أغلب الأحيان، لا تتوفّر التصنيفات المباشرة.

إنّ التصنيفات الوكيلة هي دائمًا حلّ وسط، أي تقريب غير كامل للتصنيف المباشر. ومع ذلك، فإنّ بعض التصنيفات الوكيلة هي تقاويم قريبة بما يكفي لتكون مفيدة. إنّ النماذج التي تستخدِم تصنيفات العناصر الوكيلة لا تكون مفيدة إلا بقدر العلاقة بين تصنيف العنصر الوكيل والتوقّع.

تذكَّر أنّه يجب تمثيل كل تصنيف كعدد بنقطة عائمة في مصفوفة السمات (لأنّ تعلُّم الآلة هو في الأساس مجرد مزيج ضخم من العمليات mathematica ). في بعض الأحيان، يتوفّر تصنيف مباشر ولكن لا يمكن تمثيله بسهولة كعدد بثمانية أرقام في متجه السمات. في هذه الحالة، استخدِم تصنيفًا وكيلاً.

تمرين: التحقّق من فهمك

تريد شركتك إجراء ما يلي:

إرسال قسائم بالبريد (مثل "استبدال درّاجتك القديمة للحصول على خصم% 15 على درّاجة جديدة") إلى مالكي الدراجات

لذلك، يجب أن ينفّذ النموذج ما يلي:

توقّع الأشخاص الذين يملكون دراجة هوائية

لا تحتوي مجموعة البيانات على عمود باسم bike owner. ومع ذلك، تحتوي مجموعة البيانات على عمود يُسمى recently bought a bicycle.

هل recently bought a bicycle هو تصنيف وكيل جيد أم تصنيف وكيل سيئ لهذا النموذج؟
تصنيف وكيل جيد
العمود recently bought a bicycle هو تصنيف بديل جيد نسبيًا. بعد كلّ شيء، معظم الأشخاص الذين يشترون درّاجات الآن يملكون درّاجات. ومع ذلك، فإنّ recently bought a bicycle غير مثالية، مثل جميع تصنيفات الخوادم الوكيلة، حتى التصنيفات الجيدة جدًا. بعد كل شيء، لا يكون الشخص الذي يشتري سلعة هو الشخص الذي يستخدمها (أو يملكها) دائمًا. على سبيل المثال، يشتري الأشخاص أحيانًا درّاجات كهدية.
تصنيف وكيل مستخدم ضعيف
مثل جميع التصنيفات التمثيلية، فإنّ التصنيف recently bought a bicycle غير كامل (يتم شراء بعض الدراجات كهدية وإهداؤها إلى أشخاص آخرين). ومع ذلك، يبقى recently bought a bicycle مؤشرًا جيدًا نسبيًا على أنّ أحد الأشخاص يملك درّاجة.

البيانات التي ينشئها الأشخاص

تكون بعض البيانات من إنشاء البشر، أي أنّ شخصًا واحدًا أو أكثر يفحص بعض المعلومات ويقدّم قيمة، عادةً للعلامة. على سبيل المثال، يمكن لعالم أرصاد جوية واحد أو أكثر فحص صور السماء وتحديد أنواع السحب.

بدلاً من ذلك، يتم إنشاء بعض البيانات تلقائيًا. وهذا يعني أنّ البرنامج هو الذي يحدّد القيمة (ربما نموذج تعلُّم آلي آخر). على سبيل المثال، يمكن لنموذج التعلم الآلي فحص صور السماء وتحديد أنواع الغيوم تلقائيًا.

يتناول هذا القسم مزايا وعيوب البيانات التي ينشئها المستخدمون.

المزايا

  • يمكن للمقيّمين البشريين تنفيذ مجموعة كبيرة من المهام التي قد يصعب على نماذج تعلُّم الآلة المتقدّمة تنفيذها.
  • تفرض هذه العملية على مالك مجموعة البيانات وضع معايير واضحة ومتسقة.

السلبيات

  • وعادةً ما تدفع رسومًا للمقيّمين، لذا يمكن أن تكون البيانات التي ينشئها الأشخاص باهظة الثمن.
  • من الطبيعي أن يخطئ الإنسان. لذلك، قد يحتاج العديد من المقيّمين إلى تقييم البيانات نفسها.

فكِّر في هذه الأسئلة لتحديد احتياجاتك:

  • ما هو مستوى المهارة المطلوب من المقيّمين؟ (على سبيل المثال، هل يجب أن يعرف المقيّمون لغة معيّنة؟ هل تحتاج إلى لغويين لتطبيقات الحوار أو معالجة اللغة الطبيعية؟
  • كم عدد الأمثلة المُصنَّفة التي تحتاجها؟ متى تحتاج إلى هذه العناصر؟
  • ما هي ميزانيتك؟

تحقّق دائمًا من مراجعي الأداء البشريين. على سبيل المثال، يمكنك تصنيف 1,000 مثال بنفسك، والاطّلاع على مدى تطابق نتائجك مع نتائج المقيّمين الآخرين. إذا ظهرت اختلافات، لا تفترض أنّ تقييماتك هي التقييمات الصحيحة، خاصةً إذا كان هناك حكم قيمة. إذا أخطأ المراجعون، ننصحك بإضافة تعليمات لمساعدتهم وإعادة المحاولة.