مجموعات البيانات: التصنيفات

يركّز هذا القسم على التصنيفات.

التصنيفات المباشرة في مقابل التصنيفات الوكيلة

ضع في اعتبارك نوعين مختلفين من التصنيفات:

  • التصنيفات المباشرة، هي تصنيفات متطابقة مع عبارات التوقّع في نموذجك يحاول تحقيقه. أي التنبؤ الذي يحاول نموذجك القيام به موجودة تمامًا كعمود في مجموعة البيانات لديك. على سبيل المثال، سيكون عمود يسمى bicycle owner تصنيفًا مباشرًا وهو نموذج تصنيف ثنائي يتنبأ بما إذا كان الشخص يمتلك دراجة.
  • تصنيفات الخادم الوكيل، وهي تصنيفات متشابهة، إلا غير متطابقة - مع التوقع الذي يحاول نموذجك تقديمه. فعلى سبيل المثال، إذا كان شخص يشترك في مجلة درّاجات غريبة يمتلك دراجة هوائية، ولكن ليس بالتأكيد.

تكون التسميات المباشرة بشكل عام أفضل من تصنيفات الوكيل. إذا كانت مجموعة البيانات تسمية مباشرة محتملة، فمن المحتمل أن تستخدمها. ومع ذلك، لا تكون التصنيفات المباشرة متاحة في كثير من الأحيان.

دائمًا ما تمثل تسميات الوكيل حلاً وسطًا — وهو تقريب غير مثالي تسمية مباشرة. ومع ذلك، بعض تصنيفات الخادم الوكيل قريبة بدرجة كافية من المفيد. تكون النماذج التي تستخدم تصنيفات الوكيل مفيدةً فقط بين تصنيف الخادم الوكيل والتنبؤ.

تذكر أنّه يجب تمثيل كل تصنيف كرقم نقطة عائمة في متّجه الميزة (لأنّ التعلم الآلي لا يعتبر في الأساس سوى مزيجًا ضخمًا من القوى العمليات التجارية). في بعض الأحيان، توجد تسمية مباشرة ولكن لا يمكن تمثيلها بسهولة رقم النقطة العائمة في الخط المتجه للميزة. في هذه الحالة، استخدم تصنيف خادم وكيل.

تمرين: التحقق من فهمك

تريد شركتك إجراء ما يلي:

قسائم البريد ("اشترِك في دراجتك القديمة للحصول على خصم% 15 على دراجة جديدة") لأصحاب الدرّاجات.

وبالتالي، يجب أن يجري النموذج ما يلي:

توقُّع الأشخاص الذين يمتلكون دراجة.

للأسف، لا تحتوي مجموعة البيانات على عمود باسم bike owner. ومع ذلك، تحتوي مجموعة البيانات على عمود باسم recently bought a bicycle.

هل سيكون recently bought a bicycle تصنيفًا جيدًا للخادم الوكيل؟ أو تصنيف وكيل ضعيف لهذا النموذج؟
تصنيف الخادم الوكيل الجيد
العمود recently bought a bicycle هو تسمية وكيل جيدة نسبيًا. بعد كل شيء، يشعر معظم الأشخاص الذين يشترون دراجات الآن. ومع ذلك، مثل جميع أو حتى التصنيفات الجيدة جدًا، فإن recently bought a bicycle ليست كاملة. بعد كل شيء، من يشتري أو أن لا يكون عنصر ما هو الشخص الذي يستخدم (أو يملك) هذا العنصر دائمًا. على سبيل المثال، يشتري الأشخاص أحيانًا دراجات كهدية.
تصنيف الخادم الوكيل ضعيف
مثل جميع تصنيفات الخادم الوكيل، recently bought a bicycle ليست مثالية (يتم شراء بعض الدراجات كهدايا وإعطائها إلى آخرون). في المقابل، recently bought a bicycle لا يزال مؤشرًا جيدًا نسبيًا على أن شخصًا ما يمتلك دَرَّاجَة

بيانات من إنشاء الإنسان

تكون بعض البيانات من إنشاء البشر. أي أن شخصًا واحدًا أو أكثر يفحص بعض المعلومات وتقدم قيمة، عادةً للتسمية. على سبيل المثال: يمكن لواحد أو أكثر من خبراء الأرصاد الجوية فحص صور للسماء وتحديد السحابة الإلكترونية.

بدلاً من ذلك، يتم إنشاء بعض البيانات تلقائيًا. أي برامج (ربما نموذج تعلم آلي آخر) من تحديد القيمة. على سبيل المثال، لتقنية التعلم الآلي فحص الصور في السماء والتعرّف تلقائيًا السحابة الإلكترونية.

يستكشف هذا القسم مزايا وعيوب البيانات التي ينشئها الإنسان.

المزايا

  • يمكن للمصنِّفين تنفيذ مجموعة كبيرة من المهام التي قد تبدو معقّدة نماذج التعلم الآلي صعبة.
  • تجبر هذه العملية مالك مجموعة البيانات على وضع معايير متسقة.

العيوب

  • عادةً ما تدفع لمُصنِّفين مختصين، لذا قد تكون البيانات التي ينشئها البشر باهظة الثمن.
  • الخطأ هو إنسان. وبالتالي، قد يضطر العديد من المصنِّفين البشريين إلى تقييم ونفس البيانات.

فكر في هذه الأسئلة لتحديد احتياجاتك:

  • ما مدى مهارة المصنِّفين لديك؟ (على سبيل المثال، يجب على المصنّفين تعرف لغة معينة؟ هل تحتاج إلى لُغويين للحوار أو تعلُّم اللغات الطبيعية؟ التطبيقات؟)
  • كم عدد الأمثلة المصنَّفة التي تحتاج إليها؟ متى ستحتاج إليها؟
  • ما هي ميزانيتك؟

تحقَّق دائمًا من المصنّفين. على سبيل المثال، التصنيف 1000 مثال بنفسك، وترى كيف تتطابق نتائجك مع المصنّفين الآخرين نتائجك. إذا ظهرت بعض التناقضات، لا تفترض أنّ التقييمات هي الصحيحة. وخاصة إذا كان هناك حكم على القيمة. إذا قدم المصنفون البشريون فقم بإضافة تعليمات لمساعدتهم وإعادة المحاولة.