البيانات الفئوية: المشاكل الشائعة

غالبًا ما يتم تسجيل البيانات العددية بواسطة أدوات علمية أو والقياسات التلقائية. من ناحية أخرى، غالبًا ما تكون البيانات الفئوية مصنّفة حسب البشر أو نماذج تعلُّم الآلة (ML). من يقرّر ما إذا كان الفئات والتصنيفات، وكيفية اتخاذهم لتلك القرارات، في موثوقية وفائدة تلك البيانات.

المصنِّفون البشريون

غالبًا ما يُشار إلى البيانات التي يصنّفها الأشخاص يدويًا باسم التصنيفات الذهبية، وتُعد أكثر إقبالاً من البيانات المصنفة آليًا لنماذج التدريب، نظرًا لجودة البيانات الأفضل نسبيًا.

وهذا لا يعني بالضرورة أن أي مجموعة من البيانات التي يصنفها الإنسان ذات أبعاد عالية الشطيرة. يمكن أن تظهر الأخطاء البشرية والتحيز والخبيثة في نقطة جمع البيانات أو أثناء تنظيفها ومعالجتها. البحث عنها قبل التدريب.

قد يسمي أي شخصان نفس المثال بشكل مختلف. الفرق بين المصنّفين القرارات يسمى مصنِّف الاتفاقية. يمكنك التعرف على الاختلاف في تصنيف آراء باستخدام مصنّفين متعددين لكل مثال وقياس اتفاق المقيّمين.

مصنِّفو الأجهزة

يشير ذلك المصطلح إلى البيانات المصنَّفة آليًا حيث يتم تحديد الفئات تلقائيًا باستخدام فئة واحدة أو المزيد من نماذج التصنيف، يُشار إليها غالبًا باسم التصنيفات الفضية. يمكن أن تتفاوت جودة البيانات المصنَّفة آليًا بشكل كبير. تحقق من مدى دقتها ليس فقط والتحيزات، وأيضًا لانتهاكات المنطق السليم والواقع والنية. بالنسبة إذا أخطأ أحد نماذج الرؤية الحاسوبية في تسمية صورة شيواوا على شكل كعكة، أو صورة لكعكة مثل شيواوا، فإن النماذج المدرّبة على هذه البيانات المصنفة تكون ذات جودة أقل.

وبالمثل، فإن محلل العاطفة الذي يسجل الكلمات المحايدة -0.25، عندما تكون 0.0 القيمة المحايدة، قد تكون تسجيل جميع الكلمات بتحيز سلبي إضافي غير موجودة بالفعل في البيانات. كاشف للسمية شديد الحساسية قد يبلغ زورًا العديد من العبارات المحايدة على أنها غير لائقة. حاول التعرف على جودة وتحيزات التسميات الآلية والتعليقات التوضيحية في بياناتك قبل للتدريب عليها.

الأبعاد العالية

تميل البيانات الفئوية إلى إنتاج متجهات خصائص عالية الأبعاد؛ أي، متجهات الخصائص التي تحتوي على عدد كبير من العناصر. تؤدي الأبعاد العالية إلى زيادة تكاليف التدريب وتجعل التدريب أكثر صعبًا. لهذه الأسباب، غالبًا ما يبحث خبراء تعلُّم الآلة عن طرق لخفض عدد الأبعاد قبل التدريب.

بالنسبة إلى بيانات اللغة الطبيعية، تتمثل الطريقة الرئيسية لخفض الأبعاد في لتحويل متجهات الخصائص إلى متجهات التضمين. ستتم مناقشة ذلك في وحدة التضمينات لاحقًا في هذه الدورة.