البيانات الفئوية: المشاكل الشائعة

غالبًا ما يتم تسجيل البيانات الرقمية باستخدام أدوات علمية أو قياسات آلية. في المقابل، غالبًا ما يتم تصنيف البيانات الفئوية من قِبل البشر أو نماذج تعلُّم الآلة. يؤثر من يتخذ قرارًا بشأن الفئات والتصنيفات وكيفية اتخاذ هذه القرارات في موثوقية هذه البيانات وفائدتها.

المقيّمون البشريون

غالبًا ما يُشار إلى البيانات التي يصنفها الأشخاص يدويًا باسم العلامات الذهبية، ويُعتبَر استخدامها أكثر ملاءمةً من البيانات التي يصنفها الجهاز لتدريب النماذج، ويعود السبب في ذلك إلى جودة البيانات الأفضل نسبيًا.

ولا يعني ذلك بالضرورة أنّ أي مجموعة من البيانات التي يصنّفها الأشخاص عالية الجودة. يمكن أن تحدث أخطاء بشرية وانحيازات وأعمال ضارة عند نقطة جمع البيانات أو أثناء تنظيف البيانات ومعالجتها. تحقق منها قبل التدريب.

قد يصنّف أي شخصان المثال نفسه بشكل مختلف. يُعرف الفرق بين قرارات المقيّمين بالبشر باسم اتّفاق المقيّمين . يمكنك التعرف على الاختلاف في آراء المصنّفين من خلال الاستعانة بعدة مصنّفين في كل مثال وقياس مدى الاتفاق بين المصنّفين.

جهات تقييم الآلات

غالبًا ما يُشار إلى البيانات المصنَّفة آليًا باسم التصنيفات الفضية، حيث يتم تحديد الفئات تلقائيًا من خلال نموذج تصنيف واحد أو أكثر. يمكن أن تتفاوت جودة البيانات المصنّفة آليًا بشكل كبير. تحقق منه ليس فقط للتحقق من الدقة والتحيزات، ولكن أيضًا بحثًا عن انتهاكات الحس السليم والواقع ونية. على سبيل المثال، إذا وضع نموذج الرؤية الحاسوبية تصنيفًا خاطئًا على صورة كلب تشيهواهوا على أنّه فطيرة صغيرة، أو صورة فطيرة صغيرة على أنّها كلب تشيهواهوا، ستكون جودة النماذج التي تم تدريبها على هذه البيانات المصنّفة منخفضة.

وبالمثل، قد يُحسِّن محلّل المشاعر الكلمات المحايدة إلى -0.25، عندما تكون 0.0 هي القيمة المحايدة، ما قد يؤدي إلى تقييم جميع الكلمات بميل سلبي إضافي ليس موجودًا في البيانات. قد يُبلغ نظام رصد اللغة السامة المفرط الحساسية بشكل خاطئ عن العديد من العبارات المحايدة على أنّها لغة مسيئة. حاول التعرف على جودة وتحيزات التسميات الآلية والتعليقات التوضيحية في بياناتك قبل التدريب عليها.

الأبعاد العالية

تميل البيانات الفئوية إلى إنشاء متجهات ميزات ذات أبعاد عالية، أي متجهات ميزات تحتوي على عدد كبير من العناصر. تؤدي الأبعاد العالية إلى زيادة تكاليف التدريب وصعوبة تنفيذه. لهذه الأسباب، يبحث خبراء تعلُّم الآلة غالبًا عن طرق لتقليل عدد السمات قبل التدريب.

بالنسبة إلى بيانات اللغة الطبيعية، تتمثل الطريقة الرئيسية للحد من الأبعاد في تحويل متجهات الخصائص إلى تضمين متجهات. وسنناقش ذلك في وحدة التضمين لاحقًا في هذه الدورة التدريبية.