Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

البيانات الفئوية: المشاكل الشائعة

غالبًا ما يتم تسجيل البيانات الرقمية باستخدام أدوات علمية أو قياسات آلية. في المقابل، غالبًا ما يتم تصنيف البيانات الفئوية من قِبل البشر أو نماذج تعلُّم الآلة. يؤثر من يتخذ قرارًا بشأن الفئات والتصنيفات وكيفية اتخاذ هذه القرارات في موثوقية هذه البيانات وفائدتها.

المقيّمون البشريون

غالبًا ما يُشار إلى البيانات التي يصنفها الأشخاص يدويًا باسم العلامات الذهبية، ويُعتبَر استخدامها أكثر ملاءمةً من البيانات التي يصنفها الجهاز لتدريب النماذج، ويعود السبب في ذلك إلى جودة البيانات الأفضل نسبيًا.

ولا يعني ذلك بالضرورة أنّ أي مجموعة من البيانات التي يصنّفها الأشخاص عالية الجودة. يمكن أن تحدث أخطاء بشرية وانحيازات وأعمال ضارة عند نقطة جمع البيانات أو أثناء تنظيف البيانات ومعالجتها. تحقق منها قبل التدريب.

قد يصنّف أي شخصان المثال نفسه بشكل مختلف. يُعرف الفرق بين قرارات المقيّمين بالبشر باسم اتّفاق المقيّمين . يمكنك التعرف على الاختلاف في آراء المصنّفين من خلال الاستعانة بعدة مصنّفين في كل مثال وقياس مدى الاتفاق بين المصنّفين.

انقر للتعرّف على مقاييس اتّفاقيات المصنّفين.

في ما يلي طرق لقياس توافق المقيّمين:

كابا كوهين وصيغه
الارتباط داخل الفئة (ICC)
ألفا كريبندورف

لمعرفة تفاصيل عن مقياس kappa وارتباط الفئة الداخلية، يُرجى الاطّلاع على Hallgren 2012. لمعرفة التفاصيل عن مقياس ألفا لكريبندورف، يُرجى الاطّلاع على Krippendorff 2011.

جهات تقييم الآلات

غالبًا ما يُشار إلى البيانات المصنَّفة آليًا باسم التصنيفات الفضية، حيث يتم تحديد الفئات تلقائيًا من خلال نموذج تصنيف واحد أو أكثر. يمكن أن تتفاوت جودة البيانات المصنّفة آليًا بشكل كبير. تحقق منه ليس فقط للتحقق من الدقة والتحيزات، ولكن أيضًا بحثًا عن انتهاكات الحس السليم والواقع ونية. على سبيل المثال، إذا وضع نموذج الرؤية الحاسوبية تصنيفًا خاطئًا على صورة كلب تشيهواهوا على أنّه فطيرة صغيرة، أو صورة فطيرة صغيرة على أنّها كلب تشيهواهوا، ستكون جودة النماذج التي تم تدريبها على هذه البيانات المصنّفة منخفضة.

وبالمثل، قد يُحسِّن محلّل المشاعر الكلمات المحايدة إلى -0.25، عندما تكون 0.0 هي القيمة المحايدة، ما قد يؤدي إلى تقييم جميع الكلمات بميل سلبي إضافي ليس موجودًا في البيانات. قد يُبلغ نظام رصد اللغة السامة المفرط الحساسية بشكل خاطئ عن العديد من العبارات المحايدة على أنّها لغة مسيئة. حاول التعرف على جودة وتحيزات التسميات الآلية والتعليقات التوضيحية في بياناتك قبل التدريب عليها.

الأبعاد العالية

تميل البيانات الفئوية إلى إنشاء متجهات ميزات ذات أبعاد عالية، أي متجهات ميزات تحتوي على عدد كبير من العناصر. تؤدي الأبعاد العالية إلى زيادة تكاليف التدريب وصعوبة تنفيذه. لهذه الأسباب، يبحث خبراء تعلُّم الآلة غالبًا عن طرق لتقليل عدد السمات قبل التدريب.

بالنسبة إلى بيانات اللغة الطبيعية، تتمثل الطريقة الرئيسية للحد من الأبعاد في تحويل متجهات الخصائص إلى تضمين متجهات. وسنناقش ذلك في وحدة التضمين لاحقًا في هذه الدورة التدريبية.

المفردات والترميز الأحادي (10 دقائق)

تقاطعات العناصر (5 دقائق)

البيانات الفئوية: المشاكل الشائعة تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

المقيّمون البشريون

جهات تقييم الآلات

الأبعاد العالية

البيانات الفئوية: المشاكل الشائعة