تحتوي هذه الصفحة على مصطلحات مسرد المقاييس. للاطّلاع على جميع مصطلحات المسرد، يُرجى النقر هنا.
A
الدقة
عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:
على سبيل المثال، إذا قدّم نموذج 40 توقّعًا صحيحًا و10 توقّعات غير صحيحة، ستكون دقة النموذج كما يلي:
يقدّم التصنيف الثنائي أسماء محدّدة لمختلف فئات التوقعات الصحيحة والتوقعات غير الصحيحة. وبالتالي، تكون صيغة الدقة للتصنيف الثنائي كما يلي:
where:
- TP هو عدد الحالات الموجبة الصحيحة (التوقّعات الصحيحة).
- TN هو عدد الحالات السالبة الصحيحة (التوقعات الصحيحة).
- FP هو عدد الحالات الموجبة الخاطئة (التوقعات غير الصحيحة).
- FN هو عدد الحالات السالبة الخاطئة (التوقعات غير الصحيحة).
تحديد أوجه التشابه والاختلاف بين الدقة والضبط والاسترجاع
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
المساحة تحت منحنى الدقة والاستدعاء
اطّلِع على المساحة تحت منحنى الدقة والاسترجاع.
المساحة تحت منحنى ROC
اطّلِع على المساحة تحت منحنى ROC (AUC).
المساحة تحت منحنى ROC
رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. كلما اقتربت قيمة AUC من 1.0، كانت قدرة النموذج على فصل الفئات عن بعضها البعض أفضل.
على سبيل المثال، توضّح الصورة التالية نموذج تصنيف يفصل تمامًا بين الفئات الإيجابية (الدوائر الخضراء) والفئات السلبية (المستطيلات الأرجوانية). يحتوي هذا النموذج المثالي بشكل غير واقعي على قيمة AUC تبلغ 1.0:
في المقابل، يوضّح الرسم التوضيحي التالي نتائج نموذج تصنيف أنشأ نتائج عشوائية. يحتوي هذا النموذج على قيمة AUC تبلغ 0.5:
نعم، النموذج السابق لديه قيمة AUC تبلغ 0.5، وليس 0.0.
وتقع معظم النماذج في مكان ما بين هذين الحدّين. على سبيل المثال، يفصل النموذج التالي بين القيم الإيجابية والسلبية إلى حد ما، وبالتالي يكون لديه قيمة AUC تتراوح بين 0.5 و1.0:
تتجاهل مقياس AUC أي قيمة تحدّدها لحدّ التصنيف. بدلاً من ذلك، تأخذ المساحة تحت منحنى ROC في الاعتبار جميع عتبات التصنيف الممكنة.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
متوسط الدقة عند k
مقياس لتلخيص أداء نموذج بشأن طلب واحد يؤدي إلى إنشاء نتائج مرتبة، مثل قائمة مرقّمة باقتراحات كتب متوسط الدقة عند k هو، حسنًا، متوسط قيم الدقة عند k لكل نتيجة ذات صلة. وبالتالي، فإنّ صيغة متوسط الدقة عند k هي:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
where:
- تمثّل السمة\(n\) عدد العناصر ذات الصلة في القائمة.
يختلف هذا المقياس عن الاسترجاع عند k.
B
خط الأساس
نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، يمكن أن يكون نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.
بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في تحديد الحد الأدنى المتوقّع للأداء الذي يجب أن يحقّقه النموذج الجديد ليكون مفيدًا.
C
التكلفة
مرادف لكلمة خسارة
العدالة في حالة عدم توفّر الحقائق
مقياس الإنصاف الذي يتحقّق مما إذا كان نموذج التصنيف يعرض النتيجة نفسها لشخص ما كما يعرضها لشخص آخر مطابق للأول، باستثناء ما يتعلق بواحدة أو أكثر من السمات الحسّاسة. يُعدّ تقييم نموذج التصنيف من حيث العدالة الواقعية الافتراضية إحدى الطرق للكشف عن المصادر المحتملة للتحيّز في النموذج.
يمكنك الاطّلاع على أيّ مما يلي لمزيد من المعلومات:
- الإنصاف: الإنصاف الافتراضي في "دورة مكثّفة حول تعلُّم الآلة"
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
الإنتروبيا المتقاطعة
تعميم فقدان السجلّ على مشاكل التصنيف المتعدد الفئات يقيس الانتروبيا المتقاطعة الفرق بين توزيعَين للاحتمالات. يمكنك الاطّلاع أيضًا على مقياس الحيرة.
دالة التوزيع التراكمي (CDF)
دالة تحدّد عدد المرّات التي تكون فيها العيّنات أقل من قيمة مستهدَفة أو مساوية لها. على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا للقيم المستمرة. يخبرك التوزيع التراكمي بأنّ% 50 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي المتوسط، وأنّ% 84 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي الانحراف المعياري الواحد فوق المتوسط.
D
التكافؤ الديمغرافي
مقياس العدالة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حساسة معيّنة.
على سبيل المثال، إذا كان كل من سكان ليليبوت وبروبدينغناغ يتقدّمون بطلبات إلى جامعة غلوبدوبدريب، يتم تحقيق التكافؤ الديموغرافي إذا كانت النسبة المئوية للطلاب المقبولين من ليليبوت هي نفسها النسبة المئوية للطلاب المقبولين من بروبدينغناغ، بغض النظر عمّا إذا كانت إحدى المجموعتين أكثر تأهيلاً من الأخرى في المتوسط.
يختلف هذا المقياس عن التكافؤ في الاحتمالات وتكافؤ الفرص، اللذين يسمحان بأن تعتمد نتائج التصنيف بشكل إجمالي على السمات الحسّاسة، ولكنّهما لا يسمحان بأن تعتمد نتائج التصنيف لبعض تصنيفات الحقيقة الأساسية المحدّدة على السمات الحسّاسة. يمكنك الاطّلاع على "مكافحة التمييز باستخدام تكنولوجيا تعلُّم الآلة الأذكى" للحصول على رسم توضيحي يستعرض المفاضلة بين الخيارات عند تحسين التكافؤ الديمغرافي.
يمكنك الاطّلاع على الإنصاف: التكافؤ الديمغرافي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
E
مسافة نقل التراب (EMD)
مقياس للتشابه النسبي بين توزيعَين كلّما كانت مسافة نقل التراب أقل، تشابهت التوزيعات أكثر.
مسافة التعديل
مقياس لمدى تشابه سلسلتَي نص مع بعضهما البعض. في التعلّم الآلي، تكون مسافة التعديل مفيدة للأسباب التالية:
- يسهل احتساب مسافة التعديل.
- يمكن أن تقارن مسافة التعديل بين سلسلتَين معروفتَين بأنّهما متشابهتَين.
- يمكن أن تحدّد مسافة التعديل درجة تشابه السلاسل المختلفة مع سلسلة معيّنة.
تتوفّر عدة تعريفات لمسافة التعديل، ويستخدم كل منها عمليات مختلفة على السلاسل. يمكنك الاطّلاع على مسافة Levenshtein للحصول على مثال.
دالة التوزيع التراكمي التجريبية (eCDF أو EDF)
دالة التوزيع التراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة عند أي نقطة على طول المحور س هي جزء الملاحظات في مجموعة البيانات التي تكون أقل من أو تساوي القيمة المحددة.
الإنتروبيا
في نظرية المعلومات، القصور هو وصف لمدى عدم القدرة على التنبؤ بتوزيع الاحتمالات. ويمكن تعريف القصور أيضًا بأنه مقدار المعلومات التي يحتوي عليها كل مثال. يكون التوزيع ذا أعلى إنتروبيا ممكنة عندما تكون جميع قيم المتغيّر العشوائي متساوية الاحتمالية.
إنّ إنتروبيا مجموعة تتضمّن قيمتَين محتملتَين هما "0" و "1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) تخضع للصيغة التالية:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
where:
- H هو القصور.
- p هي نسبة الأمثلة التي تكون فيها القيمة "1".
- q هي نسبة الأمثلة التي تكون فيها القيمة "0". يُرجى العِلم أنّ q = (1 - p)
- log هو بشكل عام log2. في هذه الحالة، وحدة الإنتروبيا هي بت.
على سبيل المثال، لنفترض ما يلي:
- تحتوي 100 عينة على القيمة "1"
- تحتوي 300 عينة على القيمة "0"
وبالتالي، تكون قيمة القصور كما يلي:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال
ستكون قيمة الإنتروبيا لمجموعة متوازنة تمامًا (على سبيل المثال، 200 من القيمة "0" و200 من القيمة "1") هي 1.0 بت لكل مثال. وكلما أصبحت المجموعة أكثر عدم توازن، اقترب القصور فيها من 0.0.
في أشجار القرارات، يساعد الانتروبيا في صياغة تحصيل المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرارات التصنيف.
مقارنة الإنتروبيا بما يلي:
- مقياس جيني للتفاوت
- دالة الخسارة الإنتروبيا المتداخلة
يُطلق على القصور غالبًا اسم قصور شانون.
لمزيد من المعلومات، راجِع أداة التقسيم التام للتصنيف الثنائي باستخدام الميزات الرقمية في دورة "غابات القرارات".
تكافؤ الفرص
مقياس الإنصاف لتقييم ما إذا كان النموذج يتوقّع النتيجة المطلوبة بشكل جيد وبالمقدار نفسه لجميع قيم السمة الحسّاسة. بعبارة أخرى، إذا كانت النتيجة المرغوبة لنموذج هي الفئة الموجبة، سيكون الهدف هو أن يكون معدّل الإيجابية الحقيقية هو نفسه لجميع المجموعات.
يرتبط تكافؤ الفرص بتكافؤ الاحتمالات، الذي يتطلّب أن يكون كلّ من معدلات الموجب الصائب ومعدلات الموجب الخاطئ متطابقًا لجميع المجموعات.
لنفترض أنّ جامعة Glubbdubdrib تقبل طلابًا من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. تتحقّق المساواة في الفرص بالنسبة إلى التصنيف المفضّل "مقبول" فيما يتعلّق بالجنسية (ليليبوتية أو بروبدينغناغية) إذا كان الطلاب المؤهّلون متساوون في فرص القبول بغض النظر عمّا إذا كانوا ليليبوتايين أو بروبدينغناغيين.
على سبيل المثال، لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات التحاق بجامعة غلوبدبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 1. مقدّمو الطلبات من ليليبوت (90% منهم مؤهّلون)
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبول الطلب | 45 | 3 |
تم الرفض | 45 | 7 |
المجموع | 90 | 10 |
النسبة المئوية للطلاب المؤهّلين المقبولين: 45/90 =%50 النسبة المئوية للطلاب غير المؤهّلين المرفوضين: 7/10 =%70 النسبة المئوية الإجمالية للطلاب المقبولين من ليليبوت: (45+3)/100 = %48 |
الجدول 2. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبول الطلب | 5 | 9 |
تم الرفض | 5 | 81 |
المجموع | 10 | 90 |
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 81/90 =%90 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+9)/100 = %14 |
تستوفي الأمثلة السابقة شرط تكافؤ الفرص لقبول الطلاب المؤهّلين، لأنّ كلّاً من سكان ليليبوت وبروبدينغناغ المؤهّلين لديهم فرصة بنسبة% 50 للقبول.
على الرغم من استيفاء شرط تكافؤ الفرص، لا يتم استيفاء مقياسَي العدالة التاليَين:
- التكافؤ الديمغرافي: يتم قبول سكان ليليبوت وبروبدينغناغ في الجامعة بمعدلات مختلفة، إذ يتم قبول% 48 من الطلاب من ليليبوت، ولكن يتم قبول% 14 فقط من الطلاب من بروبدينغناغ.
- تكافؤ الفرص: على الرغم من أنّ الطلاب المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للقبول، لا يتم استيفاء الشرط الإضافي الذي ينص على أنّ الطلاب غير المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للرفض. تبلغ نسبة الرفض لدى Lilliputians غير المؤهّلين% 70، بينما تبلغ نسبة الرفض لدى Brobdingnagians غير المؤهّلين% 90.
يمكنك الاطّلاع على الإنصاف: تكافؤ الفرص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
المعدّلات المتساوية
مقياس عدالة لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكل جيد وبالمثل لجميع قيم السمة الحسّاسة فيما يتعلق بكل من الفئة الموجبة والفئة السالبة، وليس فئة واحدة أو الأخرى حصريًا. بعبارة أخرى، يجب أن يكون كل من معدّل الموجب الصائب ومعدّل السالب الخاطئ متساويَين بالنسبة إلى جميع المجموعات.
تتعلّق تكافؤ الفرص بالمساواة في الفرص، التي تركّز فقط على معدّلات الخطأ لفئة واحدة (موجبة أو سالبة).
على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل الطلاب من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص إذا كان احتمال قبول المتقدّمين المؤهّلين في البرنامج متساويًا بغض النظر عن حجمهم، وإذا كان احتمال رفض المتقدّمين غير المؤهّلين متساويًا بغض النظر عن حجمهم.
لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات إلى جامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 3. مقدّمو الطلبات من ليليبوت (90% منهم مؤهّلون)
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبول الطلب | 45 | 2 |
تم الرفض | 45 | 8 |
المجموع | 90 | 10 |
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 8/10 =%80 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+2)/100 = %47 |
الجدول 4. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبول الطلب | 5 | 18 |
تم الرفض | 5 | 72 |
المجموع | 10 | 90 |
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 72/90 =%80 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+18)/100 = %23 |
يتم استيفاء شرط تكافؤ الفرص لأنّ الطلاب المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية بنسبة% 50 للقبول، بينما الطلاب غير المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية بنسبة% 80 للرفض.
يتم قبول الطلاب من ليليبوت وبروبدينغناغ في جامعة غلوبدوبدريب بمعدلات مختلفة، حيث يتم قبول% 47 من الطلاب من ليليبوت و% 23 من الطلاب من بروبدينغناغ.يتم تعريف تكافؤ الفرص رسميًا في "تكافؤ الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يتوافق المتنبئ Ŷ مع تكافؤ الفرص فيما يتعلق بالسمة المحمية A والنتيجة Y إذا كان Ŷ وA مستقلين، بشرط Y".
evals
تُستخدَم في المقام الأول كاختصار لتقييمات النماذج اللغوية الكبيرة. بشكل عام، التقييمات هي اختصار لأي شكل من أشكال التقييم.
التقييم
تشير هذه العملية إلى قياس جودة نموذج أو مقارنة نماذج مختلفة ببعضها البعض.
لتقييم نموذج تعلُّم الآلة المُوجّه، يتم عادةً مقارنته بمجموعة التحقّق ومجموعة الاختبار. يتضمّن تقييم نموذج اللغة الكبير عادةً تقييمات أوسع للجودة والأمان.
F
F1
مقياس التصنيف الثنائي "المجمّع" الذي يعتمد على كل من الدقة والتذكّر. في ما يلي الصيغة:
مقياس العدالة
تعريف رياضي لمفهوم "الإنصاف" يمكن قياسه. تشمل بعض مقاييس العدالة الشائعة الاستخدام ما يلي:
- تكافؤ الفرص
- تعادل الأداء المستند إلى التوقّعات
- العدالة القائمة على التفكير الافتراضي
- التكافؤ الديمغرافي
تتداخل العديد من مقاييس العدالة مع بعضها البعض، راجِع عدم توافق مقاييس العدالة.
سالب خاطئ (FN)
مثال يخطئ فيه النموذج في التنبؤ بالفئة السلبية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ هذه الرسالة الإلكترونية هي في الواقع رسالة غير مرغوب فيها.
معدّل السالب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة الإيجابية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة السلبية. تحتسب الصيغة التالية معدّل النتائج السلبية الخاطئة:
لمزيد من المعلومات، يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة".
موجب خاطئ (FP)
مثال يخطئ فيه النموذج في التنبؤ بالفئة الإيجابية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الإيجابية)، ولكن ليست هذه الرسالة الإلكترونية في الواقع رسالة غير مرغوب فيها.
لمزيد من المعلومات، يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة".
معدّل الموجب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة السلبية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة الإيجابية. تحتسب الصيغة التالية معدّل الإيجابية الخاطئة:
معدل الموجب الخاطئ هو المحور السيني في منحنى خاصية تشغيل جهاز الاستقبال.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
أهمية الميزات
مرادف أهمية المتغيرات
النموذج الأساسي
نموذج مدرَّب مسبقًا كبير جدًا تم تدريبه على مجموعة تدريب هائلة ومتنوّعة. يمكن للنموذج الأساسي تنفيذ ما يلي:
- الاستجابة بشكل جيد لمجموعة كبيرة من الطلبات
- يمكن استخدامه كنموذج أساسي لإجراء المزيد من عمليات الضبط الدقيق أو التخصيص الأخرى.
بعبارة أخرى، يكون النموذج الأساسي فعّالاً جدًا بشكل عام، ولكن يمكن تخصيصه بشكل أكبر ليصبح أكثر فائدةً لمهمة معيّنة.
نسبة النجاحات
مقياس لتقييم النص الذي تم إنشاؤه بواسطة نموذج تعلُّم آلي نسبة النجاح هي عدد مخرجات النصوص التي تم إنشاؤها "بنجاح" مقسومًا على إجمالي عدد مخرجات النصوص التي تم إنشاؤها. على سبيل المثال، إذا أنشأ نموذج لغوي كبير 10 مقاطع برمجية، ونجح خمسة منها، ستكون نسبة النجاح 50%.
على الرغم من أنّ مقياس "نسبة النجاح" مفيد بشكل عام في الإحصاء، إلا أنّه في تعلُّم الآلة، يكون هذا المقياس مفيدًا بشكل أساسي لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز البرمجية أو حلّ المسائل الرياضية.
G
gini impurity
مقياس مشابه لإنتروبيا تستخدم أدوات التقسيم قيمًا مشتقة من عدم المساواة في جيني أو الإنتروبيا لإنشاء شروط لتصنيف أشجار القرارات. يتم استنتاج تحصيل المعلومات من قصور المعلومات. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المستمد من عدم نقاء جيني، ولكن هذا المقياس غير المسمى لا يقل أهمية عن اكتساب المعلومات.
يُطلق على عدم نقاء جيني أيضًا اسم مؤشر جيني أو ببساطة جيني.
H
الخسارة المفصلية
مجموعة من دوال الخسارة الخاصة بالتصنيف والمصمّمة للعثور على حدود القرار بأكبر مسافة ممكنة من كل مثال تدريبي، وبالتالي زيادة الهامش بين الأمثلة والحدود إلى أقصى حد. تستخدِم آلات المتجهات الداعمة القائمة على النواة دالة الخسارة المفصلية (أو دالة ذات صلة، مثل دالة الخسارة المفصلية التربيعية). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة الخسارة المفصلية على النحو التالي:
حيث y هي التصنيف الصحيح، إما -1 أو +1، وy' هي المخرجات الأولية لنموذج التصنيف:
نتيجةً لذلك، يبدو الرسم البياني لدالة الخسارة المفصلية مقابل (y * y') على النحو التالي:
I
عدم توافق مقاييس الإنصاف
تشير إلى فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها البعض ولا يمكن تحقيقها في الوقت نفسه. نتيجةً لذلك، لا يوجد مقياس عالمي واحد لتحديد مدى العدل يمكن تطبيقه على جميع مشاكل تعلُّم الآلة.
على الرغم من أنّ ذلك قد يبدو محبطًا، إلا أنّ عدم التوافق بين مقاييس العدالة لا يعني أنّ الجهود المبذولة لتحقيق العدالة غير مثمرة. بدلاً من ذلك، يقترح أنّه يجب تحديد العدالة حسب السياق لمشكلة تعلّم آلي معيّنة، بهدف منع الأضرار المرتبطة بحالات الاستخدام المحدّدة.
يمكنك الاطّلاع على مقالة "حول إمكانية تحقيق العدالة" للحصول على مناقشة أكثر تفصيلاً حول عدم توافق مقاييس العدالة.
العدالة الفردية
مقياس عدالة يتحقّق مما إذا تم تصنيف الأفراد المتشابهين بشكل مماثل. على سبيل المثال، قد ترغب أكاديمية Brobdingnagian في تحقيق العدالة الفردية من خلال ضمان أنّ فرص قبول طالبَين متطابقَين في الدرجات ونتائج الاختبارات الموحّدة متساوية.
يُرجى العِلم أنّ العدالة الفردية تعتمد بشكل كامل على طريقة تحديد "التشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، وقد تواجه خطر حدوث مشاكل جديدة في العدالة إذا لم يتضمّن مقياس التشابه معلومات مهمة (مثل مدى صعوبة المناهج الدراسية للطالب).
يمكنك الاطّلاع على "العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.
تحصيل المعلومات
في غابات القرارات، يشير إلى الفرق بين القصور في أحد الأجزاء ومجموع القصور في الأجزاء الفرعية المرجّح (حسب عدد الأمثلة). القصور في أحد الأجزاء هو القصور في الأمثلة الواردة في هذا الجزء.
على سبيل المثال، إليك قيم الإنتروبيا التالية:
- إنتروبيا العقدة الرئيسية = 0.6
- القصور في جزء ثانوي واحد مع 16 مثالاً ذا صلة = 0.2
- مقياس القصور في جزء فرعي آخر يتضمّن 24 مثالاً ذا صلة = 0.1
وبالتالي، فإنّ% 40 من الأمثلة تقع في إحدى العُقد الفرعية و% 60 في العقدة الفرعية الأخرى. ولذلك:
- مجموع القصور المرجّح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
إذًا، تحصيل المعلومات هو:
- تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المرجّح للأجزاء الفرعية
- تحصيل المعلومات = 0.6 - 0.14 = 0.46
تسعى معظم أدوات التقسيم إلى إنشاء شروط تزيد من اكتساب المعلومات إلى أقصى حد.
توافق المقيّمين
مقياس لعدد المرات التي يتفق فيها المقيمون البشريون عند تنفيذ مهمة ما. إذا لم يتّفق المقيّمون، قد يكون من الضروري تحسين تعليمات المهمة. يُعرف هذا المقياس أيضًا باسم اتفاقية بين المعلقين أو اتساق التقييم. يُرجى الاطّلاع أيضًا على معامل كابا لكوهين، وهو أحد مقاييس الاتفاق بين المقيّمين الأكثر شيوعًا.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الفئوية: المشاكل الشائعة في "دورة تدريبية مكثّفة حول تعلُّم الآلة".
L
خسارة L1
دالة الخسارة التي تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L1 لمجموعة من خمسة أمثلة:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | القيمة المطلقة للتغيير |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = خسارة L1 |
يكون معدّل الخطأ في 1 أقل حساسية للقيم الشاذة من معدّل الخطأ في 2.
متوسط الخطأ المطلق هو متوسط خسارة 1 لكل مثال.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
خسارة 2
يشير ذلك المصطلح إلى دالة خسارة تحسب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L2 لمجموعة من خمسة أمثلة:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | مربع دلتا |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 خسارة |
بسبب التربيع، يؤدي فقدان L2 إلى تضخيم تأثير القيم الشاذة. أي أنّ دالة الخسارة L2 تتأثر بشكل أكبر بالتوقعات السيئة مقارنةً بدالة الخسارة L1. على سبيل المثال، سيكون معدّل فقدان حزمة L1 السابقة 8 بدلاً من 16. لاحظ أنّ قيمة متطرفة واحدة تمثّل 9 من 16.
تستخدِم نماذج الانحدار عادةً دالة الخسارة L2.
متوسط الخطأ التربيعي هو متوسط خسارة 2 لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة من النوع L2.
يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
تقييمات النماذج اللغوية الكبيرة
مجموعة من المقاييس ومقاييس الأداء لتقييم أداء النماذج اللغوية الكبيرة (LLM) بشكل عام، تتضمّن عمليات تقييم النماذج اللغوية الكبيرة ما يلي:
- مساعدة الباحثين في تحديد المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين
- وهي مفيدة في مقارنة نماذج اللغات الكبيرة المختلفة وتحديد أفضلها لتنفيذ مهمة معيّنة.
- المساعدة في ضمان أنّ استخدام النماذج اللغوية الكبيرة آمن وأخلاقي
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".
خسارة
أثناء تدريب نموذج خاضع للإشراف، يتم قياس مدى بُعد توقّع النموذج عن تصنيفه.
تحسب دالة الخسارة الخسارة.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
دالة الخسارة
أثناء التدريب أو الاختبار، تُستخدَم دالة رياضية لحساب الخسارة في دفعة من الأمثلة. تعرض دالة الخسارة خسارة أقل للنماذج التي تقدّم توقعات جيدة مقارنةً بالنماذج التي تقدّم توقعات سيئة.
عادةً ما يكون الهدف من التدريب هو تقليل الخسارة التي تعرضها دالة الخسارة.
تتوفّر العديد من أنواع دوال الخسارة المختلفة. اختَر دالة الخسارة المناسبة لنوع النموذج الذي تنشئه. على سبيل المثال:
- فقدان L2 (أو متوسط الخطأ التربيعي) هو دالة الفقدان للانحدار الخطي.
- الخسارة اللوغارتمية هي دالة الخسارة في الانحدار اللوجستي.
M
متوسّط الخطأ المطلق (MAE)
متوسط الخسارة لكل مثال عند استخدام L1 loss احسب متوسّط الخطأ المطلق على النحو التالي:
- احسب خسارة L1 لمجموعة.
- قسِّم خسارة L1 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّنا نريد حساب خسارة L1 على مجموعة من خمسة أمثلة كما يلي:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | الخسارة (الفرق بين القيمة الفعلية والقيمة المتوقّعة) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = خسارة L1 |
إذًا، قيمة L1 هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
قارِن بين متوسط الخطأ المطلق ومتوسط الخطأ التربيعي وجذر متوسط الخطأ التربيعي.
متوسط الدقة عند k (mAP@k)
المتوسط الإحصائي لكل نتائج متوسط الدقة عند k في مجموعة بيانات التحقّق. يُستخدم مقياس متوسط الدقة عند k لتقييم جودة المحتوى المقترح الذي يقدّمه نظام التوصية.
على الرغم من أنّ عبارة "المتوسط الحسابي" تبدو مكرّرة، فإنّ اسم المقياس مناسب. ففي النهاية، يعثر هذا المقياس على متوسط قيم متوسط الدقة عند k المتعددة.
متوسط الخطأ التربيعي (MSE)
متوسط الخسارة لكل مثال عند استخدام خسارة 2 احسب متوسط الخطأ التربيعي على النحو التالي:
- احسب خسارة L2 لمجموعة.
- قسِّم خسارة L2 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّك تريد حساب الخسارة في المجموعة التالية المكوّنة من خمسة أمثلة:
القيمة الفعلية | توقّعات النموذج | فقدان البيانات | الخسارة التربيعية |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 خسارة |
وبالتالي، يكون متوسط الخطأ التربيعي كما يلي:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
متوسط الخطأ التربيعي هو محسِّن شائع للتدريب، خاصةً في الانحدار الخطي.
قارِن بين "متوسط الخطأ التربيعي" و"متوسط الخطأ المطلق" و"جذر متوسط الخطأ التربيعي".
تستخدم TensorFlow Playground متوسط الخطأ التربيعي لاحتساب قيم الخسارة.
المقياس
إحصاء يهمّك
الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.
Metrics API (tf.metrics)
واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، تحدّد tf.metrics.accuracy
عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.
دالة الخسارة الحدّية الدنيا
دالة خسارة لشبكات الخصومة التوليدية، استنادًا إلى الإنتروبيا المتقاطعة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية
يتم استخدام دالة الخسارة Minimax في الورقة البحثية الأولى لوصف الشبكات التوليدية الخصومية.
يمكنك الاطّلاع على دوال الخسارة في دورة شبكات الخصومة التوليدية للحصول على مزيد من المعلومات.
سعة النموذج
مدى تعقيد المشاكل التي يمكن أن يتعلّمها النموذج وكلما زادت درجة تعقيد المشاكل التي يمكن أن يتعلّمها النموذج، زادت قدرته. تزداد سعة النموذج عادةً مع عدد مَعلمات النموذج. للحصول على تعريف رسمي لقدرة نموذج التصنيف، يُرجى الاطّلاع على سمة VC.
لا
فئة سالبة
في التصنيف الثنائي، يُطلق على إحدى الفئتَين اسم إيجابية ويُطلق على الأخرى اسم سلبية. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمال الآخر. على سبيل المثال:
- قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
- قد تكون الفئة السلبية في نموذج تصنيف الرسائل الإلكترونية هي "ليست رسالة غير مرغوب فيها".
يجب التمييز بينها وبين الفئة الموجبة.
O
هدف
مقياس تحاول الخوارزمية تحسينه.
دالة الهدف
الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، دالة الهدف في الانحدار الخطي هي عادةً متوسط الخطأ التربيعي. لذلك، عند تدريب نموذج انحدار خطي، يهدف التدريب إلى تقليل متوسط الخطأ التربيعي.
في بعض الحالات، يكون الهدف هو تحقيق الحد الأقصى لدالة الهدف. على سبيل المثال، إذا كانت دالة الهدف هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حد.
يمكنك الاطّلاع أيضًا على الخسارة.
P
pass at k (pass@k)
مقياس لتحديد جودة الرمز البرمجي (مثل Python) الذي ينشئه نموذج لغوي كبير وبشكل أكثر تحديدًا، يخبرك مقياس "النجاح عند k" باحتمالية اجتياز مجموعة واحدة على الأقل من مجموعات الرموز البرمجية التي تم إنشاؤها من بين k مجموعة من الرموز البرمجية لجميع اختبارات الوحدة.
غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء تعليمات برمجية جيدة للمشاكل البرمجية المعقّدة. يتعامل مهندسو البرمجيات مع هذه المشكلة من خلال مطالبة النموذج اللغوي الكبير بإنشاء حلول متعدّدة (k) للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حل من الحلول باستخدام اختبارات الوحدات. يعتمد احتساب نسبة النجاح عند k على نتيجة اختبارات الوحدات:
- إذا نجح واحد أو أكثر من هذه الحلول في اختبار الوحدة، يعني ذلك أنّ النموذج اللغوي الكبير اجتاز تحدّي إنشاء الرمز البرمجي.
- إذا لم ينجح أي من الحلول في اجتياز اختبار الوحدة، يعني ذلك أنّ النموذج اللغوي الكبير لم ينجح في اجتياز تحدّي إنشاء الرمز البرمجي.
صيغة "النجاح عند k" هي كما يلي:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
بشكل عام، تؤدي القيم الأعلى k إلى تحقيق نتائج أعلى في مقياس "النجاح عند k"، ولكن تتطلّب القيم الأعلى k المزيد من موارد النماذج اللغوية الكبيرة واختبارات الوحدات.
الأداء
مصطلح مُحمّل بالمعاني التالية:
- المعنى العادي ضمن هندسة البرمجيات وهي: ما هي سرعة (أو كفاءة) تشغيل هذا البرنامج؟
- المعنى في سياق تعلُّم الآلة في هذه الحالة، يجيب الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي ما مدى دقة توقّعات النموذج؟
أهمية المتغيرات في التبديل
أحد أنواع أهمية المتغير الذي يقيّم الزيادة في خطأ التوقّع للنموذج بعد تبديل قيم الميزة. أهمية المتغيرات المستندة إلى التبديل هي مقياس مستقل عن النموذج.
مقياس الارتباك
مقياس لمدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يكتبها المستخدم على لوحة مفاتيح الهاتف، وتقديم قائمة بالكلمات المحتملة التي يمكن إكمالها. إنّ مقياس الحيرة، P، لهذه المهمة هو تقريبًا عدد التخمينات التي عليك تقديمها لكي تحتوي قائمتك على الكلمة الفعلية التي يحاول المستخدم كتابتها.
ترتبط الحيرة بالإنتروبيا المتقاطعة على النحو التالي:
فئة موجبة
الفئة التي تختبرها.
على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الإيجابية في نموذج تصنيف رسائل إلكترونية هي "رسائل غير مرغوب فيها".
يجب التمييز بينها وبين الفئة السلبية.
المساحة تحت منحنى الدقة والاستدعاء (PR)
مساحة تحت منحنى الدقة والاستدعاء الذي تم الحصول عليه من خلال رسم نقاط (الاستدعاء، الدقة) لقيم مختلفة لحد التصنيف.
الدقة
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتوقّعات الصحيحة؟
في ما يلي الصيغة:
where:
- تعني النتيجة الإيجابية الصحيحة أنّ النموذج توقّع بشكلٍ صحيح الفئة الإيجابية.
- تعني النتيجة الموجبة الخاطئة أنّ النموذج توقّع بشكل خاطئ الفئة الموجبة.
على سبيل المثال، لنفترض أنّ أحد النماذج قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية البالغ عددها 200:
- كانت 150 منها نتائج موجبة صحيحة.
- كانت 50 منها حالات موجبة خاطئة.
في هذه الحالة:
يجب التمييز بينه وبين الدقة واكتمال التوقعات الإيجابية.
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
الدقة عند k (precision@k)
مقياس لتقييم قائمة مرتبة من العناصر. تحدّد مقياس الدقة عند k نسبة أول k عنصر في تلك القائمة التي تكون "ذات صلة". والمقصود:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
يجب أن تكون قيمة k أقل من أو تساوي طول القائمة التي تم إرجاعها. يُرجى العلم أنّ طول القائمة التي يتم عرضها ليس جزءًا من عملية الاحتساب.
غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى المقيّمون البشريون الخبراء يختلفون في كثير من الأحيان بشأن العناصر ذات الصلة بالموضوع.
المقارنة بـ:
منحنى الدقة والاستدعاء
منحنى الدقة مقابل الاسترجاع عند عتبات التصنيف المختلفة
انحياز التوقّعات
تشير هذه القيمة إلى مدى اختلاف متوسط التوقعات عن متوسط التصنيفات في مجموعة البيانات.
يجب عدم الخلط بين هذا المصطلح ومصطلح التحيز في نماذج تعلُّم الآلة أو مع التحيز في الأخلاقيات والعدالة.
التكافؤ التوقّعي
مقياس الإنصاف يتحقّق مما إذا كانت معدّلات الدقة متساوية للمجموعات الفرعية قيد الدراسة في نموذج تصنيف معيّن.
على سبيل المثال، إذا كان هناك نموذج يتوقّع قبول الطلاب في الكلية، سيحقّق هذا النموذج تكافؤ التوقّعات بالنسبة إلى الجنسية إذا كان معدّل دقته متساويًا بالنسبة إلى الأشخاص من ليليبوت وبروبدينغناغ.
يُطلق على ميزة "تطابق الأسعار التوقّعية" أحيانًا اسم تطابق الأسعار التوقّعية.
يمكنك الاطّلاع على "تعريفات العدالة الموضّحة" (الفقرة 3.2.1) للحصول على مناقشة أكثر تفصيلاً حول التكافؤ التوقعي.
ميزة "تساوي الأسعار التوقّعي"
اسم آخر للتكافؤ التوقعي
دالة الكثافة الاحتمالية
دالة تحدّد عدد مرات تكرار عيّنات البيانات التي تتضمّن بالضبط قيمة معيّنة. عندما تكون قيم مجموعة البيانات عبارة عن أرقام نقطة عائمة مستمرة، نادرًا ما تحدث تطابقات تامة. ومع ذلك، يؤدي تكامل دالة كثافة الاحتمال من القيمة x
إلى القيمة y
إلى الحصول على التكرار المتوقّع لعيّنات البيانات بين x
وy
.
على سبيل المثال، لنفترض أنّ لدينا توزيعًا عاديًا بمتوسط 200 وانحراف معياري يبلغ 30. لتحديد التكرار المتوقّع لعينات البيانات التي تقع ضمن النطاق من 211.4 إلى 218.7، يمكنك دمج دالة كثافة الاحتمال للتوزيع الطبيعي من 211.4 إلى 218.7.
R
تذكُّر الإعلان
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتوقعات التي حدّدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟
في ما يلي الصيغة:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
where:
- تعني النتيجة الإيجابية الصحيحة أنّ النموذج توقّع بشكلٍ صحيح الفئة الإيجابية.
- يعني السلبي الخاطئ أنّ النموذج توقّع بشكل خاطئ الفئة السلبية.
على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الموجبة. من بين هذه التوقعات الـ 200:
- كانت 180 منها نتائج موجبة صحيحة.
- كانت 20 منها نتائج سلبية خاطئة.
في هذه الحالة:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة للحصول على مزيد من المعلومات.
معدّل التذكّر عند k (recall@k)
مقياس لتقييم الأنظمة التي تعرض قائمة مرتبة (منظَّمة) من العناصر. تحدّد مقياس الاسترجاع عند k نسبة العناصر ذات الصلة في أول k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي تم عرضها.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
التباين مع الدقة عند k
منحنى الأمثلة الإيجابية
رسم بياني لمعدّل الموجب الصحيح مقابل معدّل الموجب الخاطئ لقيم مختلفة لحدود التصنيف في التصنيف الثنائي.
يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. لنفترض مثلاً أنّ نموذج تصنيف ثنائي يفصل تمامًا بين جميع الفئات السلبية وجميع الفئات الإيجابية:
يبدو منحنى ROC للنموذج السابق على النحو التالي:
في المقابل، يوضح الرسم البياني التالي قيم الانحدار اللوجستي الأولية لنموذج سيئ لا يمكنه الفصل بين الفئات السلبية والفئات الإيجابية على الإطلاق:
يبدو منحنى ROC لهذا النموذج على النحو التالي:
في الوقت نفسه، في العالم الحقيقي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حد ما، ولكن ليس بشكل مثالي عادةً. لذا، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأقصى والأدنى:
تحدّد النقطة الأقرب إلى (0.0,1.0) على منحنى ROC نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر العديد من المشاكل الأخرى في العالم الحقيقي على اختيار الحد الأمثل للتصنيف. على سبيل المثال، قد تتسبّب النتائج السلبية الخاطئة في أضرار أكبر بكثير من النتائج الإيجابية الخاطئة.
يلخّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة ذات فاصلة عائمة.
جذر الخطأ التربيعي المتوسّط (RMSE)
الجذر التربيعي لمتوسط الخطأ التربيعي
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
مجموعة من المقاييس التي تقيّم نماذج التلخيص التلقائي والترجمة الآلية. تحدّد مقاييس ROUGE مدى تداخل النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة. يقيس كل مقياس من مقاييس عائلة ROUGE التداخل بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.
يُنشئ كل فرد من عائلة مقاييس ROUGE عادةً المقاييس التالية:
- الدقة
- التذكُّر
- F1
للاطّلاع على التفاصيل والأمثلة، يُرجى مراجعة:
ROUGE-L
أحد مقاييس عائلة ROUGE يركّز على طول أطول تسلسل فرعي مشترك في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية مقياسَي التذكّر والدقة لمقياس ROUGE-L:
يمكنك بعد ذلك استخدام F1 لتجميع مقياسَي ROUGE-L recall وROUGE-L precision في مقياس واحد:
تتجاهل مقياس ROUGE-L أي أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذا يمكن أن يتضمّن أطول تسلسل فرعي مشترك عدة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه جملًا متعددة، يكون مقياس ROUGE-Lsum، وهو صيغة معدّلة من مقياس ROUGE-L، أفضل بشكل عام. تحدّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحسب متوسط أطول التسلسلات الفرعية المشتركة.
ROUGE-N
مجموعة من المقاييس ضمن عائلة ROUGE تقارن بين N-grams المشتركة بحجم معيّن في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:
- تقيس مقياس ROUGE-1 عدد الرموز المميزة المشتركة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-2 عدد ثنائيات الحروف (ثنائيات الحروف) المشتركة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-3 عدد الثلاثيات المشتركة (3-grams) في النص المرجعي والنص الذي تم إنشاؤه.
يمكنك استخدام الصيغ التالية لاحتساب مقياسَي التذكّر والدقة في ROUGE-N لأي عنصر من عناصر عائلة ROUGE-N:
يمكنك بعد ذلك استخدام F1 لتجميع مقياسَي الاسترجاع والدقة في ROUGE-N في مقياس واحد:
ROUGE-S
شكل متسامح من ROUGE-N يتيح مطابقة skip-gram. أي أنّ مقياس ROUGE-N لا يحتسب سوى N-grams التي تتطابق تمامًا، ولكن مقياس ROUGE-S يحتسب أيضًا N-grams التي تفصل بينها كلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:
- النص المرجعي: غيوم بيضاء
- النص الذي تم إنشاؤه: سُحب بيضاء متطايرة
عند احتساب مقياس ROUGE-N، لا يتطابق المقطع الثنائي غيوم بيضاء مع غيوم بيضاء متراكمة. ومع ذلك، عند احتساب مقياس ROUGE-S، فإنّ الغيوم البيضاء تتطابق مع الغيوم البيضاء المتصاعدة.
معامل التحديد
مقياس الانحدار الذي يشير إلى مقدار التباين في تصنيف بسبب ميزة فردية أو مجموعة ميزات قيمة R^2 هي قيمة بين 0 و1، ويمكن تفسيرها على النحو التالي:
- تشير قيمة R-squared البالغة 0 إلى أنّ أيًا من الاختلافات في التصنيف لا يعود إلى مجموعة الميزات.
- يشير معامل التحديد R-squared الذي تبلغ قيمته 1 إلى أنّ كل التباين في التصنيف يرجع إلى مجموعة الميزات.
- يشير معامل تحديد بين 0 و1 إلى مدى إمكانية توقّع التباين في التصنيف من ميزة معيّنة أو مجموعة الميزات. على سبيل المثال، يعني معامل التحديد البالغ 0.10 أنّ %10 من التباين في التصنيف يرجع إلى مجموعة الميزات، ويعني معامل التحديد البالغ 0.20 أنّ %20 من التباين يرجع إلى مجموعة الميزات، وهكذا.
معامل تحديد الارتباط هو مربع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.
S
تسجيل النتائج
جزء من نظام الاقتراحات يقدّم قيمة أو ترتيبًا لكل عنصر تم إنتاجه في مرحلة إنشاء المرشّحين.
مقياس التشابه
في خوارزميات التجميع، يشير ذلك المصطلح إلى المقياس المستخدَم لتحديد مدى التشابه بين أي مثالَين.
مقياس التناثر
عدد العناصر التي تم ضبطها على صفر (أو قيمة فارغة) في متّجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، لنفترض أنّ لديك مصفوفة تتضمّن 100 عنصر، منها 98 خلية تحتوي على القيمة صفر. يتم احتساب مقياس التباين على النحو التالي:
تشير ندرة الخصائص إلى ندرة خطوط متجهة للخصائص، وتشير ندرة النماذج إلى ندرة أوزان النماذج.
تربيع الخسارة المفصلية
مربّع الخسارة المفصلية تفرض الخسارة المفصلية التربيعية عقوبة أشد على القيم الشاذة مقارنةً بالخسارة المفصلية العادية.
الخسارة التربيعية
مرادف الخسارةالتربيعية
T
فقدان الاختبار
مقياس يمثّل الخسارة التي يتكبّدها النموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل خسارة الاختبار. ويرجع ذلك إلى أنّ انخفاض مقياس القصور في مجموعة الاختبار هو إشارة جودة أقوى من انخفاض مقياس القصور في مجموعة التدريب أو انخفاض مقياس القصور في مجموعة التحقّق.
يشير الفارق الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق أحيانًا إلى ضرورة زيادة معدّل التسوية.
دقة أعلى k
النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أول k مواضع في القوائم التي تم إنشاؤها يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بعناصر مرتّبة حسب softmax.
يُعرف مقياس "دقة أعلى k" أيضًا باسم الدقة عند k.
لغة غير لائقة
درجة إساءة المحتوى أو تهديده أو إهانته يمكن للعديد من نماذج تعلُّم الآلة تحديد مستوى السمية وقياسه. تحدّد معظم هذه النماذج مستوى السمية وفقًا لمعايير متعدّدة، مثل مستوى اللغة المسيئة ومستوى اللغة التي تتضمّن تهديدات.
فقدان التدريب
مقياس يمثّل الخسارة التي يتكبّدها النموذج خلال عملية تدريب معيّنة. على سبيل المثال، لنفترض أنّ دالة الخسارة هي متوسط الخطأ التربيعي. لنفترض أنّ الخطأ في التدريب (متوسط الخطأ التربيعي) في التكرار العاشر هو 2.2، وأنّ الخطأ في التدريب في التكرار المئة هو 1.9.
يعرض مخطّط الخسارة الخسارة أثناء التدريب مقابل عدد التكرارات. تقدّم منحنى الخسارة التلميحات التالية حول التدريب:
- يشير الميل الهبوطي إلى أنّ النموذج يتحسّن.
- يشير الميل التصاعدي إلى أنّ النموذج يزداد سوءًا.
- يشير الميل المسطّح إلى أنّ النموذج قد بلغ حالة التقارب.
على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حد ما التالي ما يلي:
- ميل حادّ نحو الأسفل خلال التكرارات الأولية، ما يشير إلى تحسُّن سريع في النموذج
- ميل ينخفض تدريجيًا (ولكنه يظلّ متّجهًا للأسفل) إلى أن يقترب من نهاية التدريب، ما يشير إلى تحسّن مستمر في النموذج بوتيرة أبطأ بعض الشيء من التكرارات الأولية
- ميل مستوٍ في نهاية التدريب، ما يشير إلى التقارب
على الرغم من أهمية فقدان التدريب، يُرجى الاطّلاع أيضًا على التعميم.
سالب صحيح
مثال يوضّح كيف يتنبأ النموذج بشكل صحيح بالفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية ليست رسالة غير مرغوب فيها بالفعل.
موجب صحيح (TP)
مثال يوضح كيف يتنبأ النموذج بشكل صحيح بالفئة الإيجابية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية هي بالفعل رسالة غير مرغوب فيها.
معدّل الموجب الصحيح (TPR)
مرادف لكلمة استدعاء والمقصود:
معدل الموجب الصحيح هو المحور الصادي في منحنى ROC.
V
فقدان التحقّق من الصحة
مقياس يمثّل الخسارة التي يتكبّدها النموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب.
يمكنك الاطّلاع أيضًا على منحنى التعميم.
أهمية المتغيرات
مجموعة من النتائج تشير إلى الأهمية النسبية لكل سمة في النموذج.
على سبيل المثال، لنفترض أنّ لديك شجرة قرارات تقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من أهمية المتغيرات للميزات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، فإنّ الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.
تتوفّر مقاييس مختلفة لأهمية المتغيرات، ويمكن أن تفيد خبراء تعلُّم الآلة بشأن جوانب مختلفة من النماذج.
واط
دالة الخسارة Wasserstein
إحدى دوال الخسارة الشائعة الاستخدام في الشبكات التوليدية الخصومية، استنادًا إلى مسافة نقل التراب بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.