تحتوي هذه الصفحة على مصطلحات مسرد المقاييس. للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.
A
الدقة
عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:
على سبيل المثال، إذا كان النموذج قد أجرى 40 تنبؤًا صحيحًا و10 تنبؤات غير صحيحة، ستكون دقته على النحو التالي:
يوفّر التصنيف الثنائي أسماء محدّدة لفئات مختلفة من التوقّعات الصحيحة و التوقّعات غير الصحيحة. وبالتالي، فإنّ صيغة الدقة للتصنيف الثنائي هي على النحو التالي:
حيث:
- يشير TP إلى عدد الحالات الموجبة الصحيحة (التوقّعات الصحيحة).
- TN هو عدد الحالات السالبة الصحيحة (التوقّعات الصحيحة).
- يشير FP إلى عدد الحالات الموجبة الخاطئة (التوقّعات غير الصحيحة).
- FN هو عدد الحالات السالبة الخاطئة (التوقّعات غير الصحيحة).
قارِن بين الدقة و الدقّة و اكتمال التوقعات الإيجابية.
انقر على الرمز للحصول على تفاصيل عن الدقة ومجموعات البيانات غير المتوازنة من حيث الفئات.
اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة في الدورة التدريبية المكثّفة لتعلُّم الآلة للحصول على مزيد من المعلومات.
المساحة تحت منحنى PR
اطّلِع على مساحة تحت منحنى العلاقات العامة (PR AUC).
المساحة تحت منحنى ROC
اطّلِع على AUC (المساحة تحت منحنى ROC).
المساحة تحت منحنى ROC
رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الموجبة عن الفئات السالبة. وكلما اقترب مقياس AUC من 1.0، كانت قدرة النموذج على فصل الفئات عن بعضها أفضل.
على سبيل المثال، تعرض الصورة التوضيحية التالية نموذجًا للتصنيف يفصل بين الفئات الموجبة (المربّعات الخضراء) والفئات السالبة (المربّعات البنفسجية) بشكلٍ مثالي. يحقّق هذا النموذج المثالي غير الواقعي قيمة AUC تبلغ 1.0:
في المقابل، تعرض الصورة التوضيحية التالية نتائج نموذج يندرج ضمن فئة المصنّفات ويُنشئ نتائج عشوائية. يحقّق هذا النموذج قيمة AUC تبلغ 0.5:
نعم، يمتلك النموذج السابق قيمة AUC تبلغ 0.5، وليس 0.0.
تقع معظم النماذج بين هذين الحدّين. على سبيل المثال، يفصل النموذج التالي بين القيم الموجبة والسالبة إلى حدّ ما، وبالتالي يمتلك AUC بين 0.5 و1.0:
يتجاهل مقياس AUC أي قيمة تحدّدها ل حدّ التصنيف. بدلاً من ذلك، تأخذ AUC جميع عتبات التصنيف الممكنة في الاعتبار.
انقر على الرمز للتعرّف على العلاقة بين منحنيات AUC وROC.
انقر على الرمز للحصول على تعريف أكثر رسمية لمقياس AUC.
اطّلِع على التصنيف: مخطّط ROC و AUC في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
متوسّط الدقة عند k
مقياس لتلخيص أداء نموذج على طلب واحد يؤدي إلى توليد نتائج مصنّفة، مثل قائمة مرقّمة باقتراحات الكتب متوسّط الدقة عند k هو متوسّط قيم الدقة عند k لكل نتيجة ملائمة. وبالتالي، تكون صيغة متوسط الدقة عند k هي:
حيث:
- هو عدد العناصر ذات الصلة في القائمة.
يُرجى الاطّلاع على الاسترجاع عند k.
انقر على الرمز للاطّلاع على مثال.
B
خط الأساس
نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، قد يُعدّ نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.
بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في قياس الحد الأدنى من الأداء المتوقّع الذي يجب أن يحقّقه النموذج الجديد ليكون مفيداً.
C
التكلفة
مرادف لـ الخسارة.
العدالة في الحالات الافتراضية
مقياس المساواة الذي يتحقّق مما إذا كان المصنّف يقدّم النتيجة نفسها لفرد ما كما يقدّمها لفرد آخر متطابق معه، باستثناء سمة حسّاسة واحدة أو أكثر إنّ تقييم أحد المصنّفات من أجل قياس عدله البديل هو إحدى الطرق لعرض مصادر التحيز المحتملة في النموذج.
يمكنك الاطّلاع على أيّ من المقالتَين أدناه للحصول على مزيد من المعلومات:
- الإنصاف: مناقشة موضوع الإنصاف في دورة تعلُّم الآلة المكثّفة
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (عندما تتلاقى النظريات: دمج افتراضات مختلفة حول الحالات البديلة في نموذج المساواة)
الإنتروبيا المتداخلة
تعميم Log Loss على مشاكل التصنيف المتعدّد الفئات يقيس قياس الانتروبي المتقاطع الفرق بين توزيعَي احتمال. اطّلِع أيضًا على الحيرة.
دالة التوزيع التراكمي
دالة تحدّد معدّل تكرار العيّنات التي تقلّ عن قيمة مستهدَفة أو تساويها. على سبيل المثال، نأخذ توزيعًا طبيعيًا للقيم المستمرة. تُعلمك دالة التوزيع الاحتمالي التراكمي أنّه من المفترض أن تكون نسبة% 50 تقريبًا من العيّنات أقل من أو مساوية للمتوسط وأن تكون نسبة% 84 تقريبًا من العيّنات أقل من أو مساوية لانحراف معيّن واحد فوق المتوسط.
D
التكافؤ الديمغرافي
مقياس المساواة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حسّاسة معيّنة
على سبيل المثال، إذا قدّم كلّ من سكان جزيرة ليليبوت وسكان جزيرة كبريت طلبات للانضمام إلى جامعة غلادبدبرب، يتمّ تحقيق المساواة الديمغرافية إذا كانت النسبة المئوية لسكان جزيرة ليليبوت المقبولين متساوية مع النسبة المئوية لسكان جزيرة كبريت المقبولين، بغض النظر عمّا إذا كانت إحدى المجموعة أكثر تأهّلاً في المتوسّط من الأخرى.
يختلف ذلك عن المعدّلات المتكافئة و تكافؤ الفرص، اللذان يسمحان باستناد نتائج التصنيف بشكلٍ مجمع إلى السمات الحسّاسة، ولكنّهما لا يسمحان باستناد نتائج التصنيف إلى سمات حسّاسة في تصنيفات معيّنة محدّدة الحقيقة الأساسية. اطّلِع على مقالة "مكافحة التمييز باستخدام تعلُّم الآلة الذكي" للاطّلاع على رسم بياني يوضّح التوازنات عند تحسين المحتوى لتحقيق المساواة الديمغرافية.
اطّلِع على الإنصاف: المساواة demographic في دورة التعلّم الآلي المكثّفة للحصول على مزيد من المعلومات.
E
مسافة نقل التربة (EMD)
مقياس للتشابه النسبي بين توزيعَين كلما انخفضت مسافة نقل التربة، كان التوزيعان أكثر تشابهًا.
مسافة التعديل
مقياس لدرجة تشابه سلسلتَي نص معًا في تعلُّم الآلة، يكون "مسافة التعديل" مفيدًا للأسباب التالية:
- من السهل احتساب مسافة التعديل.
- يمكن أن تقارن دالة Edit distance بين سلسلةَين معروف أنّهما متشابهتان.
- يمكن أن يحدِّد "مسافة التعديل" درجة تشابه سلاسل مختلفة مع سلسلة معيّنة.
هناك عدة تعريفات لمسافة التعديل، وكلّ منها يستخدم عمليات مختلفة على السلسلة. اطّلِع على مسافة Levenshtein للحصول على مثال.
دالة التوزيع التراكمي التجريبية (eCDF أو EDF)
دالة توزيع تراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة في أيّ نقطة على طول محور السّي هو جزء الملاحظات في مجموعة البيانات التي تكون قيمها أقل من أو مساوية للقيمة المحدّدة.
الإنتروبيا
في نظرية المعلومات، يشير القصور إلى مدى عدم إمكانية التنبؤ بتوزيع الاحتمالية. بدلاً من ذلك، يتم تعريف القصور أيضًا على أنّه مقدار المعلومات التي يحتوي عليها كل مثال. يكون للتوزيع أعلى قيمة ممكنة من الانتروبي عندما تكون جميع قيم المتغيّر العشوائي محتملة بالتساوي.
إنّ معلومات مجموعة تتضمّن قيمتَين محتملتَين "0" و "1" (مثل العلامات في مشكلة التصنيف الثنائي) لها الصيغة التالية:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
حيث:
- H هي الإنتروبيا.
- p هو الكسر الخاص بعيّنات "1".
- q هو الكسر الخاص بأمثلة "0". يُرجى العلم أنّ q = (1 - p).
- السجلّ هو عادةً السجلّ2. في هذه الحالة، تكون وحدة التشويش هي بت.
على سبيل المثال، لنفترض ما يلي:
- 100 مثال تحتوي على القيمة "1"
- 300 مثال تحتوي على القيمة "0"
وبالتالي، تكون قيمة القصور هي:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال
ستتضمّن المجموعة المتوازنة تمامًا (على سبيل المثال، 200 صفر و200 واحد) انتروبيا تبلغ 1.0 بت لكل نموذج. كلما أصبحت المجموعة أكثر اختلالًا، تحرّك القصور فيها نحو 0.0.
في أشجار القرارات، تساعد الانتروبي في صياغة تحصيل المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرار التصنيف.
مقارنة الإنتروبيا بما يلي:
- عدم دقة مؤشر gini
- دالة خسارة الإنتروبيا المتداخلة
يُطلق على القصور غالبًا اسم قصور Shannon.
اطّلِع على المقسّم الدقيق للتصنيف الثنائي باستخدام سمات رقمية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
تكافؤ الفرص
مقياس المساواة لتقييم ما إذا كان النموذج يتنبأ بالنتيجة المطلوبة بشكلٍ جيد بالتساوي لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المطلوبة للنموذج هي الفئة الموجبة، سيكون الهدف هو أن يكون معدل الإيجابية الحقيقية هو نفسه لجميع المجموعات.
ترتبط المساواة في الفرص بالاحتمالات المتكافئة، ويتطلّب ذلك أن تكون كلا معدلَي الموجبَين الصائبَين ومعدّلَي الموجبَين الخاطئَين متطابقَين لجميع المجموعات.
لنفترض أنّ جامعة Glubbdubdrib تقبل كلّ من سكان Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في جزيرة Lilliput مناهج قوية لدروس الرياضيات، وتكون الغالبية العظمى من الطلاب مؤهّلة للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في Brobdingnag دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين للدخول إلى هذه الجامعات أقل بكثير. يتمّ تحقيق المساواة في الفرص للتصنيف المفضّل "تمّ قبوله" حسب الجنسية (Lilliputian أو Brobdingnagian) إذا كان من المحتمل أن يتم قبول الطلاب المؤهّلين بشكلٍ متساوٍ بغض النظر عمّا إذا كانوا من Lilliputian أو Brobdingnagian.
على سبيل المثال، لنفترض أنّ 100 طالب من جزيرة Lilliput و100 طالب من جزيرة Brobdingnag يتقدمون بطلبات إلى جامعة Glubbdubdrib، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 1: مقدّمو الطلبات الصغار (90% منهم مؤهّلون)
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبوله | 45 | 3 |
تم الرفض | 45 | 7 |
المجموع | 90 | 10 |
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 45/90 = 50% النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 7/10 = 70% النسبة المئوية الإجمالية للطلاب من جزيرة Lilliput الذين تم قبولهم: (45+3)/100 = 48% |
الجدول 2: مقدّمو الطلبات من الشركات الكبيرة (10% منهم مؤهّلون):
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبوله | 5 | 9 |
تم الرفض | 5 | 81 |
المجموع | 10 | 90 |
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 5/10 = 50% النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 81/90 = 90% النسبة المئوية الإجمالية للطلاب الذين تم قبولهم في جامعة Brobdingnagian: (5+9)/100 = 14% |
تستوفي الأمثلة السابقة مبدأ المساواة في الفرص لقبول الطلاب المؤهّلين لأنّه تتوفر لطلاب "ليليبوت" المؤهّلين وطلاب "بروبنديجنان" المؤهّلين فرصة متساوية تبلغ% 50 للقبول.
على الرغم من استيفاء مقياس المساواة في الفرص، فإنّ مقياسَي المساواة التاليَين لا يتم استيفاؤهما:
- المساواة الديمغرافية: يتم قبول طلاب Lilliputians و Brobdingnagians في الجامعة بمعدّلات مختلفة، ويُقبل 48% من طلاب Lilliputians، ولكن لا يتم قبول سوى 14% من طلاب Brobdingnagians.
- الاحتمالات المتساوية: على الرغم من أنّ الطلاب المؤهَّلين من جزيرة Lilliput وطلاب جزيرة Brobdingnag لديهما فرصة متساوية للقبول، لا يتم استيفاء القيود الإضافية التي تقضي بأنّ الطلاب غير المؤهَّلين من جزيرة Lilliput وطلاب جزيرة Brobdingnag لديهما فرصة متساوية للرفض. يُسجّل سكان "ليبليب" غير المؤهَّلين معدّل رفض يبلغ% 70، في حين يُسجّل سكان "بروبيديناغ" غير المؤهَّلين معدّل رفض يبلغ% 90.
اطّلِع على الإنصاف: المساواة في فرص الوصول في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
الاحتمالات المتكافئة
مقياس لعدالة النموذج لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكلٍ متساوٍ بنفس الجودة لجميع قيم السمة الحسّاسة مع الأخذ في الاعتبار كلّ من الفئة الموجبة و الفئة السالبة، وليس فئة واحدة فقط حصريًا. بعبارة أخرى، يجب أن يكون كل من معدل الموجب الصحيح ومعدل السالب الخاطئ متطابقًا في جميع المجموعات.
ترتبط الاحتمالات المتكافئة بتكافؤ الفرص الذي لا يركز إلا على معدلات الخطأ لفئة واحدة (موجبة أو سالبة).
على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل كلّ من سكان Lilliput و Brobdingnag في برنامج رياضيات صارم. تقدّم المدراس الثانوية في جزيرة Lilliput مناهجًا دراسية قوية لدروس الرياضيات، وتكون الغالبية العظمى من الطلاب مؤهّلة للالتحاق بالبرنامج الجامعي. لا تقدّم المدراس الثانوية في مملكة Brobdingnag صفوفًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء الاحتمالات المتكافئة شرطًا بغض النظر عمّا إذا كان مقدم الطلب من جزيرة Lilliput أو Brobdingnagian، إذا كان مؤهلاً، من المرجّح أن يتم قبوله في البرنامج، وإذا لم يكن مؤهلاً، من المرجّح أن يتم رفضه.
لنفترض أنّ 100 طالب من جزيرة Lilliput و100 طالب من جزيرة Brobdingnag يتقدمون بطلبات إلى جامعة Glubbdubdrib ، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 3: مقدّمو الطلبات الصغار (90% منهم مؤهّلون)
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبوله | 45 | 2 |
تم الرفض | 45 | 8 |
المجموع | 90 | 10 |
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 45/90 = 50% النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 8/10 = 80% النسبة المئوية الإجمالية للطلاب من جزيرة Lilliput الذين تم قبولهم: (45+2)/100 = 47% |
الجدول 4: مقدّمو الطلبات من الشركات الكبيرة (10% منهم مؤهّلون):
مؤهَّل | غير معرَّف | |
---|---|---|
تم قبوله | 5 | 18 |
تم الرفض | 5 | 72 |
المجموع | 10 | 90 |
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 5/10 = 50% النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 72/90 = 80% إجمالي النسبة المئوية للطلاب من Brobdingnagian الذين تم قبولهم: (5+18)/100 = 23% |
يتم استيفاء الاحتمالات المتكافئة لأنّه تتوفّر لكل من الطلاب المؤهَّلين من جزيرة Lilliput وطلاب Brobdingnagian فرصة بنسبة% 50 للقبول، بينما تتوفّر لكل من الطلاب غير المؤهَّلين من جزيرة Lilliput وطلاب Brobdingnagian فرصة بنسبة% 80 للرفض.
يتم تعريف الاحتمالات المتكافئة رسميًا في مقالة "المساواة في الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يحقّق المتنبّئ Ŷ احتمالات متكافئة بالنسبة إلى السمة المحمية "أ" والنتيجة "ص" إذا كان Ŷ و"أ" مستقلّين، شريطة أن تكون "ص" مشروطة بـ "ص"."
evals
يُستخدَم بشكل أساسي كاختصار لتقييمات نموذج اللغة الضخمة. وعلى نطاق أوسع، التقييمات هي اختصار لأي شكل من أشكال التقييم.
التقييم
يشير ذلك المصطلح إلى عملية قياس جودة نموذج أو مقارنة نماذج مختلفة مع بعضها.
لتقييم نموذج تعلُّم آلي مُوجَّه ، يتم عادةً تقييمه مقارنةً بمجموعة التحقّق ومجموعة الاختبار. تقييم نموذج تعلم الآلة يتضمن عادةً تقييمات أوسع نطاقًا للجودة والسلامة.
F
F1
مقياس تصنيف ثنائي "مجمّع" يعتمد على كلّ من الدقة والتذكر. في ما يلي الصيغة:
انقر على الرمز للاطّلاع على أمثلة.
مقياس المساواة
تعريف رياضي "للإنصاف" يمكن قياسه تشمل بعض مقاييس المساواة المستخدَمة بشكل شائع ما يلي:
إنّ العديد من مقاييس المساواة متعارضة مع بعضها، راجِع مقالة عدم توافق مقاييس المساواة.
نتيجة سالبة خاطئة (FN)
مثال يتنبأ فيه النموذج عن طريق الخطأ بال الفئة السلبية. على سبيل المثال، يتنبّأ النموذج بأنّ رسالة بريد إلكتروني معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ رسالة البريد الإلكتروني هذه هي في الواقع رسالة غير مرغوب فيها.
معدّل النتائج السالبة الخاطئة
يشير ذلك المصطلح إلى نسبة الأمثلة الموجبة الفعلية التي توقّع النموذج خطأً أنّها تنتمي إلى الفئة السالبة. تحتسب الصيغة التالية نسبة التقييمات العميلة السلبية الخاطئة:
اطّلِع على الحدود القصوى وجدول الارتباك في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
موجب خاطئ
مثال يتنبأ فيه النموذج عن طريق الخطأ بال الفئة الموجبة. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الموجبة)، ولكن هذه الرسالة الإلكترونية ليست رسالة غير مرغوب فيها في الواقع.
اطّلِع على الحدود القصوى وجدول الارتباك في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
معدّل الموجب الخاطئ (FPR)
يشير ذلك المصطلح إلى نسبة الأمثلة السالبة الفعلية التي توقّع النموذج خطأً أنّها تنتمي إلى الفئة الموجبة. تحتسب الصيغة التالية معدّل النتيجة الإيجابية الزائفة:
يمثّل معدل الموجب الخاطئ محور x في منحنى خاصية تشغيل جهاز الاستقبال.
اطّلِع على التصنيف: مخطّط ROC و AUC في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
أهمية العناصر
مرادف لأهمية المتغيّرات.
نسبة النجاحات
مقياس لتقييم النص الذي ينشئه نموذج الذكاء الاصطناعي إنّ نسبة النجاح هي عدد العبارة الناتجة "الناجحة" مقسومًا على إجمالي عدد العبارات النصية الناتجة. على سبيل المثال، إذا أنشأ نموذج لغوي كبير 10 مجموعات من الرموز البرمجية، نجحت خمس منها، سيكون نسبة النجاح %50.
على الرغم من أنّ نسبة النجاح مفيدة بشكل عام في جميع الإحصاءات، فإنّ هذا المقياس مفيد في المقام الأول لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز البرمجية أو حلّ المشاكل الحسابية.
G
gini impurity
مقياس مشابه للانتروبيا الفواصل تستخدِم قيمًا مستمَدة من إما نقص gini أو الانتروبي لإنشاء الشروط للتصنيف أشجار القرارات. يتم اشتقاق تحصيل المعلومات من قصور المعلومات. لا تتوفّر عبارة مكافئة مقبولة عالميًا للمقياس المستمَد من قياس gini للشوائب، ومع ذلك، هذا المقياس غير المُسمّى مهمّ تمامًا مثل مقياس معلومات التحسين.
يُطلق على محتوى الشوائب في مقياس جيني أيضًا اسم مؤشر جيني أو جيني ببساطة.
انقر على الرمز للحصول على تفاصيل رياضية عن قياس gini للانقسام.
H
خسارة مفصلية
مجموعة من دوالّ الخسارة لمحاولة التصنيف، وهي مصمّمة للعثور على حدود القرار البعيدة قدر الإمكان عن كل مثال تدريبي، وبالتالي زيادة هامش الاختلاف بين الأمثلة والحدود إلى أقصى حدّ. تستخدِم KSVM خسارة المفصل (أو دالة ذات صلة، مثل خسارة المفصل المربّع). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة خسارة المفصل على النحو التالي:
حيث يكون y هو التصنيف الصحيح، إما -1 أو +1، وy' هو المخرجات الأوّلية لنموذج التصنيف:
نتيجةً لذلك، تظهر رسمة بيانية لخسارة المفصل مقارنةً بـ (y * y') على النحو التالي:
I
عدم توافق مقاييس الإنصاف
فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها ولا يمكن إشباعها في الوقت نفسه نتيجةً لذلك، لا يتوفّر مقياس واحد عالمي لقياس العدالة يمكن تطبيقه على جميع مشاكل الذكاء الاصطناعي.
قد يبدو هذا الأمر محبطًا، ولكن لا يعني عدم توافق مقاييس المساواة أنّ جهود المساواة غير مجدية. بدلاً من ذلك، يقترح المؤلفان أنّه يجب تحديد العدالة بشكل سياقي لمشكلة محدّدة في الذكاء الاصطناعي، بهدف منع الأضرار المتعلّقة بحالات الاستخدام.
اطّلِع على "On the (im)possibility of fairness" لمناقشة أكثر تفصيلاً بشأن عدم توافق مقاييس المساواة.
العدالة الفردية
مقياس للعدالة يتحقّق مما إذا كان يتم تصنيف الأفراد المشابهين بشكل مشابه. على سبيل المثال، قد تريد أكاديمية Brobdingnagian Academy مراعاة مبادئ العدل الفردي من خلال التأكّد من أنّ احتمال قبول طالبَين حاصلَين على درجات متطابقة ودرجات متطابقة في الاختبارات المعيارية متساوٍ.
يُرجى العِلم أنّ المساواة الفردية تعتمد بالكامل على كيفية تعريفك "للتشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، ويمكنك المخاطرة بظهور مشاكل جديدة في المساواة إذا لم يرصد مقياس التشابه معلومات مهمة (مثل صرامة المنهج الدراسي للطالب).
راجِع مقالة "تحقيق العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.
اكتساب المعلومات
في غابات القرارات، الفرق بين القصور في أحد الأجزاء وsummation المرجح (حسب عدد الأمثلة) لقصور أجزائه الفرعية القصور في أحد الأجزاء هو القصور للعيّنات في ذلك الجزء.
على سبيل المثال، راجِع قيم التشويش التالية:
- إنتروبيا العقدة الرئيسية = 0.6
- قصور عقدة فرعية واحدة تتضمّن 16 مثالاً ذا صلة = 0.2
- ينطبق القصور على عقدة فرعية أخرى تحتوي على 24 مثالاً ذا صلة = 0.1
وبالتالي، فإنّ% 40 من الأمثلة متوفّرة في عقدة فرعية واحدة و% 60 في العقدة الفرعية الأخرى. ولذلك:
- مجموع القصور المرجح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
وبالتالي، فإنّ تحصيل المعلومات هو:
- اكتساب المعلومات = قصور الجزء الأصلي - مجموع القصور المرجح للأجزاء الفرعية
- معلومات مكتسَبة = 0.6 - 0.14 = 0.46
تسعى معظم الفاصلات إلى إنشاء شروط تحقّق أقصى قدر من المعلومات.
توافق المقيّمين
مقياس لعدد المرات التي يتفق فيها المقيّمون عند تنفيذ مهمة معيّنة إذا لم يتفق المراجعون، قد تحتاج تعليمات المهمة إلى التحسين. يُعرف هذا المقياس أحيانًا باسم الاتّفاق بين المعلِنين أو موثوقية التقييم بين المقيّمين. اطّلِع أيضًا على kappa، وهو أحد أشهر مقاييس اتفاق الخبراء.
اطّلِع على البيانات الفئوية: المشاكل الشائعة في دورة تعلُّم الآلة المكثّفة للحصول على مزيد من المعلومات.
L
خسارة L1
دالة خسارة تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج على سبيل المثال، في ما يلي حسابخسارة L1 لمجموعة تتألف من خمسة أمثلة:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | القيمة المطلقة لدلتا |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = خسارة L1 |
إنّ خسارة L1 أقل حساسية تجاه القيم الشاذة مقارنةً بخسارة L2.
متوسط الخطأ المطلق هو متوسط خسائر L1 لكل مثال.
انقر على الرمز للاطّلاع على المسألة الرياضية الرسمية.
اطّلِع على الانحدار الخطي: الخسارة في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على مزيد من المعلومات.
خسارة L2
دالة خسارة تعمل على احتساب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتنبّأ بها النموذج. على سبيل المثال، في ما يلي حساب خسارة L2 لمجموعة من خمسة أمثلة:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | مربّع دلتا |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = خسارة L2 |
بسبب التربيع، يضخّم فقدان L2 تأثير القيم الشاذة. وهذا يعني أنّ خسارة L2 تستجيب بشكلٍ أقوى للتوقّعات السيئة مقارنةً بخسارة L1. على سبيل المثال، سيكون فقدان L1 للمجموعة السابقة هو 8 بدلاً من 16. يُرجى العلم أنّ قيمة واحدة شاذة تمثّل 9 من القيم الـ 16.
تستخدِم نماذج الانحدار عادةً خسارة L2 كدالة الخسارة.
متوسط الخطأ التربيعي هو متوسط خسائر L2 لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة L2.
انقر على الرمز للاطّلاع على المسألة الرياضية الرسمية.
اطّلِع على الانحدار اللوجستي: الخسارة و التسوية في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على مزيد من المعلومات.
تقييمات النماذج اللغوية الكبيرة (evals)
مجموعة من المقاييس والمقاييس المعيارية لتقييم أداء النماذج اللغوية الكبيرة بشكل عام، تؤدي تقييمات LLM إلى ما يلي:
- مساعدة الباحثين في تحديد الجوانب التي تحتاج إلى تحسين في النماذج اللغوية الكبيرة
- مفيدة في مقارنة نماذج اللغة الكبيرة المختلفة وتحديد أفضل نموذج لغة كبيرة مهمة معيّنة
- المساعدة في ضمان أمان النماذج اللغوية الكبيرة واستخدامها بطريقة أخلاقية
اطّلِع على النماذج اللغوية الكبيرة (LLM) في دورة التعلّم الآلي المكثّفة للحصول على مزيد من المعلومات.
خسارة
خلال تدريب نموذج خاضع للإشراف، يتم قياس مدى اقترارب توقّعات النموذج من تصنيفه.
تحسب دالة الخسارة الخسارة.
اطّلِع على الانحدار الخطي: الخسارة في الدورة التدريبية المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
دالة الخسارة
أثناء التدريب أو الاختبار، يتم استخدام دالة رياضية تحسب الخسارة في مجموعة من الأمثلة. تُعرِض دالة الخسارة خسائر أقل للنماذج التي تُقدّم توقّعات جيدة مقارنةً بالنماذج التي تقدّم توقّعات سيئة.
عادةً ما يكون هدف التدريب هو تقليل الخسارة التي تعرِضها دالة الخسارة.
هناك العديد من الأنواع المختلفة لدوالّ الخسارة. اختَر دالة الفقد المناسبة لنوع النموذج الذي تُنشئه. على سبيل المثال:
- خسارة 2 (أو متوسط الخطأ التربيعي) هي دالة الخسارة للانحدار الخطي.
- Log Loss هي دالة الخسارة لمحاولة الانحدار اللوجستي.
M
متوسّط الخطأ المطلق (MAE)
متوسط الخسارة لكل نموذج عند استخدام فقدان1 يمكنك احتساب متوسّط الخطأ المطلق على النحو التالي:
- احتساب خسارة L1 لمجموعة.
- قسِّم خسارة L1 على عدد النماذج في المجموعة.
انقر على الرمز للاطّلاع على المسألة الرياضية الرسمية.
على سبيل المثال، لنأخذ في الاعتبار احتساب خسارة L1 في الحزمة التالية من خمسة أمثلة:
القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | الخسارة (الفرق بين القيم الفعلية والقيم المتوقّعة) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = خسارة L1 |
وبالتالي، تكون خسارة L1 هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
قارِن بين متوسّط الخطأ المطلق ومتوسط الخطأ التربيعي و جذر متوسّط الخطأ التربيعي.
متوسّط متوسط الدقّة عند k (mAP@k)
المتوسط الإحصائي لجميع نتائج متوسّط الدقة عند k على مستوى مجموعة بيانات التحقّق. من بين استخدامات متوسّط متوسط الدقة عند k هو تقييم جودة الاقتراحات التي ينشئها نظام التوصية.
على الرغم من أنّ عبارة "متوسط المتوسط" تبدو زائدة، إلا أنّ اسم المقياس مناسب. بعد كل شيء، يجد هذا المقياس متوسّط قيم متوسط الدقة عند k المتعددة.
انقر على الرمز للاطّلاع على مثال.
الخطأ التربيعي المتوسط (MSE)
متوسّط الخسارة لكل نموذج عند استخدام فقدان2 يمكنك احتساب الخطأ التربيعي المتوسط على النحو التالي:
- احتساب خسارة L2 لمجموعة.
- قسِّم خسارة L2 على عدد النماذج في الحزمة.
انقر على الرمز للاطّلاع على المسألة الرياضية الرسمية.
على سبيل المثال، فكِّر في الخسارة في المجموعة التالية من خمسة أمثلة:
القيمة الفعلية | توقّعات النموذج | الخسارة | الخسارة التربيعية |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = خسارة L2 |
وبالتالي، يكون الخطأ التربيعي المتوسط على النحو التالي:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
"متوسط الخطأ التربيعي" هو أداة تحسين شائعة للتدريب، ويُستخدم بشكل خاص في الانحدار الخطي.
قارِن بين الخطأ التربيعي المتوسّط ومتوسط الخطأ المطلق وجذر الخطأ التربيعي المتوسّط.
يستخدم TensorFlow Playground متوسّط الخطأ المربّع لاحتساب قيم الخسارة.
انقر على الرمز للاطّلاع على مزيد من التفاصيل عن القيم الشاذة.
المقياس
إحصاءات تهمّك
الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.
Metrics API (tf.metrics)
واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، tf.metrics.accuracy
تُحدِّد عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.
خسارة الحد الأدنى والأقصى
دالة خسارة ل الشبكات التوليدية التنافسية، استنادًا إلى التشتت بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية
يتم استخدام خسارة Minimax في الورقة الأولى لوصف الشبكات التوليدية التنافسية.
اطّلِع على وظائف الخسارة في دورة الشبكات التوليدية التنافسية للحصول على مزيد من المعلومات.
سعة النموذج
تعقيد المشاكل التي يمكن للنموذج تعلُّمها وكلما زادت تعقيدًا المشاكل التي يمكن للنموذج تعلُّمها، زادت قدرة النموذج. وعادةً ما تزداد قدرة النموذج مع زيادة عدد مَعلمات النموذج. للحصول على تعريف رسمي لسعة المصنِّف، يُرجى الاطّلاع على سمة VC.
لا
فئة سلبية
في التصنيف الثنائي، يُطلق على أحد التصنيفَين اسم موجب والآخر اسم سالب. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمالية الأخرى. على سبيل المثال:
- قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
- قد تكون الفئة السلبية في أحد أدوات تصنيف الرسائل الإلكترونية هي "غير رسالة غير مرغوب فيها".
يختلف عن الفئة الموجبة.
O
هدف
مقياس تحاول الخوارزمية تحسينه.
دالة الهدف
الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، تكون الدالة الهدف لتحليل الانحدار الخطي عادةً متوسط الخسارة المربّعة. لذلك، عند تدريب نموذج الانحدار الخطي، يهدف التدريب إلى تقليل متوسط الخسارة المربّعة.
في بعض الحالات، يكون الهدف هو زيادة الدالة الهدف إلى أقصى حد. على سبيل المثال، إذا كانت الدالة الموضوعية هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حدّ.
اطّلِع أيضًا على الخسارة.
P
pass at k (pass@k)
مقياس لتحديد جودة الرمز البرمجي (مثل Python) الذي ينشئه نموذج لغوي كبير وعلى وجه التحديد، يشير المرور عند k إلى احتمال أن يجتاز دستة واحدة على الأقل من k دستة من مجموعات الرموز البرمجية التي تم إنشاؤها جميع اختبارات الوحدة.
غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء رمز برمجي جيد لمعالجة المشاكل البرمجية المعقدة. يتعامل مهندسو البرمجيات مع هذه المشكلة من خلال طلب إنشاء نموذج اللغة الكبير لعدة (k) حلول للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حلّ من الحلول باستخدام اختبارات الوحدة. يعتمد احتساب المرور في k على نتيجة اختبارات الوحدة:
- إذا اجتاز حلّ واحد أو أكثر من هذه الحلول اختبار الوحدة، يعني ذلك أنّ نموذج اللغة الضخم اجتاز تحدّي إنشاء الرمز البرمجي.
- إذا لم يجتاز أيّ من الحلول اختبار الوحدة، يفشل نموذج التعلم الآلي المتقدّم في حلّ هذا التحدي المتعلّق بإنشاء الرموز البرمجية.
في ما يلي صيغة المرور عند k:
بشكل عام، تؤدي القيم الأعلى k إلى الحصول على نتائج أعلى في نتائج k، ومع ذلك، تتطلّب القيم الأعلى k المزيد من موارد اختبار الوحدات والنماذج اللغوية الكبيرة.
انقر على الرمز للاطّلاع على مثال.
الأداء
مصطلح يحمل معاني متعدّدة:
- المعنى العادي في مجال هندسة البرمجيات على وجه التحديد: ما مدى سرعة (أو كفاءة) تشغيل هذا البرنامج؟
- المعنى في مجال تعلُّم الآلة يجيب مقياس الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي، ما مدى جودة توقّعات النموذج؟
أهمية متغيّرات التبديل
نوع من أهمية المتغيّر الذي يُقيّم الزيادة في خطأ التوقّع لنموذج بعد تبديل قيم السمة إنّ أهمية متغيّر التبادل هو مقياس مستقل عن النموذج.
الارتباك
أحد مقاييس مدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يقرؤها أحد المستخدمين على لوحة مفاتيح الهاتف، وتقديم قائمة بكلمات التكمّل المحتملة. إنّ مستوى الحيرة P لهذه المهمة هو تقريبًا عدد التخمينات التي تحتاج إلى تقديمها لكي تحتوي قائمتك على الكلمات التي يحاول المستخدم كتابتها.
يرتبط الالتباس بالإنتروبيا المتداخلة على النحو التالي:
فئة موجبة
الفئة التي تختبرها.
على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الموجبة في أحد أدوات تصنيف الرسائل الإلكترونية هي "غير مرغوب فيها".
على عكس الفئة السلبية.
انقر على الرمز للحصول على ملاحظات إضافية.
مساحة تحت منحنى PR (المساحة تحت منحنى PR)
المنطقة تحت منحنى الدقة-الاسترجاع الذي تمّت إضافته، والذي تمّ الحصول عليه من خلال رسم نقاط (الاسترجاع، الدقة) لقيم مختلفة من عتبة التصنيف.
الدقة
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتنبؤات الصحيحة؟
في ما يلي الصيغة:
حيث:
- النتيجة الموجبة الصحيحة تعني أنّ النموذج تنبأ بشكل صحيح بالفئة الموجبة.
- تشير الحالة الإيجابية الخاطئة إلى أنّ النموذج أخطأ في التنبؤ بالفئة الإيجابية.
على سبيل المثال، لنفترض أنّ نموذجًا قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية الـ 200:
- وبلغ عدد الحالات الموجبة الصحيحة 150 حالة.
- وبلغ عدد النتائج الموجبة الخاطئة 50 نتيجة.
في هذه الحالة:
يختلف هذا المقياس عن الدقة واكتمال التوقعات الإيجابية.
اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة في الدورة التدريبية المكثّفة لتعلُّم الآلة للحصول على مزيد من المعلومات.
الدقة عند k (precision@k)
مقياس لتقييم قائمة مرتّبة (مُرتّبة) من العناصر تحدِّد الدقة عند k النسبة المئوية لأول k عنصر في هذه القائمة التي تكون "ملائمة". والمقصود:
يجب أن تكون قيمة k أقل من أو مساوية لطول القائمة المعروضة. يُرجى العلم أنّ طول القائمة المعروضة ليس جزءًا من العملية الحسابية.
غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى الخبراء لا يتفقون في أغلب الأحيان على العناصر التي تكون ملائمة.
المقارنة بـ:
انقر على الرمز للاطّلاع على مثال.
منحنى الدقة والاستذكار
منحنى الدقة في مقابل الاسترجاع عند مختلف عتبات التصنيف
انحياز التوقّعات
قيمة تشير إلى مدى بُعد متوسّط التوقّعات عن متوسّط التصنيفات في مجموعة البيانات.
يجب عدم الخلط بين هذا المصطلح ومصطلح التحيز في نماذج تعلُّم الآلة أو التحيز في الأخلاق والعدالة.
التكافؤ التوقّعي
مقياس المساواة الذي يتحقّق مما إذا كانت معدّلات الدقة متكافئة للمجموعات الفرعية المعنيّة، وذلك بالنسبة إلى مصنّف معيّن.
على سبيل المثال، سيستوفي النموذج الذي يتوقّع قبول الطلاب في الجامعات قياس التكافؤ التوقّعي للجنسية إذا كان معدّل الدقّة متطابقًا لكل من سكان جزيرة ليليبوت وسكان جزيرة بلوبيديغناج.
يُعرف التكافؤ التوقّعي أحيانًا أيضًا باسم التكافؤ التوقّعي للسعر.
اطّلِع على "تعريفات الإنصاف الموضّحة" (القسم 3.2.1) لمناقشة أكثر تفصيلاً عن المساواة التوقّعية.
التكافؤ في الأسعار القائمة على التوقّعات
اسم آخر للتطابق التوقّعي
دالة الكثافة الاحتمالية
دالة لتحديد معدّل تكرار عيّنات البيانات التي تحتوي بالضبط على قيمة معيّنة عندما تكون قيم مجموعة البيانات هي أرقام برمجية متسلسلة بفاصل علامة عشرية، نادرًا ما تحدث المطابقات التامّة. ومع ذلك، فإنّ دمج دالة كثافة احتمالية
من القيمة x
إلى القيمة y
ينتج عنه معدّل تكرار متوقع
لعينات البيانات بين x
وy
.
على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا يبلغ متوسطه 200 و انحرافًا معياريًا يبلغ 30. لتحديد معدّل تكرار عيّنات البيانات الواقعة ضمن النطاق 211.4 إلى 218.7، يمكنك دمج دالة كثافة احتمالية التوزيع الطبيعي من 211.4 إلى 218.7.
R
تذكُّر الإعلان
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتنبؤات التي رصدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟
في ما يلي الصيغة:
حيث:
- النتيجة الموجبة الصحيحة تعني أنّ النموذج تنبأ بشكل صحيح بالفئة الموجبة.
- يعني التقييم الخاطئ سلبيًا أنّ النموذج أخطأ في التنبؤ بالنتيجة الفئة السلبية.
على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الإيجابية. من بين هذه التوقعات الـ 200:
- وبلغ عدد الحالات الموجبة الصحيحة 180 حالة.
- وكانت هناك 20 حالة سلبية خاطئة.
في هذه الحالة:
انقر على الرمز للاطّلاع على ملاحظات حول مجموعات البيانات غير المتوازنة الفئات.
اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة لمزيد من المعلومات.
تذكُّر عند k (recall@k)
مقياس لتقييم الأنظمة التي تُخرج قائمة مرتّبة (مُرتّبة) بالعناصر. يحدِّد "التذكُّر عند k" نسبة العناصر ذات الصلة في أوّل k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي يتم عرضها.
يُرجى الاطّلاع على الدقة عند k.
انقر على الرمز للاطّلاع على مثال.
منحنى ROC (خاصية تشغيل جهاز الاستقبال)
رسم بياني لمعدل الموجب الصحيح مقابل معدل الموجب الخاطئ لحدود التصنيف المختلفة في التصنيف الثنائي
يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الموجبة عن الفئات السالبة. لنفترض مثلاً أنّ نموذج التصنيف الثنائي يفصل تمامًا بين جميع فئات السلبية وجميع فئات الإيجابية:
يظهر منحنى ROC للنموذج السابق على النحو التالي:
في المقابل، يعرض الرسم التوضيحي التالي قيم الانحدار اللوجستي التلقائية لنموذج سيئ لا يمكنه فصل الفئات السلبية عن الفئات الإيجابية على الإطلاق:
يظهر منحنى ROC لهذا النموذج على النحو التالي:
في الوقت نفسه، في العالم الواقعي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حدّ ما، ولكن ليس بشكلٍ مثالي عادةً. وبالتالي، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأدنى والأعلى:
تحدِّد النقطة على منحنى ROC الأقرب إلى (0.0,1.0) نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر عدة مشاكل أخرى في العالم الواقعي في اختيار الحدّ الأمثل للتصنيف. على سبيل المثال، قد تتسبب النتائج السلبية الخاطئة في مشاكل أكثر بكثير من النتائج الموجبة الخاطئة.
يلخِّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة بفاصل عشري.
جذر الخطأ التربيعي المتوسّط (RMSE)
الجذر التربيعي للخطأ التربيعي المتوسّط
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
مجموعة من المقاييس التي تقيِّم نماذج التلخيص التلقائي والترجمة الآلية. تحدِّد مقاييس ROUGE درجة تداخل النص المرجعي مع النص الذي أنشأه نموذج الذكاء الاصطناعي (ML). تتداخل مقاييس عائلة ROUGE بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.
ينشئ كل فرد من عائلة ROUGE عادةً المقاييس التالية:
- الدقة
- التذكُّر
- F1
لمعرفة التفاصيل والأمثلة، يُرجى الاطّلاع على:
ROUGE-L
أحد أفراد عائلة ROUGE يركز على طول أطول تسلسل فرعي شائع في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية دقة ومستوى التذكر لـ ROUGE-L:
يمكنك بعد ذلك استخدام F1 لتجميع دقة ROUGE-L ومستوى استرجاع ROUGE-L في مقياس واحد:
انقر على الرمز للحصول على مثال على احتساب ROUGE-L.
يتجاهل مقياس ROUGE-L أيّ أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذلك يمكن أن يشمل أطول تسلسل فرعي مشترك عدّة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه عدة جمل، يكون ROUGE-Lsum، وهو أحد أشكال مقياس ROUGE-L، مقياسًا أفضل بشكل عام. يحدِّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحتسِب متوسّط هذه التسلسلات الفرعية المشتركة الأطول.
انقر على الرمز للحصول على مثال لحساب ROUGE-Lsum.
ROUGE-N
مجموعة من المقاييس ضمن عائلة ROUGE التي تقارن بين النصوص المشتركة التي تتألف من عدد معيّن من الكلمات في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:
- يقيس مقياس ROUGE-1 عدد الرموز المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-2 عدد الثنائيات (الكلمات المكونة من كلمتَين) المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-3 عدد الثلاثيات (3-grams) المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.
يمكنك استخدام الصيغ التالية لاحتساب تذكر ROUGE-N و دقة ROUGE-N لأيّ عضو من عائلة ROUGE-N:
يمكنك بعد ذلك استخدام F1 لتجميع دقة ROUGE-N ومستوى استرجاع ROUGE-N في مقياس واحد:
انقر على الرمز للاطّلاع على مثال.
ROUGE-S
يُعدّ هذا المقياس من ROUGE-N أكثر تساهلاً، إذ يتيح مطابقة الجمل القصيرة. وهذا يعني أنّ ROUGE-N لا يحسب سوى النصوص التي تتكوّن من وحدات أساسية بحجم N التي تتطابق تمامًا، ولكنّ ROUGE-S يحسب أيضًا النصوص التي تتكوّن من وحدات أساسية بحجم N مفصولة بكلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:
- النص المرجعي: سحب بيضاء
- النص الذي تم إنشاؤه: سحب بيضاء كثيفة
عند احتساب مقياس ROUGE-N، لا يتطابق الثنائي السحب البيضاء مع السحب البيضاء المتصاعدة. ومع ذلك، عند احتساب مقياس ROUGE-S، يتطابق السحب البيضاء مع السحب البيضاء المتصاعدة.
معامل التحديد
مقياس الانحدار الذي يشير إلى مقدار التباين في التصنيف الناتج عن ميزة فردية أو مجموعة ميزات "مربّع R" هو قيمة تتراوح بين 0 و1، ويمكنك تفسيرها على النحو التالي:
- تعني قيمة R المربّع 0 أنّ أيّ من التباين في التصنيف لا يرجع إلى مجموعة السمات.
- يعني مقياس R المربّع الذي يساوي 1 أنّ جميع الاختلافات في التصنيف تعود إلى مجموعة الميزات.
- يشير مقياس R المربّع الذي يتراوح بين 0 و1 إلى مدى إمكانية توقّع اختلاف العلامة من ميزة معيّنة أو مجموعة ميزات. على سبيل المثال، تعني قيمة "مربع R" التي تبلغ 0.10 أنّ 10% من التباين في التصنيف يرجع إلى مجموعة الميزات، وتعني قيمة "مربع R" التي تبلغ 0.20 أنّ 20% يرجع إلى مجموعة الميزات، وهكذا.
R المربّع هو مربّع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.
S
تسجيل النتائج
الجزء من نظام الاقتراحات الذي يقدّم قيمة أو ترتيبًا لكل عنصر تم إنشاؤه في مرحلة إنشاء الاقتراحات
مقياس التشابه
في خوارزميات التجميع العنقودي، هو المقياس المستخدَم لتحديد مدى تشابه أي مثالَين.
مقياس التناثر
عدد العناصر التي تم ضبطها على القيمة صفر (أو القيمة الخالية) في متجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، تفكّر في مصفوفة تتألف من 100 عنصر تحتوي فيها 98 خلية على صفر. يتم احتساب الكثافة على النحو التالي:
تشير التراخي في الخصائص إلى التراخي في أحد خطوط الخصائص، ويشير التراخي في النموذج إلى التراخي في أوزان النموذج.
تربيع الخسارة المفصلية
تربيع الخسارة المفصلية تفرض "خسارة المفصلية المربّعة" عقوبات على القيم الشاذة أكثر من "خسارة المفصلية" العادية.
الخسارة التربيعية
مرادف لخسارة L2.
T
خسارة الاختبار
مقياس يمثّل الخسارة للنموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل الخسارة في الاختبار. ويعود السبب في ذلك إلى أنّ انخفاض خسائر الاختبار يمثّل إشارة جودة أقوى من انخفاض خسائر التدريب أو انخفاض خسائر التحقّق.
في بعض الأحيان، يشير الاختلاف الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق إلى أنّه عليك زيادة معدّل التنظيم.
دقة أفضل k
النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أوّل ك موضع من القوائم التي تم إنشاؤها. يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بالعناصر مرتبة حسب softmax.
تُعرف دقة أفضل k عناصر أيضًا باسم الدقة عند k.
انقر على الرمز للاطّلاع على مثال.
لغة غير لائقة
درجة مساءة المحتوى أو تهديده أو إساءته يمكن للعديد من نماذج تعلُّم الآلة تحديد المحتوى السام وقياسه. ترصد معظم هذه النماذج المحتوى المسيء استنادًا إلى مَعلمات متعدّدة، مثل مستوى اللغة المسيئة ومستوى اللغة التهديدية.
فقدان التدريب
مقياس يمثّل الخسارة للنموذج أثناء دورة تدريب معيّنة على سبيل المثال، لنفترض أنّ دالة الخسارة هي متوسط الخطأ التربيعي. قد يكون فقدان التدريب (متوسط الخطأ التربيعي) للتكرار 10 هو 2.2، وفقدان التدريب للتكرار 100 هو 1.9.
يوضِّح منحنى الخسارة خسارة التدريب مقارنةً بعدد المرات المتكرّرة. يوفّر منحنى الخسارة التلميحَين التاليَين عن التدريب:
- يشير الانحدار إلى الأسفل إلى أنّ النموذج يتحسّن.
- يشير الانحدار التصاعدي إلى أنّ أداء النموذج يزداد سوءًا.
- يشير المنحدر المستوي إلى أنّ النموذج وصل إلى مرحلة التقارب.
على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حدٍ ما ما يلي:
- منحدر حادّ للأسفل أثناء النُسخ الأولية، ما يشير إلى تحسين النموذج بسرعة.
- منحدر مسطّح تدريجيًا (ولكن لا يزال ينخفض) حتى قرب نهاية العملية التدريب، ما يشير إلى استمرار تحسين النموذج بوتيرة أبطأ إلى حدّ ما مقارنةً بالتكرارات الأولية
- منحدر مستوٍ باتجاه نهاية التدريب، ما يشير إلى التقارب
على الرغم من أنّ فقدان البيانات أثناء التدريب مهم، يمكنك أيضًا الاطّلاع على التعميم.
سالب صحيح (TN)
مثال يتنبأ فيه النموذج بشكل صحيح بال الفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة بريد إلكتروني معيّنة ليست رسالة غير مرغوب فيها، وأنّ رسالة البريد الإلكتروني هذه هي ليست رسالة غير مرغوب فيها.
موجب صحيح (TP)
مثال يتنبأ فيه النموذج بشكل صحيح بال الفئة الموجبة. على سبيل المثال، يستنتج النموذج أنّه هناك رسالة إلكترونية معيّنة غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية غير مرغوب فيها حقًا.
معدّل الموجب الصحيح (TPR)
مرادف لـ الرجوع. والمقصود:
يمثّل معدل الموجب الصحيح محور y في منحنى خاصية تشغيل جهاز الاستقبال.
V
فقدان القيمة الصالحة
مقياس يمثّل الخسارة للنموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب
راجِع أيضًا منحنى التعميم.
أهمية المتغيّرات
مجموعة من الدرجات التي تشير إلى الأهمية النسبية لكل سمة في النموذج
على سبيل المثال، نأخذ شجرة قرارات تُقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم احتساب مجموعة من قيم متغيرات الأهمية للسمات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، يكون المقاس أكثر أهمية في شجرة القرار من العمر أو الطراز.
تتوفّر مقاييس مختلفة لأهمية المتغيّرات، والتي يمكن أن تُعلِم خبراء الذكاء الاصطناعي (ML) عن الجوانب المختلفة للنماذج.
واط
خسارة Wasserstein
إحدى دوالّ الخسارة المستخدَمة بشكل شائع في الشبكات التوليدية التنافسية، استنادًا إلى مسافة محوّل الأرض بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.