مسرد تعلُّم الآلة: المقاييس

تحتوي هذه الصفحة على مصطلحات مسرد المقاييس. للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.

الدقة

#fundamentals
#Metric

عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

على سبيل المثال، إذا كان النموذج قد أجرى 40 تنبؤًا صحيحًا و10 تنبؤات غير صحيحة، ستكون دقته على النحو التالي:

Accuracy=4040 + 10=80%

يوفّر التصنيف الثنائي أسماء محدّدة لفئات مختلفة من التوقّعات الصحيحة و التوقّعات غير الصحيحة. وبالتالي، فإنّ صيغة الدقة للتصنيف الثنائي هي على النحو التالي:

Accuracy=TP+TNTP+TN+FP+FN

حيث:

قارِن بين الدقة و الدقّة و اكتمال التوقعات الإيجابية.

على الرغم من أنّ الدقة مقياس قيّم في بعض الحالات، إلا أنّها قد تكون mislead تجدر الإشارة إلى أنّ الدقة هي عادةً مقياس ضعيف لتقييم نماذج التصنيف التي تعالج مجموعات بيانات غير متوازنة من حيث الفئات.

على سبيل المثال، لنفترض أنّ الثلج يسقط 25 يومًا فقط في القرن الواحد في مدينة معيّنة في منطقة معتدلة الاستوائية. بما أنّ الأيام التي لا تهطل فيها الثلوج (الفئة السلبية) تفوق بكثير الأيام التي تهطل فيها الثلوج (الفئة الإيجابية)، فإنّ مجموعة بيانات الثلوج في هذه المدينة غير متوازنة الفئات. تخيل نموذج تصنيف ثنائي من المفترض أن يتنبأ إما بتساقط الثلوج أو عدم تساقطها كل يوم، ولكنه يقتصر على التنبؤ بـ "عدم تساقط الثلوج" كل يوم. هذا النموذج دقيق للغاية ولكنّه لا يمتلك القدرة على التوقّع. يلخّص الجدول التالي نتائج قرن من التوقّعات:

الفئة العدد
TP 0
تونس 36499
FP 0
FN 25

وبالتالي، تكون دقة هذا النموذج على النحو التالي:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

على الرغم من أنّ نسبة الدقة التي تبلغ ‎99.93% تبدو نسبة مئوية مُبهرة للغاية، إلا أنّ النموذج ليس له في الواقع أيّ قدرة على التنبؤ.

عادةً ما يكون مقياسا الدقة و الاسترجاع أكثر فائدة مقارنةً بمقياس الدقة لتقييم النماذج المدربة على مجموعات بيانات غير متوازنة من حيث الفئات.


اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة في الدورة التدريبية المكثّفة لتعلُّم الآلة للحصول على مزيد من المعلومات.

المساحة تحت منحنى PR

#Metric

اطّلِع على مساحة تحت منحنى العلاقات العامة (PR AUC).

المساحة تحت منحنى ROC

#Metric

اطّلِع على AUC (المساحة تحت منحنى ROC).

المساحة تحت منحنى ROC

#fundamentals
#Metric

رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الموجبة عن الفئات السالبة. وكلما اقترب مقياس AUC من 1.0، كانت قدرة النموذج على فصل الفئات عن بعضها أفضل.

على سبيل المثال، تعرض الصورة التوضيحية التالية نموذجًا للتصنيف يفصل بين الفئات الموجبة (المربّعات الخضراء) والفئات السالبة (المربّعات البنفسجية) بشكلٍ مثالي. يحقّق هذا النموذج المثالي غير الواقعي قيمة AUC تبلغ 1.0:

خطّ أعداد يتضمّن 8 أمثلة إيجابية على أحد الجانبين
          9 أمثلة سلبية على الجانب الآخر

في المقابل، تعرض الصورة التوضيحية التالية نتائج نموذج يندرج ضمن فئة المصنّفات ويُنشئ نتائج عشوائية. يحقّق هذا النموذج قيمة AUC تبلغ 0.5:

خطّ أعداد يتضمّن 6 أمثلة إيجابية و6 أمثلة سلبية
          تسلسل الأمثلة هو إيجابي، سلبي،
          إيجابي، سلبي، إيجابي، سلبي، إيجابي، سلبي، إيجابي
          سلبي، إيجابي، سلبي.

نعم، يمتلك النموذج السابق قيمة AUC تبلغ 0.5، وليس 0.0.

تقع معظم النماذج بين هذين الحدّين. على سبيل المثال، يفصل النموذج التالي بين القيم الموجبة والسالبة إلى حدّ ما، وبالتالي يمتلك AUC بين 0.5 و1.0:

خطّ أعداد يتضمّن 6 أمثلة إيجابية و6 أمثلة سلبية
          تسلسل الأمثلة هو سلبي، سلبي، سلبي، سلبي،
          إيجابي، سلبي، إيجابي، إيجابي، سلبي، إيجابي، إيجابي،
          إيجابي.

يتجاهل مقياس AUC أي قيمة تحدّدها ل حدّ التصنيف. بدلاً من ذلك، تأخذ AUC جميع عتبات التصنيف الممكنة في الاعتبار.

تمثّل AUC المساحة تحت منحنى ROC. على سبيل المثال، يظهر منحنى خاصية تشغيل جهاز الاستقبال لنموذج يفصل تمامًا بين العناصر الموجبة والسالبة على النحو التالي:

رسم بياني إحداثي. المحور السيني هو معدل الموجب الخاطئ، والمحورصعد هو معدل الموجب الصحيح. يبدأ الرسم البياني عند 0,0 ويتجه للأعلى مباشرةً
          إلى 0,1 ثم إلى اليمين مباشرةً وينتهي عند 1,1.

وتمثل مساحة العرض الإعلاني الكلية مساحة المنطقة الرمادية في الرسم التوضيحي السابق. في هذه الحالة غير المعتادة، تكون المساحة هي طول المنطقة الرمادية (1.0) مضروبًا في عرض المنطقة الرمادية (1.0). وبالتالي، فإنّ المنتج الذي يحقّق قياس 1.0 و1.0 يحقّق قيمة AUC تبلغ 1.0 بالضبط، وهي أعلى قيمة ممكنة لقياس AUC.

في المقابل، يكون منحنى خاصية تشغيل جهاز الاستقبال لمصنّف لا يمكنه فصل الفئات على الإطلاق على النحو التالي. تبلغ مساحة هذه المنطقة الرمادية 0.5.

رسم بياني إحداثي. المحور x هو معدل الموجب الخاطئ، والمحور y هو معدل الموجب
          الصحيح. يبدأ الرسم البياني من 0,0 ويتجه بشكل قطري إلى 1,1.

يبدو منحنى ROC الأكثر شيوعًا على النحو التالي تقريبًا:

رسم بياني إحداثي. المحور x هو معدل الموجب الخاطئ، والمحور y هو معدل الموجب
          الصحيح. يبدأ الرسم البياني عند 0,0 ويأخذ قوسًا غير منتظم
          إلى 1,0.

سيكون من الصعب احتساب المساحة تحت هذا المنحنى يدويًا، ولهذا السبب يحتسِب البرنامج عادةً معظم قيم "تكلفة الإجراء المستهدَف".


دالة AUC هي احتمال أن يكون المصنِّف أكثر ثقة بأنّ مثالًا موجبًا تم اختياره عشوائيًا هو موجب فعلاً مقارنةً بأنّ مثالًا سلبيًا تم اختياره عشوائيًا هو موجب.


اطّلِع على التصنيف: مخطّط ROC و AUC في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

متوسّط الدقة عند k

#language
#Metric

مقياس لتلخيص أداء نموذج على طلب واحد يؤدي إلى توليد نتائج مصنّفة، مثل قائمة مرقّمة باقتراحات الكتب متوسّط الدقة عند k هو متوسّط قيم الدقة عند k لكل نتيجة ملائمة. وبالتالي، تكون صيغة متوسط الدقة عند k هي:

average precision at k=1ni=1nprecision at k for each relevant item

حيث:

  • n هو عدد العناصر ذات الصلة في القائمة.

يُرجى الاطّلاع على الاسترجاع عند k.

لنفترض أنّه تم تقديم الطلب التالي إلى نموذج لغوي كبير:

List the 6 funniest movies of all time in order.

ويعرض النموذج اللغوي الكبير القائمة التالية:

  1. The General
  2. Mean Girls
  3. Platoon
  4. وصيفات العروس
  5. Citizen Kane
  6. This is Spinal Tap
أربعة من الأفلام في القائمة المعروضة مضحكة جدًا (أي أنّها ملائم) ولكن فيلمان منهما دراميان (غير ملائم). يوضّح الجدول التالي بالتفصيل النتائج:
الموضع فيلم هل هذا المحتوى ذي صلة؟ الدقة عند k
1 The General نعم 1
2 Mean Girls نعم 1
3 Platoon لا غير ذات صلة
4 وصيفات العروس نعم 0.75
5 Citizen Kane لا غير ذات صلة
6 This is Spinal Tap نعم 0.67

عدد النتائج ذات الصلة هو 4. وبالتالي، يمكنك احتساب متوسط الدقة عند 6 على النحو التالي:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

خط الأساس

#Metric

نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، قد يُعدّ نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.

بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في قياس الحد الأدنى من الأداء المتوقّع الذي يجب أن يحقّقه النموذج الجديد ليكون مفيداً.

C

التكلفة

#Metric

مرادف لـ الخسارة.

العدالة في الحالات الافتراضية

#fairness
#Metric

مقياس المساواة الذي يتحقّق مما إذا كان المصنّف يقدّم النتيجة نفسها لفرد ما كما يقدّمها لفرد آخر متطابق معه، باستثناء سمة حسّاسة واحدة أو أكثر إنّ تقييم أحد المصنّفات من أجل قياس عدله البديل هو إحدى الطرق لعرض مصادر التحيز المحتملة في النموذج.

يمكنك الاطّلاع على أيّ من المقالتَين أدناه للحصول على مزيد من المعلومات:

الإنتروبيا المتداخلة

#Metric

تعميم Log Loss على مشاكل التصنيف المتعدّد الفئات يقيس قياس الانتروبي المتقاطع الفرق بين توزيعَي احتمال. اطّلِع أيضًا على الحيرة.

دالة التوزيع التراكمي

#Metric

دالة تحدّد معدّل تكرار العيّنات التي تقلّ عن قيمة مستهدَفة أو تساويها. على سبيل المثال، نأخذ توزيعًا طبيعيًا للقيم المستمرة. تُعلمك دالة التوزيع الاحتمالي التراكمي أنّه من المفترض أن تكون نسبة% 50 تقريبًا من العيّنات أقل من أو مساوية للمتوسط وأن تكون نسبة% 84 تقريبًا من العيّنات أقل من أو مساوية لانحراف معيّن واحد فوق المتوسط.

D

التكافؤ الديمغرافي

#fairness
#Metric

مقياس المساواة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حسّاسة معيّنة

على سبيل المثال، إذا قدّم كلّ من سكان جزيرة ليليبوت وسكان جزيرة كبريت طلبات للانضمام إلى جامعة غلادبدبرب، يتمّ تحقيق المساواة الديمغرافية إذا كانت النسبة المئوية لسكان جزيرة ليليبوت المقبولين متساوية مع النسبة المئوية لسكان جزيرة كبريت المقبولين، بغض النظر عمّا إذا كانت إحدى المجموعة أكثر تأهّلاً في المتوسّط من الأخرى.

يختلف ذلك عن المعدّلات المتكافئة و تكافؤ الفرص، اللذان يسمحان باستناد نتائج التصنيف بشكلٍ مجمع إلى السمات الحسّاسة، ولكنّهما لا يسمحان باستناد نتائج التصنيف إلى سمات حسّاسة في تصنيفات معيّنة محدّدة الحقيقة الأساسية. اطّلِع على مقالة "مكافحة التمييز باستخدام تعلُّم الآلة الذكي" للاطّلاع على رسم بياني يوضّح التوازنات عند تحسين المحتوى لتحقيق المساواة الديمغرافية.

اطّلِع على الإنصاف: المساواة demographic في دورة التعلّم الآلي المكثّفة للحصول على مزيد من المعلومات.

E

مسافة نقل التربة (EMD)

#Metric

مقياس للتشابه النسبي بين توزيعَين كلما انخفضت مسافة نقل التربة، كان التوزيعان أكثر تشابهًا.

مسافة التعديل

#language
#Metric

مقياس لدرجة تشابه سلسلتَي نص معًا في تعلُّم الآلة، يكون "مسافة التعديل" مفيدًا للأسباب التالية:

  • من السهل احتساب مسافة التعديل.
  • يمكن أن تقارن دالة Edit distance بين سلسلةَين معروف أنّهما متشابهتان.
  • يمكن أن يحدِّد "مسافة التعديل" درجة تشابه سلاسل مختلفة مع سلسلة معيّنة.

هناك عدة تعريفات لمسافة التعديل، وكلّ منها يستخدم عمليات مختلفة على السلسلة. اطّلِع على مسافة Levenshtein للحصول على مثال.

دالة التوزيع التراكمي التجريبية (eCDF أو EDF)

#Metric

دالة توزيع تراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة في أيّ نقطة على طول محور السّي هو جزء الملاحظات في مجموعة البيانات التي تكون قيمها أقل من أو مساوية للقيمة المحدّدة.

الإنتروبيا

#df
#Metric

في نظرية المعلومات، يشير القصور إلى مدى عدم إمكانية التنبؤ بتوزيع الاحتمالية. بدلاً من ذلك، يتم تعريف القصور أيضًا على أنّه مقدار المعلومات التي يحتوي عليها كل مثال. يكون للتوزيع أعلى قيمة ممكنة من الانتروبي عندما تكون جميع قيم المتغيّر العشوائي محتملة بالتساوي.

إنّ معلومات مجموعة تتضمّن قيمتَين محتملتَين "0" و "1" (مثل العلامات في مشكلة التصنيف الثنائي) لها الصيغة التالية:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

حيث:

  • H هي الإنتروبيا.
  • p هو الكسر الخاص بعيّنات "1".
  • q هو الكسر الخاص بأمثلة "0". يُرجى العلم أنّ q = (1 - p).
  • السجلّ هو عادةً السجلّ2. في هذه الحالة، تكون وحدة التشويش هي بت.

على سبيل المثال، لنفترض ما يلي:

  • 100 مثال تحتوي على القيمة "1"
  • 300 مثال تحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور هي:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال

ستتضمّن المجموعة المتوازنة تمامًا (على سبيل المثال، 200 صفر و200 واحد) انتروبيا تبلغ 1.0 بت لكل نموذج. كلما أصبحت المجموعة أكثر اختلالًا، تحرّك القصور فيها نحو 0.0.

في أشجار القرارات، تساعد الانتروبي في صياغة تحصيل المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرار التصنيف.

مقارنة الإنتروبيا بما يلي:

يُطلق على القصور غالبًا اسم قصور Shannon.

اطّلِع على المقسّم الدقيق للتصنيف الثنائي باستخدام سمات رقمية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

تكافؤ الفرص

#fairness
#Metric

مقياس المساواة لتقييم ما إذا كان النموذج يتنبأ بالنتيجة المطلوبة بشكلٍ جيد بالتساوي لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المطلوبة للنموذج هي الفئة الموجبة، سيكون الهدف هو أن يكون معدل الإيجابية الحقيقية هو نفسه لجميع المجموعات.

ترتبط المساواة في الفرص بالاحتمالات المتكافئة، ويتطلّب ذلك أن تكون كلا معدلَي الموجبَين الصائبَين ومعدّلَي الموجبَين الخاطئَين متطابقَين لجميع المجموعات.

لنفترض أنّ جامعة Glubbdubdrib تقبل كلّ من سكان Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في جزيرة Lilliput مناهج قوية لدروس الرياضيات، وتكون الغالبية العظمى من الطلاب مؤهّلة للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في Brobdingnag دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين للدخول إلى هذه الجامعات أقل بكثير. يتمّ تحقيق المساواة في الفرص للتصنيف المفضّل "تمّ قبوله" حسب الجنسية (Lilliputian أو Brobdingnagian) إذا كان من المحتمل أن يتم قبول الطلاب المؤهّلين بشكلٍ متساوٍ بغض النظر عمّا إذا كانوا من Lilliputian أو Brobdingnagian.

على سبيل المثال، لنفترض أنّ 100 طالب من جزيرة Lilliput و100 طالب من جزيرة Brobdingnag يتقدمون بطلبات إلى جامعة Glubbdubdrib، ويتم اتخاذ قرارات القبول على النحو التالي:

الجدول 1: مقدّمو الطلبات الصغار (90% منهم مؤهّلون)

  مؤهَّل غير معرَّف
تم قبوله 45 3
تم الرفض 45 7
المجموع 90 10
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 45/90 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 7/10 = 70%
النسبة المئوية الإجمالية للطلاب من جزيرة Lilliput الذين تم قبولهم: (45+3)/100 = 48%

 

الجدول 2: مقدّمو الطلبات من الشركات الكبيرة (10% منهم مؤهّلون):

  مؤهَّل غير معرَّف
تم قبوله 5 9
تم الرفض 5 81
المجموع 10 90
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 5/10 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 81/90 = 90%
النسبة المئوية الإجمالية للطلاب الذين تم قبولهم في جامعة Brobdingnagian: (5+9)/100 = 14%

تستوفي الأمثلة السابقة مبدأ المساواة في الفرص لقبول الطلاب المؤهّلين لأنّه تتوفر لطلاب "ليليبوت" المؤهّلين وطلاب "بروبنديجنان" المؤهّلين فرصة متساوية تبلغ% 50 للقبول.

على الرغم من استيفاء مقياس المساواة في الفرص، فإنّ مقياسَي المساواة التاليَين لا يتم استيفاؤهما:

  • المساواة الديمغرافية: يتم قبول طلاب Lilliputians و Brobdingnagians في الجامعة بمعدّلات مختلفة، ويُقبل 48% من طلاب Lilliputians، ولكن لا يتم قبول سوى 14% من طلاب Brobdingnagians.
  • الاحتمالات المتساوية: على الرغم من أنّ الطلاب المؤهَّلين من جزيرة Lilliput وطلاب جزيرة Brobdingnag لديهما فرصة متساوية للقبول، لا يتم استيفاء القيود الإضافية التي تقضي بأنّ الطلاب غير المؤهَّلين من جزيرة Lilliput وطلاب جزيرة Brobdingnag لديهما فرصة متساوية للرفض. يُسجّل سكان "ليبليب" غير المؤهَّلين معدّل رفض يبلغ% 70، في حين يُسجّل سكان "بروبيديناغ" غير المؤهَّلين معدّل رفض يبلغ% 90.

اطّلِع على الإنصاف: المساواة في فرص الوصول في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

الاحتمالات المتكافئة

#fairness
#Metric

مقياس لعدالة النموذج لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكلٍ متساوٍ بنفس الجودة لجميع قيم السمة الحسّاسة مع الأخذ في الاعتبار كلّ من الفئة الموجبة و الفئة السالبة، وليس فئة واحدة فقط حصريًا. بعبارة أخرى، يجب أن يكون كل من معدل الموجب الصحيح ومعدل السالب الخاطئ متطابقًا في جميع المجموعات.

ترتبط الاحتمالات المتكافئة بتكافؤ الفرص الذي لا يركز إلا على معدلات الخطأ لفئة واحدة (موجبة أو سالبة).

على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل كلّ من سكان Lilliput و Brobdingnag في برنامج رياضيات صارم. تقدّم المدراس الثانوية في جزيرة Lilliput مناهجًا دراسية قوية لدروس الرياضيات، وتكون الغالبية العظمى من الطلاب مؤهّلة للالتحاق بالبرنامج الجامعي. لا تقدّم المدراس الثانوية في مملكة Brobdingnag صفوفًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء الاحتمالات المتكافئة شرطًا بغض النظر عمّا إذا كان مقدم الطلب من جزيرة Lilliput أو Brobdingnagian، إذا كان مؤهلاً، من المرجّح أن يتم قبوله في البرنامج، وإذا لم يكن مؤهلاً، من المرجّح أن يتم رفضه.

لنفترض أنّ 100 طالب من جزيرة Lilliput و100 طالب من جزيرة Brobdingnag يتقدمون بطلبات إلى جامعة Glubbdubdrib ، ويتم اتخاذ قرارات القبول على النحو التالي:

الجدول 3: مقدّمو الطلبات الصغار (90% منهم مؤهّلون)

  مؤهَّل غير معرَّف
تم قبوله 45 2
تم الرفض 45 8
المجموع 90 10
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 45/90 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 8/10 = 80%
النسبة المئوية الإجمالية للطلاب من جزيرة Lilliput الذين تم قبولهم: (45+2)/100 = 47%

 

الجدول 4: مقدّمو الطلبات من الشركات الكبيرة (10% منهم مؤهّلون):

  مؤهَّل غير معرَّف
تم قبوله 5 18
تم الرفض 5 72
المجموع 10 90
النسبة المئوية للطلاب المؤهَّلين الذين تم قبولهم: 5/10 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 72/90 = 80%
إجمالي النسبة المئوية للطلاب من Brobdingnagian الذين تم قبولهم: (5+18)/100 = 23%

يتم استيفاء الاحتمالات المتكافئة لأنّه تتوفّر لكل من الطلاب المؤهَّلين من جزيرة Lilliput وطلاب Brobdingnagian فرصة بنسبة% 50 للقبول، بينما تتوفّر لكل من الطلاب غير المؤهَّلين من جزيرة Lilliput وطلاب Brobdingnagian فرصة بنسبة% 80 للرفض.

يتم تعريف الاحتمالات المتكافئة رسميًا في مقالة "المساواة في الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يحقّق المتنبّئ Ŷ احتمالات متكافئة بالنسبة إلى السمة المحمية "أ" والنتيجة "ص" إذا كان Ŷ و"أ" مستقلّين، شريطة أن تكون "ص" مشروطة بـ "ص"."

evals

#language
#generativeAI
#Metric

يُستخدَم بشكل أساسي كاختصار لتقييمات نموذج اللغة الضخمة. وعلى نطاق أوسع، التقييمات هي اختصار لأي شكل من أشكال التقييم.

التقييم

#language
#generativeAI
#Metric

يشير ذلك المصطلح إلى عملية قياس جودة نموذج أو مقارنة نماذج مختلفة مع بعضها.

لتقييم نموذج تعلُّم آلي مُوجَّه ، يتم عادةً تقييمه مقارنةً بمجموعة التحقّق ومجموعة الاختبار. تقييم نموذج تعلم الآلة يتضمن عادةً تقييمات أوسع نطاقًا للجودة والسلامة.

F

F1

#Metric

مقياس تصنيف ثنائي "مجمّع" يعتمد على كلّ من الدقة والتذكر. في ما يلي الصيغة:

F1=2 * precision * recallprecision + recall

لنفترض أنّ دقة النموذج واكتمال التوقعات الإيجابية لهما القيم التالية:

  • الدقة = 0.6
  • recall = 0.4

يتم احتساب F1 على النحو التالي:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

عندما تكون الدقة واكتمال التوقعات الإيجابية متشابهَين إلى حدٍ كبير (كما هو الحال في المثال السابق)، يقترب 1 من متوسطهما. عندما تختلف الدقة والتذكر بشكلٍ ملحوظ، يكون مقياس دقة الاختبار F1 أقرب إلى القيمة الأقل. على سبيل المثال:

  • الدقة = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

مقياس المساواة

#fairness
#Metric

تعريف رياضي "للإنصاف" يمكن قياسه تشمل بعض مقاييس المساواة المستخدَمة بشكل شائع ما يلي:

إنّ العديد من مقاييس المساواة متعارضة مع بعضها، راجِع مقالة عدم توافق مقاييس المساواة.

نتيجة سالبة خاطئة (FN)

#fundamentals
#Metric

مثال يتنبأ فيه النموذج عن طريق الخطأ بال الفئة السلبية. على سبيل المثال، يتنبّأ النموذج بأنّ رسالة بريد إلكتروني معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ رسالة البريد الإلكتروني هذه هي في الواقع رسالة غير مرغوب فيها.

معدّل النتائج السالبة الخاطئة

#Metric

يشير ذلك المصطلح إلى نسبة الأمثلة الموجبة الفعلية التي توقّع النموذج خطأً أنّها تنتمي إلى الفئة السالبة. تحتسب الصيغة التالية نسبة التقييمات العميلة السلبية الخاطئة:

false negative rate=false negativesfalse negatives+true positives

اطّلِع على الحدود القصوى وجدول الارتباك في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

موجب خاطئ

#fundamentals
#Metric

مثال يتنبأ فيه النموذج عن طريق الخطأ بال الفئة الموجبة. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الموجبة)، ولكن هذه الرسالة الإلكترونية ليست رسالة غير مرغوب فيها في الواقع.

اطّلِع على الحدود القصوى وجدول الارتباك في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

معدّل الموجب الخاطئ (FPR)

#fundamentals
#Metric

يشير ذلك المصطلح إلى نسبة الأمثلة السالبة الفعلية التي توقّع النموذج خطأً أنّها تنتمي إلى الفئة الموجبة. تحتسب الصيغة التالية معدّل النتيجة الإيجابية الزائفة:

false positive rate=false positivesfalse positives+true negatives

يمثّل معدل الموجب الخاطئ محور x في منحنى خاصية تشغيل جهاز الاستقبال.

اطّلِع على التصنيف: مخطّط ROC و AUC في الدورة المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

أهمية العناصر

#df
#Metric

مرادف لأهمية المتغيّرات.

نسبة النجاحات

#generativeAI
#Metric

مقياس لتقييم النص الذي ينشئه نموذج الذكاء الاصطناعي إنّ نسبة النجاح هي عدد العبارة الناتجة "الناجحة" مقسومًا على إجمالي عدد العبارات النصية الناتجة. على سبيل المثال، إذا أنشأ نموذج لغوي كبير 10 مجموعات من الرموز البرمجية، نجحت خمس منها، سيكون نسبة النجاح %50.

على الرغم من أنّ نسبة النجاح مفيدة بشكل عام في جميع الإحصاءات، فإنّ هذا المقياس مفيد في المقام الأول لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز البرمجية أو حلّ المشاكل الحسابية.

G

gini impurity

#df
#Metric

مقياس مشابه للانتروبيا الفواصل تستخدِم قيمًا مستمَدة من إما نقص gini أو الانتروبي لإنشاء الشروط للتصنيف أشجار القرارات. يتم اشتقاق تحصيل المعلومات من قصور المعلومات. لا تتوفّر عبارة مكافئة مقبولة عالميًا للمقياس المستمَد من قياس gini للشوائب، ومع ذلك، هذا المقياس غير المُسمّى مهمّ تمامًا مثل مقياس معلومات التحسين.

يُطلق على محتوى الشوائب في مقياس جيني أيضًا اسم مؤشر جيني أو جيني ببساطة.

إنّ قياس محتوى الشوائب في مقياس Gini هو احتمالية تصنيف قطعة بيانات جديدة بشكل خاطئ من التوزيع نفسه. يتم احتساب قياس gini للشوائب لمجموعة تتضمّن قيمتَين محتملتَين "0" و "1" (على سبيل المثال، التصنيفات في مشكلة التصنيف الثنائي) من الصيغة التالية:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

حيث:

  • I هي نسبة شوائب gini.
  • p هو الكسر الخاص بعيّنات "1".
  • q هو الكسر الخاص بأمثلة "0". يُرجى العلم أنّ q = 1-p

على سبيل المثال، فكِّر في مجموعة البيانات التالية:

  • تحتوي 100 تصنيف (0.25 من مجموعة البيانات) على القيمة "1".
  • تحتوي 300 تصنيف (0.75 من مجموعة البيانات) على القيمة "0".

وبالتالي، تكون الشوائب في مقياس gini هي:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

ونتيجةً لذلك، سيكون هناك احتمال بنسبة% 37.5 لصنف عشوائي من مجموعة البيانات نفسها بأن يتم تصنيفه بشكل خاطئ، ونسبة% 62.5 لصنفه بشكل صحيح.

سيكون لملصق متوازن تمامًا (على سبيل المثال، 200 صفر و200 واحد) محتوى impurity gini‏ 0.5. سيكون للتصنيف الذي يتسم بدرجة عالية من عدم التوازن قيمة impurity gini قريبة من 0.0.


H

خسارة مفصلية

#Metric

مجموعة من دوالّ الخسارة لمحاولة التصنيف، وهي مصمّمة للعثور على حدود القرار البعيدة قدر الإمكان عن كل مثال تدريبي، وبالتالي زيادة هامش الاختلاف بين الأمثلة والحدود إلى أقصى حدّ. تستخدِم KSVM خسارة المفصل (أو دالة ذات صلة، مثل خسارة المفصل المربّع). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة خسارة المفصل على النحو التالي:

loss=max(0,1(yy))

حيث يكون y هو التصنيف الصحيح، إما -1 أو +1، وy' هو المخرجات الأوّلية لنموذج التصنيف:

y=b+w1x1+w2x2+wnxn

نتيجةً لذلك، تظهر رسمة بيانية لخسارة المفصل مقارنةً بـ (y * y') على النحو التالي:

رسم بياني إحداثي يتألّف من مقطعَي خط متّصلَين يبدأ القسم الأول
          من الخط عند (-3، 4) وينتهي عند (1، 0). يبدأ الجزء الثاني من
          الخط عند النقطة (1، 0) ويستمر إلى أجل غير مسمى مع ميل
          يساوي 0.

I

عدم توافق مقاييس الإنصاف

#fairness
#Metric

فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها ولا يمكن إشباعها في الوقت نفسه نتيجةً لذلك، لا يتوفّر مقياس واحد عالمي لقياس العدالة يمكن تطبيقه على جميع مشاكل الذكاء الاصطناعي.

قد يبدو هذا الأمر محبطًا، ولكن لا يعني عدم توافق مقاييس المساواة أنّ جهود المساواة غير مجدية. بدلاً من ذلك، يقترح المؤلفان أنّه يجب تحديد العدالة بشكل سياقي لمشكلة محدّدة في الذكاء الاصطناعي، بهدف منع الأضرار المتعلّقة بحالات الاستخدام.

اطّلِع على "On the (im)possibility of fairness" لمناقشة أكثر تفصيلاً بشأن عدم توافق مقاييس المساواة.

العدالة الفردية

#fairness
#Metric

مقياس للعدالة يتحقّق مما إذا كان يتم تصنيف الأفراد المشابهين بشكل مشابه. على سبيل المثال، قد تريد أكاديمية Brobdingnagian Academy مراعاة مبادئ العدل الفردي من خلال التأكّد من أنّ احتمال قبول طالبَين حاصلَين على درجات متطابقة ودرجات متطابقة في الاختبارات المعيارية متساوٍ.

يُرجى العِلم أنّ المساواة الفردية تعتمد بالكامل على كيفية تعريفك "للتشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، ويمكنك المخاطرة بظهور مشاكل جديدة في المساواة إذا لم يرصد مقياس التشابه معلومات مهمة (مثل صرامة المنهج الدراسي للطالب).

راجِع مقالة "تحقيق العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.

اكتساب المعلومات

#df
#Metric

في غابات القرارات، الفرق بين القصور في أحد الأجزاء وsummation المرجح (حسب عدد الأمثلة) لقصور أجزائه الفرعية القصور في أحد الأجزاء هو القصور للعيّنات في ذلك الجزء.

على سبيل المثال، راجِع قيم التشويش التالية:

  • إنتروبيا العقدة الرئيسية = 0.6
  • قصور عقدة فرعية واحدة تتضمّن 16 مثالاً ذا صلة = 0.2
  • ينطبق القصور على عقدة فرعية أخرى تحتوي على 24 مثالاً ذا صلة = 0.1

وبالتالي، فإنّ% 40 من الأمثلة متوفّرة في عقدة فرعية واحدة و% 60 في العقدة الفرعية الأخرى. ولذلك:

  • مجموع القصور المرجح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

وبالتالي، فإنّ تحصيل المعلومات هو:

  • اكتساب المعلومات = قصور الجزء الأصلي - مجموع القصور المرجح للأجزاء الفرعية
  • معلومات مكتسَبة = 0.6 - 0.14 = 0.46

تسعى معظم الفاصلات إلى إنشاء شروط تحقّق أقصى قدر من المعلومات.

توافق المقيّمين

#Metric

مقياس لعدد المرات التي يتفق فيها المقيّمون عند تنفيذ مهمة معيّنة إذا لم يتفق المراجعون، قد تحتاج تعليمات المهمة إلى التحسين. يُعرف هذا المقياس أحيانًا باسم الاتّفاق بين المعلِنين أو موثوقية التقييم بين المقيّمين. اطّلِع أيضًا على kappa، وهو أحد أشهر مقاييس اتفاق الخبراء.

اطّلِع على البيانات الفئوية: المشاكل الشائعة في دورة تعلُّم الآلة المكثّفة للحصول على مزيد من المعلومات.

L

خسارة L1

#fundamentals
#Metric

دالة خسارة تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج على سبيل المثال، في ما يلي حسابخسارة L1 لمجموعة تتألف من خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتوقّعة للنموذج القيمة المطلقة لدلتا
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = خسارة L1

إنّ خسارة L1 أقل حساسية تجاه القيم الشاذة مقارنةً بخسارة L2.

متوسط الخطأ المطلق هو متوسط خسائر L1 لكل مثال.

L1loss=i=0n|yiy^i|

where:
  • n هو عدد الأمثلة.
  • y هي القيمة الفعلية للتصنيف.
  • y^ هي القيمة التي يتوقّعها النموذج لـ y.

اطّلِع على الانحدار الخطي: الخسارة في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على مزيد من المعلومات.

خسارة L2

#fundamentals
#Metric

دالة خسارة تعمل على احتساب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتنبّأ بها النموذج. على سبيل المثال، في ما يلي حساب خسارة L2 لمجموعة من خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتوقّعة للنموذج مربّع دلتا
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = خسارة L2

بسبب التربيع، يضخّم فقدان L2 تأثير القيم الشاذة. وهذا يعني أنّ خسارة L2 تستجيب بشكلٍ أقوى للتوقّعات السيئة مقارنةً بخسارة L1. على سبيل المثال، سيكون فقدان L1 للمجموعة السابقة هو 8 بدلاً من 16. يُرجى العلم أنّ قيمة واحدة شاذة تمثّل 9 من القيم الـ 16.

تستخدِم نماذج الانحدار عادةً خسارة L2 كدالة الخسارة.

متوسط الخطأ التربيعي هو متوسط خسائر L2 لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة L2.

L2loss=i=0n(yiy^i)2

where:
  • n هو عدد الأمثلة.
  • y هي القيمة الفعلية للتصنيف.
  • y^ هي القيمة التي يتوقّعها النموذج لـ y.

اطّلِع على الانحدار اللوجستي: الخسارة و التسوية في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على مزيد من المعلومات.

تقييمات النماذج اللغوية الكبيرة (evals)

#language
#generativeAI
#Metric

مجموعة من المقاييس والمقاييس المعيارية لتقييم أداء النماذج اللغوية الكبيرة بشكل عام، تؤدي تقييمات LLM إلى ما يلي:

  • مساعدة الباحثين في تحديد الجوانب التي تحتاج إلى تحسين في النماذج اللغوية الكبيرة
  • مفيدة في مقارنة نماذج اللغة الكبيرة المختلفة وتحديد أفضل نموذج لغة كبيرة مهمة معيّنة
  • المساعدة في ضمان أمان النماذج اللغوية الكبيرة واستخدامها بطريقة أخلاقية

اطّلِع على النماذج اللغوية الكبيرة (LLM) في دورة التعلّم الآلي المكثّفة للحصول على مزيد من المعلومات.

خسارة

#fundamentals
#Metric

خلال تدريب نموذج خاضع للإشراف، يتم قياس مدى اقترارب توقّعات النموذج من تصنيفه.

تحسب دالة الخسارة الخسارة.

اطّلِع على الانحدار الخطي: الخسارة في الدورة التدريبية المكثّفة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

دالة الخسارة

#fundamentals
#Metric

أثناء التدريب أو الاختبار، يتم استخدام دالة رياضية تحسب الخسارة في مجموعة من الأمثلة. تُعرِض دالة الخسارة خسائر أقل للنماذج التي تُقدّم توقّعات جيدة مقارنةً بالنماذج التي تقدّم توقّعات سيئة.

عادةً ما يكون هدف التدريب هو تقليل الخسارة التي تعرِضها دالة الخسارة.

هناك العديد من الأنواع المختلفة لدوالّ الخسارة. اختَر دالة الفقد المناسبة لنوع النموذج الذي تُنشئه. على سبيل المثال:

M

متوسّط الخطأ المطلق (MAE)

#Metric

متوسط الخسارة لكل نموذج عند استخدام فقدان1 يمكنك احتساب متوسّط الخطأ المطلق على النحو التالي:

  1. احتساب خسارة L1 لمجموعة.
  2. قسِّم خسارة L1 على عدد النماذج في المجموعة.

Mean Absolute Error=1ni=0n|yiy^i|

حيث:

  • n هو عدد الأمثلة.
  • y هي القيمة الفعلية للتصنيف.
  • y^ هي القيمة التي يتوقّعها النموذج لـ y.

على سبيل المثال، لنأخذ في الاعتبار احتساب خسارة L1 في الحزمة التالية من خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتوقّعة للنموذج الخسارة (الفرق بين القيم الفعلية والقيم المتوقّعة)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = خسارة L1

وبالتالي، تكون خسارة L1 هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

قارِن بين متوسّط الخطأ المطلق ومتوسط الخطأ التربيعي و جذر متوسّط الخطأ التربيعي.

متوسّط متوسط الدقّة عند k (mAP@k)

#language
#generativeAI
#Metric

المتوسط الإحصائي لجميع نتائج متوسّط الدقة عند k على مستوى مجموعة بيانات التحقّق. من بين استخدامات متوسّط متوسط الدقة عند k هو تقييم جودة الاقتراحات التي ينشئها نظام التوصية.

على الرغم من أنّ عبارة "متوسط المتوسط" تبدو زائدة، إلا أنّ اسم المقياس مناسب. بعد كل شيء، يجد هذا المقياس متوسّط قيم متوسط الدقة عند k المتعددة.

لنفترض أنّك أنشأت نظام اقتراحات ينشئ قائمة مخصّصة بالروايات المقترَحة لكل مستخدم. استنادًا إلى الملاحظات الواردة من مستخدمين محدّدين، يمكنك احتساب متوسط الدقة الخمسة التالي عند k درجة (درجة واحدة لكل مستخدم):

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

وبالتالي، فإنّ متوسّط "متوسّط الدقة" عند K هو:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

الخطأ التربيعي المتوسط (MSE)

#Metric

متوسّط الخسارة لكل نموذج عند استخدام فقدان2 يمكنك احتساب الخطأ التربيعي المتوسط على النحو التالي:

  1. احتساب خسارة L2 لمجموعة.
  2. قسِّم خسارة L2 على عدد النماذج في الحزمة.
Mean Squared Error=1ni=0n(yiy^i)2
where:
  • n هو عدد الأمثلة.
  • y هي القيمة الفعلية للتصنيف.
  • y^ هو توقّع النموذج لـ y.

على سبيل المثال، فكِّر في الخسارة في المجموعة التالية من خمسة أمثلة:

القيمة الفعلية توقّعات النموذج الخسارة الخسارة التربيعية
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = خسارة L2

وبالتالي، يكون الخطأ التربيعي المتوسط على النحو التالي:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

"متوسط الخطأ التربيعي" هو أداة تحسين شائعة للتدريب، ويُستخدم بشكل خاص في الانحدار الخطي.

قارِن بين الخطأ التربيعي المتوسّط ومتوسط الخطأ المطلق وجذر الخطأ التربيعي المتوسّط.

يستخدم TensorFlow Playground متوسّط الخطأ المربّع لاحتساب قيم الخسارة.

تؤثر القيم الشاذة بقوة في الخطأ التربيعي المتوسّط. على سبيل المثال، الخسارة التي تبلغ 1 هي خسارة تربيعية تبلغ 1، ولكن الخسارة التي تبلغ 3 هي خسارة تربيعية تبلغ 9. في الجدول السابق، يمثّل المثال الذي تم فيه فقدان 3 بيانات% 56 تقريبًا من متوسّط الخطأ التربيعي، في حين أنّ كلّ مثال من الأمثلة التي تم فيها فقدان بيانات واحدة يمثّل% 6 فقط من متوسّط الخطأ التربيعي.

لا تؤثّر القيم الشاذة في متوسّط الخطأ المطلق بقدر ما تؤثّر في متوسّط الخطأ التربيعي. على سبيل المثال، يمثّل فقدان 3 حسابات% 38 تقريبًا من متوسّط الخطأ المطلق.

الاقتصاص هو إحدى الطرق لمنع القيمة المتطرفة للقيم الشاذة من التأثير سلبًا في قدرة النموذج على التوقّع.


المقياس

#TensorFlow
#Metric

إحصاءات تهمّك

الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.

Metrics API (tf.metrics)

#Metric

واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، tf.metrics.accuracy تُحدِّد عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.

خسارة الحد الأدنى والأقصى

#Metric

دالة خسارة ل الشبكات التوليدية التنافسية، استنادًا إلى التشتت بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية

يتم استخدام خسارة Minimax في الورقة الأولى لوصف الشبكات التوليدية التنافسية.

اطّلِع على وظائف الخسارة في دورة الشبكات التوليدية التنافسية للحصول على مزيد من المعلومات.

سعة النموذج

#Metric

تعقيد المشاكل التي يمكن للنموذج تعلُّمها وكلما زادت تعقيدًا المشاكل التي يمكن للنموذج تعلُّمها، زادت قدرة النموذج. وعادةً ما تزداد قدرة النموذج مع زيادة عدد مَعلمات النموذج. للحصول على تعريف رسمي لسعة المصنِّف، يُرجى الاطّلاع على سمة VC.

لا

فئة سلبية

#fundamentals
#Metric

في التصنيف الثنائي، يُطلق على أحد التصنيفَين اسم موجب والآخر اسم سالب. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمالية الأخرى. على سبيل المثال:

  • قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
  • قد تكون الفئة السلبية في أحد أدوات تصنيف الرسائل الإلكترونية هي "غير رسالة غير مرغوب فيها".

يختلف عن الفئة الموجبة.

O

هدف

#Metric

مقياس تحاول الخوارزمية تحسينه.

دالة الهدف

#Metric

الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، تكون الدالة الهدف لتحليل الانحدار الخطي عادةً متوسط الخسارة المربّعة. لذلك، عند تدريب نموذج الانحدار الخطي، يهدف التدريب إلى تقليل متوسط الخسارة المربّعة.

في بعض الحالات، يكون الهدف هو زيادة الدالة الهدف إلى أقصى حد. على سبيل المثال، إذا كانت الدالة الموضوعية هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حدّ.

اطّلِع أيضًا على الخسارة.

P

pass at k (pass@k)

#Metric

مقياس لتحديد جودة الرمز البرمجي (مثل Python) الذي ينشئه نموذج لغوي كبير وعلى وجه التحديد، يشير المرور عند k إلى احتمال أن يجتاز دستة واحدة على الأقل من k دستة من مجموعات الرموز البرمجية التي تم إنشاؤها جميع اختبارات الوحدة.

غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء رمز برمجي جيد لمعالجة المشاكل البرمجية المعقدة. يتعامل مهندسو البرمجيات مع هذه المشكلة من خلال طلب إنشاء نموذج اللغة الكبير لعدة (k) حلول للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حلّ من الحلول باستخدام اختبارات الوحدة. يعتمد احتساب المرور في k على نتيجة اختبارات الوحدة:

  • إذا اجتاز حلّ واحد أو أكثر من هذه الحلول اختبار الوحدة، يعني ذلك أنّ نموذج اللغة الضخم اجتاز تحدّي إنشاء الرمز البرمجي.
  • إذا لم يجتاز أيّ من الحلول اختبار الوحدة، يفشل نموذج التعلم الآلي المتقدّم في حلّ هذا التحدي المتعلّق بإنشاء الرموز البرمجية.

في ما يلي صيغة المرور عند k:

pass at k=total number of passestotal number of challenges

بشكل عام، تؤدي القيم الأعلى k إلى الحصول على نتائج أعلى في نتائج k، ومع ذلك، تتطلّب القيم الأعلى k المزيد من موارد اختبار الوحدات والنماذج اللغوية الكبيرة.

لنفترض أنّ مهندس برامج طلب من نموذج لغوي كبير إنشاء k=10 حلول n=50 لمشكلة ترميز صعبة. في ما يلي النتائج:

  • 30 بطاقة
  • 20 عملية تعذّر فيها الربط

بالتالي، تكون درجة النجاح عند 10 هي:

pass at 10=3050=0.6

الأداء

#Metric

مصطلح يحمل معاني متعدّدة:

  • المعنى العادي في مجال هندسة البرمجيات على وجه التحديد: ما مدى سرعة (أو كفاءة) تشغيل هذا البرنامج؟
  • المعنى في مجال تعلُّم الآلة يجيب مقياس الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي، ما مدى جودة توقّعات النموذج؟

أهمية متغيّرات التبديل

#df
#Metric

نوع من أهمية المتغيّر الذي يُقيّم الزيادة في خطأ التوقّع لنموذج بعد تبديل قيم السمة إنّ أهمية متغيّر التبادل هو مقياس مستقل عن النموذج.

الارتباك

#Metric

أحد مقاييس مدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يقرؤها أحد المستخدمين على لوحة مفاتيح الهاتف، وتقديم قائمة بكلمات التكمّل المحتملة. إنّ مستوى الحيرة P لهذه المهمة هو تقريبًا عدد التخمينات التي تحتاج إلى تقديمها لكي تحتوي قائمتك على الكلمات التي يحاول المستخدم كتابتها.

يرتبط الالتباس بالإنتروبيا المتداخلة على النحو التالي:

P=2cross entropy

فئة موجبة

#fundamentals
#Metric

الفئة التي تختبرها.

على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الموجبة في أحد أدوات تصنيف الرسائل الإلكترونية هي "غير مرغوب فيها".

على عكس الفئة السلبية.

يمكن أن يكون مصطلح الفئة الموجبة مربكًا لأنّ النتيجة "الإيجابية" لكثير من الاختبارات غالبًا ما تكون نتيجة غير مرغوب فيها. على سبيل المثال، تتوافق الفئة الإيجابية في العديد من الاختبارات الطبية مع الأورام أو الأمراض. بشكل عام، تريد أن يخبرك الطبيب: "تهانينا، كانت نتائج اختبارك سلبية". بغض النظر عن ذلك، فإنّ الفئة الموجبة هي الحدث الذي يحاول الاختبار العثور عليه.

من المُعترَف به أنّك تختبر في الوقت نفسه كلاً من الفئتَين الإيجابية والسلبية.


مساحة تحت منحنى PR (المساحة تحت منحنى PR)

#Metric

المنطقة تحت منحنى الدقة-الاسترجاع الذي تمّت إضافته، والذي تمّ الحصول عليه من خلال رسم نقاط (الاسترجاع، الدقة) لقيم مختلفة من عتبة التصنيف.

الدقة

#Metric

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتنبؤات الصحيحة؟

في ما يلي الصيغة:

Precision=true positivestrue positives+false positives

حيث:

  • النتيجة الموجبة الصحيحة تعني أنّ النموذج تنبأ بشكل صحيح بالفئة الموجبة.
  • تشير الحالة الإيجابية الخاطئة إلى أنّ النموذج أخطأ في التنبؤ بالفئة الإيجابية.

على سبيل المثال، لنفترض أنّ نموذجًا قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية الـ 200:

  • وبلغ عدد الحالات الموجبة الصحيحة 150 حالة.
  • وبلغ عدد النتائج الموجبة الخاطئة 50 نتيجة.

في هذه الحالة:

Precision=150150+50=0.75

يختلف هذا المقياس عن الدقة واكتمال التوقعات الإيجابية.

اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة في الدورة التدريبية المكثّفة لتعلُّم الآلة للحصول على مزيد من المعلومات.

الدقة عند k (precision@k)

#language
#Metric

مقياس لتقييم قائمة مرتّبة (مُرتّبة) من العناصر تحدِّد الدقة عند k النسبة المئوية لأول k عنصر في هذه القائمة التي تكون "ملائمة". والمقصود:

precision at k=relevant items in first k items of the listk

يجب أن تكون قيمة k أقل من أو مساوية لطول القائمة المعروضة. يُرجى العلم أنّ طول القائمة المعروضة ليس جزءًا من العملية الحسابية.

غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى الخبراء لا يتفقون في أغلب الأحيان على العناصر التي تكون ملائمة.

المقارنة بـ:

لنفترض أنّه تم تقديم الطلب التالي إلى نموذج لغوي كبير:

List the 6 funniest movies of all time in order.

ويعرض النموذج اللغوي الكبير القائمة الموضّحة في العمودَين الأولَين من الجدول التالي:

الموضع فيلم هل هذا المحتوى ذي صلة؟
1 The General نعم
2 Mean Girls نعم
3 Platoon لا
4 وصيفات العروس نعم
5 Citizen Kane لا
6 This is Spinal Tap نعم

فيلمان من أوّل ثلاثة أفلام هما ذا صلة، لذا تكون الدقة عند 3 هي:

precision at 3=23=0.67

أربعة من أوّل خمسة أفلام مضحكة جدًا، لذا تكون الدقة عند 5 هي:

precision at 5=45=0.8

منحنى الدقة والاستذكار

#Metric

منحنى الدقة في مقابل الاسترجاع عند مختلف عتبات التصنيف

انحياز التوقّعات

#Metric

قيمة تشير إلى مدى بُعد متوسّط التوقّعات عن متوسّط التصنيفات في مجموعة البيانات.

يجب عدم الخلط بين هذا المصطلح ومصطلح التحيز في نماذج تعلُّم الآلة أو التحيز في الأخلاق والعدالة.

التكافؤ التوقّعي

#fairness
#Metric

مقياس المساواة الذي يتحقّق مما إذا كانت معدّلات الدقة متكافئة للمجموعات الفرعية المعنيّة، وذلك بالنسبة إلى مصنّف معيّن.

على سبيل المثال، سيستوفي النموذج الذي يتوقّع قبول الطلاب في الجامعات قياس التكافؤ التوقّعي للجنسية إذا كان معدّل الدقّة متطابقًا لكل من سكان جزيرة ليليبوت وسكان جزيرة بلوبيديغناج.

يُعرف التكافؤ التوقّعي أحيانًا أيضًا باسم التكافؤ التوقّعي للسعر.

اطّلِع على "تعريفات الإنصاف الموضّحة" (القسم 3.2.1) لمناقشة أكثر تفصيلاً عن المساواة التوقّعية.

التكافؤ في الأسعار القائمة على التوقّعات

#fairness
#Metric

اسم آخر للتطابق التوقّعي

دالة الكثافة الاحتمالية

#Metric

دالة لتحديد معدّل تكرار عيّنات البيانات التي تحتوي بالضبط على قيمة معيّنة عندما تكون قيم مجموعة البيانات هي أرقام برمجية متسلسلة بفاصل علامة عشرية، نادرًا ما تحدث المطابقات التامّة. ومع ذلك، فإنّ دمج دالة كثافة احتمالية من القيمة x إلى القيمة y ينتج عنه معدّل تكرار متوقع لعينات البيانات بين x وy.

على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا يبلغ متوسطه 200 و انحرافًا معياريًا يبلغ 30. لتحديد معدّل تكرار عيّنات البيانات الواقعة ضمن النطاق 211.4 إلى 218.7، يمكنك دمج دالة كثافة احتمالية التوزيع الطبيعي من 211.4 إلى 218.7.

R

تذكُّر الإعلان

#Metric

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتنبؤات التي رصدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟

في ما يلي الصيغة:

Recall=true positivestrue positives+false negatives

حيث:

  • النتيجة الموجبة الصحيحة تعني أنّ النموذج تنبأ بشكل صحيح بالفئة الموجبة.
  • يعني التقييم الخاطئ سلبيًا أنّ النموذج أخطأ في التنبؤ بالنتيجة الفئة السلبية.

على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الإيجابية. من بين هذه التوقعات الـ 200:

  • وبلغ عدد الحالات الموجبة الصحيحة 180 حالة.
  • وكانت هناك 20 حالة سلبية خاطئة.

في هذه الحالة:

Recall=180180+20=0.9

تكون دقة التذكر مفيدة بشكل خاص لتحديد القدرة التنبؤية ل نماذج التصنيف التي تكون فيها الفئة الموجبة نادرة. على سبيل المثال، لنفترض أنّ لدينا مجموعة بيانات غير متوازنة من حيث الفئات حيث تظهر الفئة الإيجابية لمرض معيّن في 10 مرضى فقط من بين مليون مريض. لنفترض أنّ نموذجك يقدّم خمسة ملايين توقّع تؤدي إلى النتائج التالية:

  • 30 موجبًا صحيحًا
  • 20 نتيجة سالبة خاطئة
  • 4,999,000 نتيجة سالبة صحيحة
  • 950 موجبًا خاطئًا

وبالتالي، فإنّ نسبة استرجاع هذا النموذج هي:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
على النقيض من ذلك، دقة هذا النموذج هي:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

تبدو قيمة الدقة العالية هذه مثيرة للإعجاب، ولكنها لا تعني شيئًا في الأساس. إنّ دقة التذكر هي مقياس أكثر فائدةً لمجموعات البيانات غير المتوازنة الفئات من الدقة.


اطّلِع على التصنيف: الدقة ومعدل الاسترجاع والدقة والمقاييس المتعلّقة لمزيد من المعلومات.

تذكُّر عند k (recall@k)

#language
#Metric

مقياس لتقييم الأنظمة التي تُخرج قائمة مرتّبة (مُرتّبة) بالعناصر. يحدِّد "التذكُّر عند k" نسبة العناصر ذات الصلة في أوّل k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي يتم عرضها.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

يُرجى الاطّلاع على الدقة عند k.

لنفترض أنّ نموذجًا لغويًا كبيرًا تم تقديم الطلب التالي إليه:

List the 10 funniest movies of all time in order.

ويعرض النموذج اللغوي الكبير القائمة المعروضة في أول عمودين:

الموضع فيلم هل هذا المحتوى ذي صلة؟
1 The General نعم
2 Mean Girls نعم
3 Platoon لا
4 وصيفات العروس نعم
5 This is Spinal Tap نعم
6 طائرة نعم
7 Groundhog Day نعم
8 Monty Python and the Holy Grailنعم
9 Oppenheimer‫ لا
10 Clueless نعم

ثمانية من الأفلام في القائمة السابقة مضحكة جدًا، لذا فهي "عناصر ذات صلة في القائمة". وبالتالي، سيكون العدد 8 هو المقام في جميع عمليات احتساب دقة التذكر عند k. ماذا عن البسط؟ حسنًا، 3 من العناصر الأربعة الأولى ذات صلة، لذا فإنّ نسبة التذكر عند 4 هي:

recall at 4=38=0.375

7 من أوّل 8 أفلام مضحكة جدًا، لذا تكون نسبة التذكّر عند 8 هي:

recall at 8=78=0.875

منحنى ROC (خاصية تشغيل جهاز الاستقبال)

#fundamentals
#Metric

رسم بياني لمعدل الموجب الصحيح مقابل معدل الموجب الخاطئ لحدود التصنيف المختلفة في التصنيف الثنائي

يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الموجبة عن الفئات السالبة. لنفترض مثلاً أنّ نموذج التصنيف الثنائي يفصل تمامًا بين جميع فئات السلبية وجميع فئات الإيجابية:

خطّ أعداد يتضمّن 8 أمثلة إيجابية على الجانب الأيمن
          7 أمثلة سلبية على الجانب الأيسر

يظهر منحنى ROC للنموذج السابق على النحو التالي:

منحنى ROC المحور x هو "معدل الموجب الخاطئ" والمحور y هو
          "النسبة الموجبة الصائبة". يكون المنحنى على شكل حرف L مقلوب. يبدأ المنحنى
          عند (0.0,0.0) ويرتفع مباشرةً إلى (0.0,1.0). بعد ذلك، ينتقل المنحنى
          من (0.0,1.0) إلى (1.0,1.0).

في المقابل، يعرض الرسم التوضيحي التالي قيم الانحدار اللوجستي التلقائية لنموذج سيئ لا يمكنه فصل الفئات السلبية عن الفئات الإيجابية على الإطلاق:

خطّ أعداد يتضمّن أمثلة إيجابية وفئات سلبية
          مختلطة تمامًا

يظهر منحنى ROC لهذا النموذج على النحو التالي:

منحنى ROC، وهو في الواقع خط مستقيم من (0.0,0.0)
          إلى (1.0,1.0).

في الوقت نفسه، في العالم الواقعي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حدّ ما، ولكن ليس بشكلٍ مثالي عادةً. وبالتالي، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأدنى والأعلى:

منحنى ROC المحور x هو "معدل الموجب الخاطئ" والمحور y هو
          "النسبة الموجبة الصائبة". يشبه منحنى ROC قوسًا متذبذبًا
          يقطع نقاط البوصلة من الغرب إلى الشمال.

تحدِّد النقطة على منحنى ROC الأقرب إلى (0.0,1.0) نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر عدة مشاكل أخرى في العالم الواقعي في اختيار الحدّ الأمثل للتصنيف. على سبيل المثال، قد تتسبب النتائج السلبية الخاطئة في مشاكل أكثر بكثير من النتائج الموجبة الخاطئة.

يلخِّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة بفاصل عشري.

جذر الخطأ التربيعي المتوسّط (RMSE)

#fundamentals
#Metric

الجذر التربيعي للخطأ التربيعي المتوسّط

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

مجموعة من المقاييس التي تقيِّم نماذج التلخيص التلقائي والترجمة الآلية. تحدِّد مقاييس ROUGE درجة تداخل النص المرجعي مع النص الذي أنشأه نموذج الذكاء الاصطناعي (ML). تتداخل مقاييس عائلة ROUGE بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.

ينشئ كل فرد من عائلة ROUGE عادةً المقاييس التالية:

  • الدقة
  • التذكُّر
  • F1

لمعرفة التفاصيل والأمثلة، يُرجى الاطّلاع على:

ROUGE-L

#language
#Metric

أحد أفراد عائلة ROUGE يركز على طول أطول تسلسل فرعي شائع في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية دقة ومستوى التذكر لـ ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

يمكنك بعد ذلك استخدام F1 لتجميع دقة ROUGE-L ومستوى استرجاع ROUGE-L في مقياس واحد:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
راجِع النص المرجعي والنص الذي تم إنشاؤه أدناه.
الفئة من المنتج؟ نص
نص المرجع مترجم بشري أريد فهم مجموعة كبيرة من المواضيع.
النص الذي تم إنشاؤه نموذج تعلُّم الآلة أريد تعلُّم الكثير من الأشياء.
لذلك:
  • أطول تسلسل فرعي شائع هو 5 (أريد من الأشياء)
  • عدد الكلمات في النص المرجعي هو 9.
  • عدد الكلمات في النص الذي تم إنشاؤه هو 7.
نتيجةً لذلك:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

يتجاهل مقياس ROUGE-L أيّ أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذلك يمكن أن يشمل أطول تسلسل فرعي مشترك عدّة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه عدة جمل، يكون ROUGE-Lsum، وهو أحد أشكال مقياس ROUGE-L، مقياسًا أفضل بشكل عام. يحدِّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحتسِب متوسّط هذه التسلسلات الفرعية المشتركة الأطول.

راجِع النص المرجعي والنص الذي تم إنشاؤه أدناه.
الفئة من المنتج؟ نص
نص المرجع مترجم بشري سطح المريخ جاف. تقع كل المياه تقريبًا في أماكن عميقة تحت الأرض.
النص الذي تم إنشاؤه نموذج تعلُّم الآلة سطح المريخ جاف. ومع ذلك، فإنّ الغالبية العظمى من المياه تكون تحت الأرض.
ولذلك:
الجملة الأولى الجملة الثانية
أطول تسلسل مشترك2 (مرحبًا) 3 (المياه تحت الأرض)
طول الجملة في نص المرجع 6 7
طول الجملة في النص الذي تم إنشاؤه 5 8
نتيجةً لذلك:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

مجموعة من المقاييس ضمن عائلة ROUGE التي تقارن بين النصوص المشتركة التي تتألف من عدد معيّن من الكلمات في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:

  • يقيس مقياس ROUGE-1 عدد الرموز المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.
  • يقيس مقياس ROUGE-2 عدد الثنائيات (الكلمات المكونة من كلمتَين) المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.
  • يقيس مقياس ROUGE-3 عدد الثلاثيات (3-grams) المشترَكة في النص المرجعي والنص الذي تم إنشاؤه.

يمكنك استخدام الصيغ التالية لاحتساب تذكر ROUGE-N و دقة ROUGE-N لأيّ عضو من عائلة ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

يمكنك بعد ذلك استخدام F1 لتجميع دقة ROUGE-N ومستوى استرجاع ROUGE-N في مقياس واحد:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
لنفترض أنّك قرّرت استخدام ROUGE-2 لقياس مدى فعالية ترجمة نموذج تعلُّم الآلة مقارنةً بترجمة مترجم بشري.
الفئة من المنتج؟ نص الثنائيات
نص المرجع مترجم بشري أريد فهم مجموعة كبيرة من المواضيع. أريد، أريد أن، أن أفهم، أفهم مجموعة، مجموعة كبيرة، متنوعة من، من الأشياء
النص الذي تم إنشاؤه نموذج تعلُّم الآلة أريد تعلُّم الكثير من الأشياء. أريد، أريد، أن أتعلم، أن أتعلم الكثير، الكثير من، من الأشياء
لذلك:
  • عدد الثنائيات المطابقة هو 3 (أريد وأريد و من الأشياء).
  • عدد الثنائيات في النص المرجعي هو 8.
  • عدد الثنائيات في النص الذي تم إنشاؤه هو 6.
نتيجةً لذلك:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

يُعدّ هذا المقياس من ROUGE-N أكثر تساهلاً، إذ يتيح مطابقة الجمل القصيرة. وهذا يعني أنّ ROUGE-N لا يحسب سوى النصوص التي تتكوّن من وحدات أساسية بحجم N التي تتطابق تمامًا، ولكنّ ROUGE-S يحسب أيضًا النصوص التي تتكوّن من وحدات أساسية بحجم N مفصولة بكلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:

عند احتساب مقياس ROUGE-N، لا يتطابق الثنائي السحب البيضاء مع السحب البيضاء المتصاعدة. ومع ذلك، عند احتساب مقياس ROUGE-S، يتطابق السحب البيضاء مع السحب البيضاء المتصاعدة.

معامل التحديد

#Metric

مقياس الانحدار الذي يشير إلى مقدار التباين في التصنيف الناتج عن ميزة فردية أو مجموعة ميزات "مربّع R" هو قيمة تتراوح بين 0 و1، ويمكنك تفسيرها على النحو التالي:

  • تعني قيمة R المربّع 0 أنّ أيّ من التباين في التصنيف لا يرجع إلى مجموعة السمات.
  • يعني مقياس R المربّع الذي يساوي 1 أنّ جميع الاختلافات في التصنيف تعود إلى مجموعة الميزات.
  • يشير مقياس R المربّع الذي يتراوح بين 0 و1 إلى مدى إمكانية توقّع اختلاف العلامة من ميزة معيّنة أو مجموعة ميزات. على سبيل المثال، تعني قيمة "مربع R" التي تبلغ 0.10 أنّ 10% من التباين في التصنيف يرجع إلى مجموعة الميزات، وتعني قيمة "مربع R" التي تبلغ 0.20 أنّ 20% يرجع إلى مجموعة الميزات، وهكذا.

‫R المربّع هو مربّع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.

S

تسجيل النتائج

#recsystems
#Metric

الجزء من نظام الاقتراحات الذي يقدّم قيمة أو ترتيبًا لكل عنصر تم إنشاؤه في مرحلة إنشاء الاقتراحات

مقياس التشابه

#clustering
#Metric

في خوارزميات التجميع العنقودي، هو المقياس المستخدَم لتحديد مدى تشابه أي مثالَين.

مقياس التناثر

#Metric

عدد العناصر التي تم ضبطها على القيمة صفر (أو القيمة الخالية) في متجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، تفكّر في مصفوفة تتألف من 100 عنصر تحتوي فيها 98 خلية على صفر. يتم احتساب الكثافة على النحو التالي:

sparsity=98100=0.98

تشير التراخي في الخصائص إلى التراخي في أحد خطوط الخصائص، ويشير التراخي في النموذج إلى التراخي في أوزان النموذج.

تربيع الخسارة المفصلية

#Metric

تربيع الخسارة المفصلية تفرض "خسارة المفصلية المربّعة" عقوبات على القيم الشاذة أكثر من "خسارة المفصلية" العادية.

الخسارة التربيعية

#fundamentals
#Metric

مرادف لخسارة L2.

T

خسارة الاختبار

#fundamentals
#Metric

مقياس يمثّل الخسارة للنموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل الخسارة في الاختبار. ويعود السبب في ذلك إلى أنّ انخفاض خسائر الاختبار يمثّل إشارة جودة أقوى من انخفاض خسائر التدريب أو انخفاض خسائر التحقّق.

في بعض الأحيان، يشير الاختلاف الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق إلى أنّه عليك زيادة معدّل التنظيم.

دقة أفضل k

#language
#Metric

النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أوّل ك موضع من القوائم التي تم إنشاؤها. يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بالعناصر مرتبة حسب softmax.

تُعرف دقة أفضل k عناصر أيضًا باسم الدقة عند k.

لنفترض أنّ هناك نظام تعلُّم آلة يستخدم دالة softmax لتحديد احتمالات ظهور الأشجار استنادًا إلى صورة لأوراق الأشجار. يعرض الجدول التالي قوائم النتائج التي تم إنشاؤها من خمس صور أشجار مُدخلة. يحتوي كل صف على تصنيف مستهدَف والأشجار الخمسة الأكثر احتمالًا. على سبيل المثال، عندما كان التصنيف المستهدَف هو الدردار، حدّد نموذج تعلُّم الآلة الصفصاف باعتباره الشجرة التي يُرجّح أن تظهر في الصورة بنسبة أكبر، والبلوط باعتباره الشجرة التي يُرجّح أن تظهر في الصورة بنسبة أقل، وما إلى ذلك.

تصنيف الاستهداف 1 2 3 4 5
قيقب الدردار بلوط maple زان حور
قرانيا بلوط dogwood حور hickory قيقب
بلوط البلوط خشب الزيزفون الجراد جار الماء linden
linden قيقب paw-paw بلوط خشب الزيزفون حور
بلوط الجراد linden البلوط قيقب paw-paw

يظهر التصنيف المستهدَف في الموضع الأول مرة واحدة فقط، لذا فإنّ دقة التصنيفات الواردة في أعلى القائمة هي:

top-1 accuracy=15=0.2

يظهر التصنيف المستهدَف في أحد المراكز الثلاثة الأولى أربع مرات، وتكون دقة أهم 3 تصنيفات على النحو التالي:

top-1 accuracy=45=0.8

لغة غير لائقة

#language
#Metric

درجة مساءة المحتوى أو تهديده أو إساءته يمكن للعديد من نماذج تعلُّم الآلة تحديد المحتوى السام وقياسه. ترصد معظم هذه النماذج المحتوى المسيء استنادًا إلى مَعلمات متعدّدة، مثل مستوى اللغة المسيئة ومستوى اللغة التهديدية.

فقدان التدريب

#fundamentals
#Metric

مقياس يمثّل الخسارة للنموذج أثناء دورة تدريب معيّنة على سبيل المثال، لنفترض أنّ دالة الخسارة هي متوسط الخطأ التربيعي. قد يكون فقدان التدريب (متوسط الخطأ التربيعي) للتكرار 10 هو 2.2، وفقدان التدريب للتكرار 100 هو 1.9.

يوضِّح منحنى الخسارة خسارة التدريب مقارنةً بعدد المرات المتكرّرة. يوفّر منحنى الخسارة التلميحَين التاليَين عن التدريب:

  • يشير الانحدار إلى الأسفل إلى أنّ النموذج يتحسّن.
  • يشير الانحدار التصاعدي إلى أنّ أداء النموذج يزداد سوءًا.
  • يشير المنحدر المستوي إلى أنّ النموذج وصل إلى مرحلة التقارب.

على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حدٍ ما ما يلي:

  • منحدر حادّ للأسفل أثناء النُسخ الأولية، ما يشير إلى تحسين النموذج بسرعة.
  • منحدر مسطّح تدريجيًا (ولكن لا يزال ينخفض) حتى قرب نهاية العملية التدريب، ما يشير إلى استمرار تحسين النموذج بوتيرة أبطأ إلى حدّ ما مقارنةً بالتكرارات الأولية
  • منحدر مستوٍ باتجاه نهاية التدريب، ما يشير إلى التقارب

رسم بياني لخسارة التدريب في مقابل التكرارات يبدأ منحنى الخسارة هذا
    بانحدار حاد للأسفل. يصبح الميل تدريجيًا مسطّحًا إلى أن يصبح الميل
    صفرًا.

على الرغم من أنّ فقدان البيانات أثناء التدريب مهم، يمكنك أيضًا الاطّلاع على التعميم.

سالب صحيح (TN)

#fundamentals
#Metric

مثال يتنبأ فيه النموذج بشكل صحيح بال الفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة بريد إلكتروني معيّنة ليست رسالة غير مرغوب فيها، وأنّ رسالة البريد الإلكتروني هذه هي ليست رسالة غير مرغوب فيها.

موجب صحيح (TP)

#fundamentals
#Metric

مثال يتنبأ فيه النموذج بشكل صحيح بال الفئة الموجبة. على سبيل المثال، يستنتج النموذج أنّه هناك رسالة إلكترونية معيّنة غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية غير مرغوب فيها حقًا.

معدّل الموجب الصحيح (TPR)

#fundamentals
#Metric

مرادف لـ الرجوع. والمقصود:

true positive rate=true positivestrue positives+false negatives

يمثّل معدل الموجب الصحيح محور y في منحنى خاصية تشغيل جهاز الاستقبال.

V

فقدان القيمة الصالحة

#fundamentals
#Metric

مقياس يمثّل الخسارة للنموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب

راجِع أيضًا منحنى التعميم.

أهمية المتغيّرات

#df
#Metric

مجموعة من الدرجات التي تشير إلى الأهمية النسبية لكل سمة في النموذج

على سبيل المثال، نأخذ شجرة قرارات تُقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم احتساب مجموعة من قيم متغيرات الأهمية للسمات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، يكون المقاس أكثر أهمية في شجرة القرار من العمر أو الطراز.

تتوفّر مقاييس مختلفة لأهمية المتغيّرات، والتي يمكن أن تُعلِم خبراء الذكاء الاصطناعي (ML) عن الجوانب المختلفة للنماذج.

واط

خسارة Wasserstein

#Metric

إحدى دوالّ الخسارة المستخدَمة بشكل شائع في الشبكات التوليدية التنافسية، استنادًا إلى مسافة محوّل الأرض بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.