واژه نامه یادگیری ماشینی: متریک

این صفحه شامل اصطلاحات واژه نامه متریک است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

#مبانی
#متریک

تعداد پیش‌بینی‌های طبقه‌بندی صحیح تقسیم بر تعداد کل پیش‌بینی‌ها. یعنی:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

به عنوان مثال، مدلی که 40 پیش‌بینی درست و 10 پیش‌بینی نادرست داشته باشد، دقتی برابر با:

Accuracy=4040 + 10=80%

طبقه بندی باینری نام های خاصی را برای دسته های مختلف پیش بینی های صحیح و پیش بینی های نادرست ارائه می دهد. بنابراین، فرمول دقت برای طبقه بندی باینری به شرح زیر است:

Accuracy=TP+TNTP+TN+FP+FN

کجا:

مقایسه و مقایسه دقت با دقت و یادآوری .

اگرچه برای برخی موقعیت‌ها یک معیار ارزشمند است، اما دقت برای برخی دیگر بسیار گمراه‌کننده است. قابل ذکر است که دقت معمولاً معیار ضعیفی برای ارزیابی مدل‌های طبقه‌بندی است که مجموعه داده‌های نامتعادل کلاس را پردازش می‌کنند.

برای مثال، فرض کنید در یک شهر نیمه گرمسیری خاص، تنها 25 روز در قرن برف می بارد. از آنجایی که روزهای بدون برف (طبقه منفی) بسیار بیشتر از روزهای با برف (طبقه مثبت) است، مجموعه داده های برف برای این شهر از نظر طبقه نامتعادل است. یک مدل طبقه‌بندی باینری را تصور کنید که قرار است هر روز برف یا بدون برف را پیش‌بینی کند، اما به سادگی هر روز «بدون برف» را پیش‌بینی می‌کند. این مدل بسیار دقیق است اما قدرت پیش بینی ندارد. جدول زیر نتایج یک قرن پیش‌بینی را خلاصه می‌کند:

دسته بندی شماره
TP 0
TN 36499
FP 0
FN 25

بنابراین دقت این مدل عبارت است از:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

اگرچه دقت 99.93 درصد بسیار چشمگیر به نظر می رسد، این مدل در واقع قدرت پیش بینی ندارد.

دقت و یادآوری معمولاً معیارهای مفیدتری نسبت به دقت برای ارزیابی مدل‌های آموزش دیده بر روی مجموعه داده‌های نامتعادل کلاس هستند.


برای اطلاعات بیشتر به طبقه بندی: دقت، یادآوری، دقت و معیارهای مرتبط در دوره تصادف یادگیری ماشین مراجعه کنید.

ناحیه زیر منحنی PR

#متریک

به PR AUC (منطقه زیر منحنی PR) مراجعه کنید.

ناحیه زیر منحنی ROC

#متریک

AUC (مساحت زیر منحنی ROC) را ببینید.

AUC (مساحت زیر منحنی ROC)

#مبانی
#متریک

عددی بین 0.0 و 1.0 نشان دهنده توانایی یک مدل طبقه بندی باینری برای جداسازی کلاس های مثبت از کلاس های منفی است. هر چه AUC به 1.0 نزدیکتر باشد، مدل توانایی بهتری برای جداسازی کلاس ها از یکدیگر دارد.

برای مثال، تصویر زیر یک مدل طبقه‌بندی کننده را نشان می‌دهد که کلاس‌های مثبت (بیضی سبز) را از کلاس‌های منفی (مستطیل‌های بنفش) کاملاً جدا می‌کند. این مدل غیرواقعی کامل دارای AUC 1.0 است:

یک خط اعداد با 8 مثال مثبت در یک طرف و           9 مثال منفی در طرف دیگر.

برعکس، تصویر زیر نتایج یک مدل طبقه‌بندی کننده را نشان می‌دهد که نتایج تصادفی ایجاد می‌کند. این مدل دارای AUC 0.5 است:

یک خط اعداد با 6 مثال مثبت و 6 مثال منفی.           دنباله مثال ها مثبت، منفی است،           مثبت، منفی، مثبت، منفی، مثبت، منفی، مثبت           منفی، مثبت، منفی

بله، مدل قبلی دارای AUC 0.5 است، نه 0.0.

اکثر مدل ها جایی بین دو حالت افراطی هستند. به عنوان مثال، مدل زیر موارد مثبت را تا حدودی از منفی جدا می کند و بنابراین دارای AUC بین 0.5 و 1.0 است:

یک خط اعداد با 6 مثال مثبت و 6 مثال منفی.           دنباله مثال ها منفی، منفی، منفی، منفی،           مثبت، منفی، مثبت، مثبت، منفی، مثبت، مثبت،           مثبت

AUC هر مقداری را که برای آستانه طبقه بندی تنظیم کرده اید نادیده می گیرد. در عوض، AUC تمام آستانه های طبقه بندی ممکن را در نظر می گیرد.

AUC نشان دهنده سطح زیر منحنی ROC است. به عنوان مثال، منحنی ROC برای مدلی که به طور کامل نکات مثبت را از منفی جدا می کند، به صورت زیر است:

طرح دکارتی. محور x نرخ مثبت کاذب است. محور y           نرخ مثبت واقعی است. نمودار از 0.0 شروع می شود و مستقیماً بالا می رود           به 0.1 و سپس مستقیماً به سمت راست به 1.1 ختم می شود.

AUC ناحیه خاکستری در تصویر قبل است. در این حالت غیر معمول، مساحت به سادگی طول ناحیه خاکستری (1.0) ضرب در عرض ناحیه خاکستری (1.0) است. بنابراین، حاصل ضرب 1.0 و 1.0 AUC دقیقاً 1.0 را به دست می دهد که بالاترین امتیاز AUC ممکن است.

برعکس، منحنی ROC برای طبقه‌بندی‌کننده‌ای که اصلاً نمی‌تواند کلاس‌ها را از هم جدا کند، به شرح زیر است. مساحت این منطقه خاکستری 0.5 است.

طرح دکارتی. محور x نرخ مثبت کاذب است. محور y درست است           نرخ مثبت نمودار از 0.0 شروع می شود و به صورت مورب به 1.1 می رسد.

یک منحنی معمولی ROC تقریباً شبیه زیر است:

طرح دکارتی. محور x نرخ مثبت کاذب است. محور y درست است           نرخ مثبت نمودار از 0.0 شروع می شود و یک قوس نامنظم می گیرد           به 1.0.

محاسبه مساحت زیر این منحنی به صورت دستی دشوار خواهد بود، به همین دلیل است که یک برنامه معمولاً بیشتر مقادیر AUC را محاسبه می کند.


AUC احتمال این است که یک طبقه بندی کننده مطمئن تر از مثبت بودن یک مثال مثبت تصادفی انتخاب شده باشد تا اینکه یک مثال منفی تصادفی انتخاب شده مثبت باشد.


برای اطلاعات بیشتر به طبقه بندی: ROC و AUC در دوره تصادف یادگیری ماشینی مراجعه کنید.

دقت متوسط ​​در k

#زبان
#متریک

معیاری برای خلاصه کردن عملکرد یک مدل در یک اعلان واحد که نتایج رتبه‌بندی‌شده‌ای را ایجاد می‌کند، مانند فهرست شماره‌دار توصیه‌های کتاب. میانگین دقت در k ، خوب، میانگین دقت در مقادیر k برای هر نتیجه مرتبط است. بنابراین فرمول دقت متوسط ​​در k به صورت زیر است:

average precision at k=1nni=1precision at k for each relevant item

کجا:

  • n تعداد موارد مرتبط در لیست است.

کنتراست با فراخوان در k .

فرض کنید به یک مدل زبان بزرگ، پرس و جوی زیر داده شده است:

List the 6 funniest movies of all time in order.

و مدل زبان بزرگ لیست زیر را برمی گرداند:

  1. ژنرال
  2. دختران بدجنس
  3. جوخه
  4. ساقدوش ها
  5. شهروند کین
  6. این اسپینال تپ است
چهار تا از فیلم های لیست برگشتی بسیار خنده دار هستند (یعنی مرتبط هستند) اما دو فیلم درام هستند (مرتبط نیستند). جدول زیر جزئیات نتایج را نشان می دهد:
موقعیت فیلم مربوطه؟ دقت در k
1 ژنرال بله 1.0
2 دختران بدجنس بله 1.0
3 جوخه خیر مرتبط نیست
4 ساقدوش ها بله 0.75
5 شهروند کین خیر مرتبط نیست
6 این اسپینال تپ است بله 0.67

تعداد نتایج مربوطه 4 است. بنابراین، می توانید میانگین دقت 6 را به صورت زیر محاسبه کنید:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)average precision at 6=~0.85

ب

خط پایه

#متریک

مدلی که به عنوان یک نقطه مرجع برای مقایسه عملکرد یک مدل دیگر (معمولاً پیچیده تر) استفاده می شود. به عنوان مثال، یک مدل رگرسیون لجستیک ممکن است به عنوان یک پایه خوب برای یک مدل عمیق عمل کند.

برای یک مشکل خاص، خط مبنا به توسعه دهندگان مدل کمک می کند تا حداقل عملکرد مورد انتظاری را که یک مدل جدید باید به آن دست پیدا کند تا مدل جدید مفید باشد، کمّی کنند.

سی

هزینه

#متریک

مترادف باخت .

انصاف خلاف واقع

#انصاف
#متریک

یک معیار انصاف که بررسی می‌کند آیا یک طبقه‌بندی کننده همان نتیجه را برای یک فرد ایجاد می‌کند که برای فرد دیگری که مشابه اولی است، مگر در مورد یک یا چند ویژگی حساس . ارزیابی یک طبقه‌بندی‌کننده برای انصاف خلاف واقع یکی از روش‌های آشکارسازی منابع بالقوه سوگیری در یک مدل است.

برای اطلاعات بیشتر به یکی از موارد زیر مراجعه کنید:

آنتروپی متقابل

#متریک

تعمیم Log Loss به مسائل طبقه بندی چند طبقه . آنتروپی متقاطع تفاوت بین دو توزیع احتمال را کمیت می کند. حیرت را نیز ببینید.

تابع توزیع تجمعی (CDF)

#متریک

تابعی که فرکانس نمونه ها را کمتر یا مساوی با مقدار هدف تعریف می کند. برای مثال، توزیع نرمال مقادیر پیوسته را در نظر بگیرید. یک CDF به شما می گوید که تقریباً 50٪ نمونه ها باید کمتر یا مساوی با میانگین باشند و تقریباً 84٪ نمونه ها باید کمتر یا مساوی یک انحراف استاندارد بالاتر از میانگین باشند.

D

برابری جمعیتی

#انصاف
#متریک

یک معیار انصاف که اگر نتایج طبقه‌بندی یک مدل به یک ویژگی حساس معین وابسته نباشد، برآورده می‌شود.

به عنوان مثال، اگر هم لیلیپوتی ها و هم بروبدینگناگی ها برای دانشگاه گلابدابدریب درخواست دهند، برابری جمعیتی در صورتی حاصل می شود که درصد لیلیپوتیان پذیرفته شده با درصد بروبدینگناگیان پذیرفته شده یکسان باشد، صرف نظر از اینکه یک گروه به طور متوسط ​​واجد شرایط تر از گروه دیگر باشد.

در مقایسه با شانس برابر و برابری فرصت ، که اجازه می‌دهد طبقه‌بندی نتایج مجموع به ویژگی‌های حساس بستگی داشته باشد، اما اجازه نمی‌دهد نتایج طبقه‌بندی برای برخی برچسب‌های حقیقت پایه مشخص شده به ویژگی‌های حساس بستگی داشته باشد. برای تجسم کاوش در مبادلات هنگام بهینه سازی برابری جمعیتی، «حمله به تبعیض با یادگیری ماشینی هوشمندتر» را ببینید.

برای اطلاعات بیشتر به Fairness: برابری جمعیتی در دوره تصادف یادگیری ماشینی مراجعه کنید.

E

فاصله حرکت دهنده زمین (EMD)

#متریک

اندازه گیری شباهت نسبی دو توزیع . هر چه فاصله زمین گردان کمتر باشد، توزیع ها مشابه تر است.

فاصله را ویرایش کنید

#زبان
#متریک

اندازه گیری شباهت دو رشته متنی به یکدیگر. در یادگیری ماشینی، ویرایش فاصله به دلایل زیر مفید است:

  • محاسبه فاصله ویرایش آسان است.
  • ویرایش فاصله می‌تواند دو رشته را که شبیه یکدیگر هستند مقایسه کند.
  • فاصله ویرایش می تواند میزان شباهت رشته های مختلف به یک رشته معین را تعیین کند.

تعاریف متعددی از فاصله ویرایش وجود دارد که هر کدام از عملیات رشته های متفاوتی استفاده می کنند. برای مثال فاصله Levenshtein را ببینید.

تابع توزیع تجمعی تجربی (eCDF یا EDF)

#متریک

یک تابع توزیع تجمعی بر اساس اندازه‌گیری‌های تجربی از یک مجموعه داده واقعی. مقدار تابع در هر نقطه در امتداد محور x کسری از مشاهدات در مجموعه داده است که کمتر یا مساوی با مقدار مشخص شده است.

آنتروپی

#df
#متریک

در تئوری اطلاعات ، توصیفی از غیرقابل پیش‌بینی بودن توزیع احتمال است. متناوباً، آنتروپی نیز به این صورت تعریف می‌شود که هر مثال حاوی چه مقدار اطلاعات است. یک توزیع دارای بالاترین آنتروپی ممکن است زمانی که همه مقادیر یک متغیر تصادفی به یک اندازه محتمل باشند.

آنتروپی یک مجموعه با دو مقدار ممکن "0" و "1" (به عنوان مثال، برچسب ها در یک مسئله طبقه بندی باینری ) فرمول زیر را دارد:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

کجا:

  • H آنتروپی است.
  • p کسری از مثال های "1" است.
  • q کسری از مثال های "0" است. توجه داشته باشید که q = (1 - p)
  • log به طور کلی log 2 است. در این حالت واحد آنتروپی کمی است.

برای مثال موارد زیر را فرض کنید:

  • 100 مثال حاوی مقدار "1" هستند
  • 300 مثال حاوی مقدار "0" هستند

بنابراین، مقدار آنتروپی:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log 2 (0.25) - (0.75)log 2 (0.75) = 0.81 بیت در هر مثال

مجموعه ای که کاملاً متعادل باشد (مثلاً 200 "0" و 200 "1") آنتروپی 1.0 بیت در هر مثال خواهد داشت. وقتی یک مجموعه نامتعادل تر می شود، آنتروپی آن به سمت 0.0 حرکت می کند.

در درخت‌های تصمیم ، آنتروپی به فرمول‌بندی به دست آوردن اطلاعات کمک می‌کند تا به تقسیم‌کننده کمک کند شرایط را در طول رشد درخت تصمیم طبقه‌بندی انتخاب کند.

مقایسه آنتروپی با:

آنتروپی اغلب آنتروپی شانون نامیده می شود.

برای اطلاعات بیشتر به Exact splitter برای طبقه بندی باینری با ویژگی های عددی در دوره Decision Forests مراجعه کنید.

برابری فرصت ها

#انصاف
#متریک

یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتیجه مطلوب را برای همه مقادیر یک ویژگی حساس به خوبی پیش‌بینی می‌کند یا خیر. به عبارت دیگر، اگر نتیجه مطلوب برای یک مدل کلاس مثبت باشد، هدف این است که نرخ مثبت واقعی برای همه گروه‌ها یکسان باشد.

برابری فرصت به شانس مساوی مربوط می شود، که مستلزم آن است که هم نرخ های مثبت واقعی و هم نرخ های مثبت کاذب برای همه گروه ها یکسان باشند.

فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. اگر دانش‌آموزان واجد شرایط به همان اندازه بدون توجه به لیلیپوتی یا بروبدینگناگی، پذیرش شوند، برای برچسب ترجیحی «پذیرفته‌شده» با توجه به ملیت (Lilliputian یا Brobdingnagian) رعایت می‌شود.

به عنوان مثال، فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر اتخاذ می شود:

جدول 1. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)

واجد شرایط فاقد صلاحیت
پذیرفته شد 45 3
رد شد 45 7
مجموع 90 10
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50%
درصد رد دانش آموزان فاقد صلاحیت: 7/10 = 70%
درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+3)/100 = 48%

جدول 2. متقاضیان Brobdingnagian (10٪ واجد شرایط):

واجد شرایط فاقد صلاحیت
پذیرفته شد 5 9
رد شد 5 81
مجموع 10 90
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪
درصد مردودی دانش آموزان فاقد صلاحیت: 90/81 = 90 درصد
درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+9)/100 = 14%

مثال‌های قبلی برابری فرصت‌ها را برای پذیرش دانش‌آموزان واجد شرایط برآورده می‌کنند، زیرا لیلیپوت‌های واجد شرایط و برابدینگناگیان هر دو 50 درصد شانس پذیرش دارند.

در حالی که برابری فرصت برآورده می شود، دو معیار انصاف زیر راضی نمی شوند:

  • برابری جمعیتی : لیلیپوت ها و برابدینگناگی ها با نرخ های متفاوتی در دانشگاه پذیرفته می شوند. 48 درصد از دانش آموزان لیلیپوتی پذیرش می شوند، اما تنها 14 درصد از دانش آموزان بروبدینگناگیان پذیرفته می شوند.
  • شانس مساوی : در حالی که دانش آموزان لیلیپوتی و بروبدینگناگی واجد شرایط هر دو شانس یکسانی برای پذیرش دارند، محدودیت اضافی که لیلیپوت های فاقد صلاحیت و برابدینگناگیان هر دو شانس یکسانی برای رد شدن دارند برآورده نمی شود. لیلیپوت های فاقد صلاحیت 70 درصد نرخ رد دارند، در حالی که بروبدینگناگیان فاقد صلاحیت 90 درصد نرخ رد دارند.

برای کسب اطلاعات بیشتر، به Fairness: Equality of فرصت ها در دوره تصادف یادگیری ماشینی مراجعه کنید.

شانس مساوی

#انصاف
#متریک

یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتایج را به خوبی برای همه مقادیر یک ویژگی حساس با توجه به کلاس مثبت و منفی - نه فقط یک طبقه یا کلاس دیگر - به طور یکسان پیش‌بینی می‌کند. به عبارت دیگر، هم نرخ مثبت واقعی و هم نرخ منفی کاذب باید برای همه گروه ها یکسان باشد.

شانس برابر شده مربوط به برابری فرصت است که فقط بر روی نرخ خطا برای یک کلاس واحد (مثبت یا منفی) تمرکز دارد.

به عنوان مثال، فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. شانس مساوی به شرطی برآورده می شود که فارغ از اینکه متقاضی لیلیپوت باشد یا بروبدینگناگی، اگر واجد شرایط باشد، به همان اندازه احتمال دارد در برنامه پذیرفته شوند و اگر واجد شرایط نباشند، به همان اندازه احتمال رد شدن دارند. .

فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر گرفته می شود:

جدول 3. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)

واجد شرایط فاقد صلاحیت
پذیرفته شد 45 2
رد شد 45 8
مجموع 90 10
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50%
درصد رد دانش آموزان فاقد صلاحیت: 8/10 = 80%
درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+2)/100 = 47%

جدول 4. متقاضیان Brobdingnagian (10٪ واجد شرایط):

واجد شرایط فاقد صلاحیت
پذیرفته شد 5 18
رد شد 5 72
مجموع 10 90
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪
درصد رد دانش آموزان فاقد صلاحیت: 72/90 = 80%
درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+18)/100 = 23%

شانس مساوی برآورده می شود زیرا دانش آموزان واجد شرایط لیلیپوتی و بروبدینگناگی هر دو 50 درصد شانس پذیرش دارند و لیلیپوتین و بروبدینگناگیان فاقد صلاحیت 80 درصد شانس رد شدن دارند.

شانس مساوی شده به طور رسمی در "برابری فرصت در یادگیری تحت نظارت" به این صورت تعریف می شود: "پیش بینی Ŷ شانس مساوی را با توجه به ویژگی محافظت شده A و نتیجه Y را برآورده می کند اگر Ŷ و A مستقل باشند، مشروط به Y."

ارزیابی می کند

#زبان
#تولید کننده هوش مصنوعی
#متریک

در درجه اول به عنوان مخفف ارزیابی های LLM استفاده می شود. به طور گسترده تر، evals مخفف هر شکلی از ارزیابی است.

ارزیابی

#زبان
#تولید هوش مصنوعی
#متریک

فرآیند اندازه گیری کیفیت یک مدل یا مقایسه مدل های مختلف با یکدیگر.

برای ارزیابی یک مدل یادگیری ماشینی نظارت شده ، معمولاً آن را بر اساس یک مجموعه اعتبار سنجی و یک مجموعه آزمایش قضاوت می کنید. ارزیابی LLM معمولاً شامل ارزیابی‌های کیفی و ایمنی گسترده‌تری است.

اف

F 1

#متریک

یک متریک طبقه‌بندی باینری "تجمعی" که هم بر دقت و هم به یادآوری متکی است. این فرمول است:

F1=2 * precision * recallprecision + recall

فرض کنید دقت و یادآوری مقادیر زیر را دارند:

  • دقت = 0.6
  • فراخوانی = 0.4

شما F 1 را به صورت زیر محاسبه می کنید:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

وقتی دقت و یادآوری تقریباً مشابه هستند (مانند مثال قبل)، F 1 به میانگین آنها نزدیک است. هنگامی که دقت و یادآوری به طور قابل توجهی متفاوت است، F 1 به مقدار کمتر نزدیکتر است. به عنوان مثال:

  • دقت = 0.9
  • فراخوان = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

متریک انصاف

#انصاف
#متریک

یک تعریف ریاضی از «انصاف» که قابل اندازه گیری است. برخی از معیارهای عادلانه رایج عبارتند از:

بسیاری از معیارهای انصاف متقابل هستند. ناسازگاری معیارهای انصاف را ببینید.

منفی کاذب (FN)

#مبانی
#متریک

مثالی که در آن مدل به اشتباه کلاس منفی را پیش بینی می کند. برای مثال، مدل پیش‌بینی می‌کند که یک پیام ایمیل خاص هرزنامه نیست (کلاس منفی)، اما آن پیام ایمیل در واقع هرزنامه است .

نرخ منفی کاذب

#متریک

نسبت مثال‌های مثبت واقعی که مدل به اشتباه کلاس منفی را پیش‌بینی کرده است. فرمول زیر نرخ منفی کاذب را محاسبه می کند:

false negative rate=false negativesfalse negatives+true positives

برای اطلاعات بیشتر ، آستانه‌ها و ماتریس سردرگمی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.

مثبت کاذب (FP)

#مبانی
#متریک

مثالی که در آن مدل به اشتباه کلاس مثبت را پیش بینی می کند. برای مثال، مدل پیش‌بینی می‌کند که یک پیام ایمیل خاص هرزنامه است (کلاس مثبت)، اما آن پیام ایمیل در واقع هرزنامه نیست .

برای اطلاعات بیشتر ، آستانه‌ها و ماتریس سردرگمی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.

نرخ مثبت کاذب (FPR)

#مبانی
#متریک

نسبت مثال‌های منفی واقعی که مدل به اشتباه کلاس مثبت را پیش‌بینی کرده است. فرمول زیر نرخ مثبت کاذب را محاسبه می کند:

false positive rate=false positivesfalse positives+true negatives

نرخ مثبت کاذب، محور x در منحنی ROC است.

برای اطلاعات بیشتر به طبقه بندی: ROC و AUC در دوره تصادف یادگیری ماشینی مراجعه کنید.

اهمیت ویژگی ها

#df
#متریک

مترادف برای اهمیت متغیر .

کسری از موفقیت ها

#تولید هوش مصنوعی
#متریک

معیاری برای ارزیابی متن تولید شده در مدل ML. کسری از موفقیت ها تعداد خروجی های متن تولید شده "موفق" تقسیم بر تعداد کل خروجی های متن تولید شده است. به عنوان مثال، اگر یک مدل زبان بزرگ 10 بلوک کد تولید کند که پنج بلوک آن موفق بوده است، کسری از موفقیت ها 50 درصد خواهد بود.

اگرچه کسری از موفقیت ها به طور گسترده در سراسر آمار مفید است، اما در ML، این معیار در درجه اول برای اندازه گیری وظایف قابل تأیید مانند تولید کد یا مسائل ریاضی مفید است.

جی

ناخالصی جینی

#df
#متریک

متریک مشابه آنتروپی . اسپلیترها از مقادیر به دست آمده از ناخالصی جینی یا آنتروپی برای ایجاد شرایط برای درختان تصمیم طبقه بندی استفاده می کنند. کسب اطلاعات از آنتروپی به دست می آید. هیچ اصطلاح معادل پذیرفته شده جهانی برای متریک مشتق شده از ناخالصی جینی وجود ندارد. با این حال، این معیار نامشخص به اندازه کسب اطلاعات مهم است.

به ناخالصی جینی شاخص جینی یا به سادگی جینی نیز گفته می شود.

ناخالصی جینی احتمال طبقه بندی اشتباه یک قطعه جدید از داده های گرفته شده از همان توزیع است. ناخالصی جینی یک مجموعه با دو مقدار ممکن "0" و "1" (به عنوان مثال، برچسب ها در یک مسئله طبقه بندی باینری ) از فرمول زیر محاسبه می شود:

I = 1 - (p 2 + q 2 ) = 1 - (p 2 + (1-p) 2 )

کجا:

  • من نجاست جینی هستم.
  • p کسری از مثال های "1" است.
  • q کسری از مثال های "0" است. توجه داشته باشید که q = 1-p

برای مثال مجموعه داده زیر را در نظر بگیرید:

  • 100 برچسب (0.25 مجموعه داده) حاوی مقدار "1" هستند.
  • 300 برچسب (0.75 مجموعه داده) حاوی مقدار "0" هستند.

بنابراین ناخالصی جینی عبارت است از:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.25 2 + 0.75 2 ) = 0.375

در نتیجه، یک برچسب تصادفی از همان مجموعه داده 37.5 درصد احتمال اشتباه طبقه بندی و 62.5 درصد احتمال طبقه بندی مناسب دارد.

یک برچسب کاملاً متعادل (مثلاً 200 "0" و 200 "1") ناخالصی جینی 0.5 خواهد داشت. یک برچسب بسیار نامتعادل ناخالصی جینی نزدیک به 0.0 خواهد داشت.


اچ

از دست دادن لولا

#متریک

خانواده‌ای از توابع ضرر برای طبقه‌بندی طراحی شده‌اند تا مرز تصمیم را تا حد امکان از هر مثال آموزشی دور کنند، بنابراین حاشیه بین نمونه‌ها و مرز را به حداکثر می‌رسانند. KSVM ها از افت لولا (یا یک تابع مرتبط مانند تلفات لولای مربع) استفاده می کنند. برای طبقه بندی باینری، تابع تلفات لولا به صورت زیر تعریف می شود:

loss=max(0,1(yy))

که در آن y برچسب واقعی است، یا -1 یا +1، و y' خروجی خام مدل طبقه‌بندی‌کننده است:

y=b+w1x1+w2x2+wnxn

در نتیجه، نمودار افت لولا در مقابل (y * y') به صورت زیر است:

نمودار دکارتی متشکل از دو پاره خط به هم پیوسته. اولین           پاره خط از (3-، 4) شروع می شود و به (1، 0) ختم می شود. خط دوم           بخش از (1، 0) شروع می شود و به طور نامحدود با یک شیب ادامه می یابد           از 0.

من

ناسازگاری معیارهای انصاف

#انصاف
#متریک

این ایده که برخی از مفاهیم انصاف با یکدیگر ناسازگار هستند و نمی‌توانند به طور همزمان ارضا شوند. در نتیجه، هیچ معیار جهانی واحدی برای تعیین کمیت انصاف وجود ندارد که بتوان برای همه مسائل ML اعمال کرد.

اگرچه این ممکن است دلسرد کننده به نظر برسد، اما ناسازگاری معیارهای انصاف به معنای بی نتیجه بودن تلاش های عادلانه نیست. در عوض، پیشنهاد می کند که انصاف باید به صورت متناوب برای یک مشکل ML معین، با هدف جلوگیری از آسیب های خاص در موارد استفاده از آن تعریف شود.

برای بحث دقیق تر در مورد ناسازگاری معیارهای انصاف، به «در مورد (عدم) امکان انصاف» مراجعه کنید.

انصاف فردی

#انصاف
#متریک

یک معیار انصاف که بررسی می کند آیا افراد مشابه به طور مشابه طبقه بندی می شوند یا خیر. به عنوان مثال، آکادمی Brobdingnagian ممکن است بخواهد انصاف فردی را با اطمینان از اینکه دو دانش آموز با نمرات یکسان و نمرات آزمون استاندارد شده به طور مساوی احتمال پذیرش را دارند، ارضا کند.

توجه داشته باشید که انصاف فردی کاملاً به نحوه تعریف «شباهت» (در این مورد، نمرات و نمرات آزمون) بستگی دارد و اگر معیار تشابه شما اطلاعات مهمی را از دست بدهد (مانند سختگیری دانش‌آموزان) می‌توانید خطر ایجاد مشکلات جدید انصاف را داشته باشید. برنامه درسی).

برای بحث دقیق تر در مورد انصاف فردی، به «انصاف از طریق آگاهی» مراجعه کنید.

کسب اطلاعات

#df
#متریک

در جنگل‌های تصمیم ، تفاوت بین آنتروپی یک گره و مجموع وزنی (براساس تعداد مثال) از آنتروپی گره‌های فرزند آن است. آنتروپی یک گره، آنتروپی نمونه های آن گره است.

به عنوان مثال، مقادیر آنتروپی زیر را در نظر بگیرید:

  • آنتروپی گره والد = 0.6
  • آنتروپی یک گره فرزند با 16 مثال مرتبط = 0.2
  • آنتروپی یک گره فرزند دیگر با 24 مثال مرتبط = 0.1

بنابراین 40 درصد از نمونه ها در یک گره فرزند و 60 درصد در گره فرزند دیگر هستند. بنابراین:

  • مجموع آنتروپی وزنی گره های فرزند = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

بنابراین، به دست آوردن اطلاعات این است:

  • افزایش اطلاعات = آنتروپی گره والد - مجموع وزنی آنتروپی گره های فرزند
  • افزایش اطلاعات = 0.6 - 0.14 = 0.46

بیشتر اسپلیترها به دنبال ایجاد شرایطی هستند که کسب اطلاعات را به حداکثر برسانند.

قرارداد بین ارزیاب

#متریک

اندازه گیری تعداد دفعات توافق ارزیابی کنندگان انسانی هنگام انجام یک کار. اگر ارزیاب‌ها موافق نباشند، دستورالعمل‌های کار ممکن است نیاز به بهبود داشته باشند. گاهی اوقات توافق بین حاشیه‌نویس یا قابلیت اطمینان بین ارزیابی‌کننده نیز نامیده می‌شود. همچنین کاپا کوهن را ببینید که یکی از محبوب‌ترین اندازه‌گیری‌های توافق بین ارزیاب‌ها است.

برای اطلاعات بیشتر به داده‌های دسته‌بندی: مسائل رایج در دوره تصادف یادگیری ماشینی مراجعه کنید.

L

L 1 باخت

#مبانی
#متریک

یک تابع ضرر که قدر مطلق تفاوت بین مقادیر واقعی برچسب و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. برای مثال، در اینجا محاسبه ضرر L 1 برای یک دسته از پنج مثال آمده است:

ارزش واقعی مثال مقدار پیش بینی شده مدل مقدار مطلق دلتا
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 ضرر

از دست دادن L 1 نسبت به L 2 حساسیت کمتری نسبت به موارد پرت دارد.

میانگین خطای مطلق میانگین تلفات L 1 در هر مثال است.

L1loss=ni=0|yiˆyi|

کجا:
  • n تعداد نمونه است.
  • y مقدار واقعی برچسب است.
  • ˆy مقداری است که مدل برای y پیش‌بینی می‌کند.

برای اطلاعات بیشتر به رگرسیون خطی: فقدان در دوره تصادف یادگیری ماشین مراجعه کنید.

L 2 باخت

#مبانی
#متریک

یک تابع ضرر که مجذور تفاوت بین مقادیر واقعی برچسب و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. برای مثال، در اینجا محاسبه تلفات L 2 برای یک دسته از پنج مثال آمده است:

ارزش واقعی مثال مقدار پیش بینی شده مدل مربع دلتا
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = L 2 ضرر

با توجه به تربیع، از دست دادن L 2 تاثیر نقاط پرت را تقویت می کند. یعنی ضرر L 2 نسبت به ضرر L 1 به پیش بینی های بد واکنش قوی تری نشان می دهد. به عنوان مثال، ضرر L 1 برای دسته قبلی به جای 16، 8 خواهد بود. توجه داشته باشید که یک عدد پرت تنها 9 مورد از 16 مورد را به خود اختصاص می دهد.

مدل‌های رگرسیون معمولاً از تلفات L 2 به عنوان تابع ضرر استفاده می‌کنند.

میانگین مربعات خطا میانگین تلفات L 2 در هر مثال است. ضرر مربعی نام دیگری برای ضرر L 2 است.

L2loss=ni=0(yiˆyi)2

کجا:
  • n تعداد نمونه است.
  • y مقدار واقعی برچسب است.
  • ˆy مقداری است که مدل برای y پیش‌بینی می‌کند.

برای اطلاعات بیشتر به رگرسیون لجستیک: از دست دادن و منظم‌سازی در دوره تصادف یادگیری ماشین مراجعه کنید.

ارزیابی های LLM (ارزیابی)

#زبان
#تولید هوش مصنوعی
#متریک

مجموعه‌ای از معیارها و معیارها برای ارزیابی عملکرد مدل‌های زبان بزرگ (LLM). در سطح بالا، ارزیابی های LLM:

  • به محققان کمک کنید مناطقی را که LLM نیاز به بهبود دارند شناسایی کنند.
  • در مقایسه LLM های مختلف و شناسایی بهترین LLM برای یک کار خاص مفید هستند.
  • کمک کنید تا مطمئن شوید که LLM ها برای استفاده ایمن و اخلاقی هستند.

برای اطلاعات بیشتر، مدل‌های زبان بزرگ (LLM) را در دوره آموزشی تصادفی یادگیری ماشین ببینید.

از دست دادن

#مبانی
#متریک

در طول آموزش یک مدل نظارت شده ، اندازه گیری از فاصله پیش بینی یک مدل با برچسب آن.

یک تابع ضرر زیان را محاسبه می کند.

برای اطلاعات بیشتر به رگرسیون خطی: فقدان در دوره تصادف یادگیری ماشین مراجعه کنید.

عملکرد از دست دادن

#مبانی
#متریک

در حین آموزش یا آزمایش، یک تابع ریاضی است که زیان را در مجموعه ای از مثال ها محاسبه می کند. یک تابع ضرر برای مدل هایی که پیش بینی های خوبی انجام می دهند، ضرر کمتری نسبت به مدل هایی که پیش بینی های بد انجام می دهند، برمی گرداند.

هدف از آموزش معمولاً به حداقل رساندن ضرری است که یک تابع ضرر باز می گرداند.

بسیاری از انواع مختلف توابع از دست دادن وجود دارد. تابع ضرر مناسب را برای نوع مدلی که می سازید انتخاب کنید. به عنوان مثال:

م

میانگین خطای مطلق (MAE)

#متریک

میانگین تلفات در هر مثال زمانی که از دست دادن L 1 استفاده می شود. میانگین خطای مطلق را به صورت زیر محاسبه کنید:

  1. ضرر L 1 را برای یک دسته محاسبه کنید.
  2. ضرر L 1 را بر تعداد نمونه های دسته تقسیم کنید.

Mean Absolute Error=1nni=0|yiˆyi|

کجا:

  • n تعداد نمونه است.
  • y مقدار واقعی برچسب است.
  • ˆy مقداری است که مدل برای y پیش‌بینی می‌کند.

برای مثال، محاسبه تلفات L 1 را در دسته ای از پنج مثال زیر در نظر بگیرید:

ارزش واقعی مثال مقدار پیش بینی شده مدل ضرر (تفاوت بین واقعی و پیش بینی شده)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 ضرر

بنابراین، ضرر L 1 8 و تعداد مثال ها 5 است. بنابراین، میانگین خطای مطلق برابر است با:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

کنتراست میانگین خطای مطلق با میانگین مربعات خطا و ریشه میانگین خطای مربع .

میانگین دقت متوسط ​​در k (mAP@k)

#زبان
#تولید هوش مصنوعی
#متریک

میانگین آماری تمام میانگین دقت در نمره های k در یک مجموعه داده اعتبار سنجی. یکی از کاربردهای میانگین دقت در k قضاوت در مورد کیفیت توصیه های تولید شده توسط یک سیستم توصیه می باشد.

اگرچه عبارت "میانگین متوسط" اضافی به نظر می رسد، نام متریک مناسب است. از این گذشته، این متریک میانگین دقت میانگین چندگانه را در مقادیر k پیدا می کند.

فرض کنید یک سیستم توصیه می‌سازید که یک لیست شخصی از رمان‌های پیشنهادی برای هر کاربر ایجاد می‌کند. بر اساس بازخورد کاربران منتخب، پنج میانگین دقت زیر را در K امتیاز (یک امتیاز برای هر کاربر) محاسبه می‌کنید:

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

بنابراین میانگین دقت متوسط ​​در K برابر است با:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

میانگین مربعات خطا (MSE)

#متریک

میانگین تلفات در هر مثال زمانی که از اتلاف L 2 استفاده می شود. میانگین مربعات خطا را به صورت زیر محاسبه کنید:

  1. تلفات L 2 را برای یک دسته محاسبه کنید.
  2. ضرر L 2 را بر تعداد نمونه های دسته تقسیم کنید.
Mean Squared Error=1nni=0(yiˆyi)2کجا:
  • n تعداد نمونه است.
  • y مقدار واقعی برچسب است.
  • ˆy پیش‌بینی مدل برای y است.

به عنوان مثال، ضرر را در دسته پنج مثال زیر در نظر بگیرید:

ارزش واقعی پیش بینی مدل از دست دادن باخت مربعی
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L 2 ضرر

بنابراین، میانگین مربعات خطای زیر است:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

میانگین مربعات خطا یک بهینه ساز آموزشی محبوب است، به ویژه برای رگرسیون خطی .

تقابل میانگین مربعات خطا با میانگین خطای مطلق و ریشه میانگین مربعات خطا .

TensorFlow Playground از میانگین مربعات خطا برای محاسبه مقادیر تلفات استفاده می کند.

نقاط پرت به شدت بر میانگین مربعات خطا تأثیر می گذارد. برای مثال، از دست دادن 1، زیان مجذور 1 است، اما از دست دادن 3، مجذور ضرر 9 است. در جدول قبل، مثال با ضرر 3 ~ 56% از میانگین مربع خطا را به خود اختصاص می دهد، در حالی که هر یک از مثال‌های با ضرر 1 تنها 6 درصد از میانگین مربعات خطا را به خود اختصاص می‌دهند.

نقاط پرت بر میانگین خطای مطلق تأثیر نمی‌گذارند به اندازه میانگین مربعات خطا. به عنوان مثال، از دست دادن 3 تنها 38٪ از میانگین خطای مطلق را تشکیل می دهد.

برش یکی از راه‌های جلوگیری از آسیب‌دیدگی پرت شدید به توانایی پیش‌بینی مدل شماست.


متریک

#TensorFlow
#متریک

آماری که شما به آن اهمیت می دهید.

هدف معیاری است که یک سیستم یادگیری ماشینی سعی در بهینه سازی آن دارد.

Metrics API (tf.metrics)

#متریک

API TensorFlow برای ارزیابی مدل ها. برای مثال، tf.metrics.accuracy تعیین می‌کند که پیش‌بینی‌های یک مدل چقدر با برچسب‌ها مطابقت دارند.

حداقل ضرر

#متریک

یک تابع ضرر برای شبکه های متخاصم مولد ، بر اساس آنتروپی متقابل بین توزیع داده های تولید شده و داده های واقعی.

حداقل تلفات در مقاله اول برای توصیف شبکه های متخاصم مولد استفاده شده است.

برای اطلاعات بیشتر به توابع ضرر در دوره شبکه های متخاصم مولد مراجعه کنید.

ظرفیت مدل

#متریک

پیچیدگی مسائلی که یک مدل می تواند یاد بگیرد. هر چه مشکلاتی که یک مدل می تواند بیاموزد پیچیده تر باشد، ظرفیت مدل بالاتر می رود. ظرفیت یک مدل معمولاً با تعداد پارامترهای مدل افزایش می یابد. برای تعریف رسمی ظرفیت طبقه‌بندی‌کننده، بعد VC را ببینید.

ن

کلاس منفی

#مبانی
#متریک

در طبقه بندی باینری ، یک کلاس مثبت و دیگری منفی نامیده می شود. کلاس مثبت چیز یا رویدادی است که مدل برای آن آزمایش می کند و کلاس منفی احتمال دیگر است. به عنوان مثال:

  • کلاس منفی در یک آزمایش پزشکی ممکن است "تومور نباشد".
  • کلاس منفی در یک طبقه‌بندی ایمیل ممکن است "نه هرزنامه" باشد.

در تضاد با کلاس مثبت .

O

هدف

#متریک

معیاری که الگوریتم شما سعی در بهینه سازی آن دارد.

تابع هدف

#متریک

فرمول یا متریک ریاضی که هدف یک مدل بهینه سازی است. به عنوان مثال، تابع هدف برای رگرسیون خطی معمولاً میانگین مربعات تلفات است. بنابراین، هنگام آموزش یک مدل رگرسیون خطی، هدف آموزش به حداقل رساندن میانگین مربعات تلفات است.

در برخی موارد، هدف به حداکثر رساندن تابع هدف است. برای مثال، اگر تابع هدف دقت باشد، هدف به حداکثر رساندن دقت است.

از دست دادن را نیز ببینید.

پ

عبور در k (pass@k)

#متریک

معیاری برای تعیین کیفیت کد (مثلاً پایتون) که یک مدل زبان بزرگ تولید می کند. به طور خاص تر، پاس در k به شما این احتمال را می دهد که حداقل یک بلوک کد تولید شده از K بلوک کد تولید شده، تمام تست های واحد خود را با موفقیت پشت سر بگذارد.

مدل های زبان بزرگ اغلب برای تولید کد خوب برای مشکلات برنامه نویسی پیچیده تلاش می کنند. مهندسان نرم افزار با تحریک مدل زبان بزرگ برای ایجاد راه حل های متعدد ( k ) برای یک مسئله، با این مشکل سازگار می شوند. سپس مهندسان نرم افزار هر یک از راه حل ها را در برابر تست های واحد آزمایش می کنند. محاسبه گذر در k به نتیجه آزمایشات واحد بستگی دارد:

  • اگر یک یا چند تا از آن راه حل ها تست واحد را پشت سر بگذارند، LLM از چالش تولید کد عبور می کند .
  • اگر هیچ یک از راه حل ها تست واحد را قبول نکرد، LLM در این چالش تولید کد شکست می خورد .

فرمول عبور در k به شرح زیر است:

pass at k=total number of passestotal number of challenges

به طور کلی، مقادیر بالاتر k پاس بالاتری را در K امتیاز ایجاد می کند. با این حال، مقادیر بالاتر k نیاز به مدل زبان بزرگتر و منابع تست واحد دارد.

فرض کنید یک مهندس نرم افزار از یک مدل زبان بزرگ می خواهد که k =10 راه حل برای n =50 مشکل کدنویسی چالش برانگیز ایجاد کند. در اینجا نتایج آمده است:

  • 30 پاس
  • 20 شکست

پس امتیاز 10 به این صورت است:

pass at 10=3050=0.6

عملکرد

#متریک

اصطلاح پربار با معانی زیر:

  • معنای استاندارد در مهندسی نرم افزار. یعنی: این نرم افزار چقدر سریع (یا کارآمد) اجرا می شود؟
  • معنی در یادگیری ماشین در اینجا، عملکرد به سؤال زیر پاسخ می دهد: این مدل چقدر درست است؟ یعنی پیش بینی های مدل چقدر خوب است؟

اهمیت متغیر جایگشت

#df
#متریک

نوعی از اهمیت متغیر که افزایش خطای پیش‌بینی یک مدل را پس از تغییر مقادیر ویژگی ارزیابی می‌کند. اهمیت متغیر جایگشت یک متریک مستقل از مدل است.

گیجی

#متریک

یکی از معیارهایی است که نشان می دهد یک مدل چقدر وظیفه خود را به خوبی انجام می دهد. به عنوان مثال، فرض کنید وظیفه شما خواندن چند حرف اول کلمه ای است که کاربر روی صفحه کلید گوشی تایپ می کند و لیستی از کلمات تکمیل شده را ارائه می دهد. Perplexity، P، برای این کار تقریباً تعداد حدس هایی است که باید ارائه دهید تا لیست شما حاوی کلمه واقعی باشد که کاربر سعی می کند تایپ کند.

گیجی به صورت زیر به آنتروپی متقابل مربوط می شود:

P=2cross entropy

کلاس مثبت

#مبانی
#متریک

کلاسی که برای آن تست می گیرید.

برای مثال، طبقه مثبت در مدل سرطان ممکن است "تومور" باشد. کلاس مثبت در یک طبقه بندی ایمیل ممکن است "هرزنامه" باشد.

تقابل با کلاس منفی

اصطلاح کلاس مثبت می تواند گیج کننده باشد زیرا نتیجه "مثبت" بسیاری از آزمایش ها اغلب یک نتیجه نامطلوب است. به عنوان مثال، کلاس مثبت در بسیاری از آزمایشات پزشکی مربوط به تومورها یا بیماری ها است. به طور کلی، شما می خواهید یک دکتر به شما بگوید: "تبریک می گویم! نتیجه آزمایش شما منفی بود." صرف نظر از این، کلاس مثبت رویدادی است که آزمون به دنبال یافتن آن است.

مسلماً شما در حال آزمایش همزمان برای هر دو کلاس مثبت و منفی هستید.


PR AUC (منطقه زیر منحنی PR)

#متریک

مساحت زیر منحنی فراخوان دقیق درون یابی شده که با رسم نقاط (یادآوری، دقت) برای مقادیر مختلف آستانه طبقه بندی به دست می آید.

دقت

#متریک

معیاری برای مدل های طبقه بندی که به سوال زیر پاسخ می دهد:

وقتی مدل کلاس مثبت را پیش بینی کرد ، چه درصد از پیش بینی ها صحیح بوده است؟

این فرمول است:

Precision=true positivestrue positives+false positives

کجا:

  • مثبت مثبت به معنای مدل به درستی کلاس مثبت را پیش بینی کرده است.
  • مثبت کاذب به معنای مدل به اشتباه کلاس مثبت را پیش بینی کرده است.

به عنوان مثال ، فرض کنید یک مدل 200 پیش بینی مثبت ایجاد کرده است. از این 200 پیش بینی مثبت:

  • 150 مثبت مثبت بودند.
  • 50 مثبت کاذب بودند.

در این مورد:

Precision=150150+50=0.75

تضاد با دقت و یادآوری .

برای کسب اطلاعات بیشتر به طبقه بندی: دقت ، فراخوان ، دقت و معیارهای مرتبط در دوره تصادف یادگیری ماشین مراجعه کنید.

دقت در K (Precision@k)

#زبان
#متریک

متریک برای ارزیابی لیست موارد رتبه بندی شده (سفارش). دقت در K کسری از اولین موارد K را در آن لیست که "مرتبط" هستند مشخص می کند. یعنی:

precision at k=relevant items in first k items of the listk

مقدار k باید کمتر یا مساوی با طول لیست برگشتی باشد. توجه داشته باشید که طول لیست برگشتی بخشی از محاسبه نیست.

ارتباط اغلب ذهنی است. حتی ارزیاب های انسانی متخصص نیز اغلب با این موارد مخالف هستند.

مقایسه کنید با:

فرض کنید یک مدل زبان بزرگ پرس و جو زیر داده شده است:

List the 6 funniest movies of all time in order.

و مدل زبان بزرگ لیست نشان داده شده در دو ستون اول جدول زیر را برمی گرداند:

موقعیت فیلم مربوطه؟
1 ژنرال بله
2 دختران بدجنس بله
3 جوخه خیر
4 ساقدوش ها بله
5 شهروند کین خیر
6 این اسپینال تپ است بله

دو سه فیلم اول مرتبط هستند ، بنابراین دقت در 3 است:

precision at 3=23=0.67

چهار از پنج فیلم اول بسیار خنده دار هستند ، بنابراین دقت در 5 است:

precision at 5=45=0.8

منحنی ضبط دقیق

#متریک

منحنی دقت در مقابل فراخوان در آستانه های مختلف طبقه بندی .

تعصب پیش بینی

#متریک

مقداری که نشان می دهد میانگین پیش بینی ها از میانگین برچسب های موجود در مجموعه داده فاصله دارند.

با اصطلاح تعصب در مدل های یادگیری ماشین یا با تعصب در اخلاق و انصاف اشتباه گرفته نشود.

برابری پیش بینی کننده

#فریبی
#متریک

یک متریک انصاف که بررسی می کند که آیا برای یک طبقه بندی کننده معین ، نرخ دقیق برای زیر گروه های مورد نظر معادل است.

به عنوان مثال ، الگویی که پذیرش کالج را پیش بینی می کند ، اگر نرخ دقیق آن برای لیلیپوتیایی ها و BrobdingNagians یکسان باشد ، برابری پیش بینی برای ملیت را برآورده می کند.

برابری پیش بینی مدتی است که برابری نرخ پیش بینی نیز نامیده می شود.

برای بحث بیشتر در مورد برابری پیش بینی ، به "تعاریف انصاف توضیح داده شده" (بخش 3.2.1) مراجعه کنید.

برابری نرخ پیش بینی

#فریبی
#متریک

نام دیگری برای برابری پیش بینی کننده .

تابع چگالی احتمال

#متریک

تابعی که فرکانس نمونه های داده را دقیقاً یک مقدار خاص مشخص می کند. هنگامی که مقادیر مجموعه داده ها به صورت مداوم شماره شناور هستند ، مسابقات دقیق به ندرت اتفاق می افتد. با این حال ، ادغام یک تابع چگالی احتمال از مقدار x به مقدار y ، فرکانس مورد انتظار نمونه های داده بین x و y را به همراه دارد.

به عنوان مثال ، یک توزیع عادی با میانگین 200 و انحراف استاندارد 30 را در نظر بگیرید. برای تعیین فرکانس مورد انتظار نمونه های داده های موجود در محدوده 211.4 تا 218.7 ، می توانید عملکرد چگالی احتمال را برای یک توزیع عادی از 211.4 تا 218.7 ادغام کنید. .

آر

به یاد بیاور

#متریک

متریک برای مدل های طبقه بندی که به سؤال زیر پاسخ می دهد:

وقتی حقیقت زمین طبقه مثبت بود ، مدل پیش بینی ها به درستی به عنوان کلاس مثبت شناخته شده است؟

این فرمول است:

Recall=true positivestrue positives+false negatives

کجا:

  • مثبت مثبت به معنای مدل به درستی کلاس مثبت را پیش بینی کرده است.
  • منفی کاذب به این معنی است که مدل به اشتباه کلاس منفی را پیش بینی می کند.

به عنوان مثال ، فرض کنید مدل شما 200 پیش بینی را در مثالهایی انجام داده است که حقیقت زمین کلاس مثبت است. از این 200 پیش بینی:

  • 180 مثبت مثبت بودند.
  • 20 منفی دروغین بودند.

در این مورد:

Recall=180180+20=0.9

فراخوان به ویژه برای تعیین قدرت پیش بینی مدل های طبقه بندی که در آن کلاس مثبت نادر است مفید است. به عنوان مثال ، یک مجموعه داده کلاس متعادل را در نظر بگیرید که در آن کلاس مثبت برای یک بیماری خاص فقط در 10 بیمار از یک میلیون رخ می دهد. فرض کنید مدل شما پنج میلیون پیش بینی را انجام می دهد که نتایج زیر را به همراه دارد:

  • 30 مثبت واقعی
  • 20 منفی دروغین
  • 4،999،000 منفی واقعی
  • 950 مثبت کاذب

فراخوان این مدل بنابراین:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
در مقابل ، صحت این مدل:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

این ارزش بالای دقت چشمگیر به نظر می رسد اما اساساً بی معنی است. فراخوان یک متریک بسیار مفیدتر برای مجموعه داده های کلاس متعادل نسبت به دقت است.


برای کسب اطلاعات بیشتر به طبقه بندی: دقت ، فراخوان ، دقت و معیارهای مرتبط مراجعه کنید.

به یاد بیاورید در K (به یاد بیاورید@k)

#زبان
#متریک

متریک برای ارزیابی سیستم هایی که لیستی از موارد رتبه بندی شده (سفارش داده شده) را تولید می کنند. به یاد بیاورید در K کسری از موارد مربوطه را در اولین موارد K در آن لیست از تعداد کل موارد مربوطه برگشتی مشخص می کند.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

تضاد با دقت در k .

فرض کنید یک مدل زبان بزرگ پرس و جو زیر داده شده است:

List the 10 funniest movies of all time in order.

و مدل زبان بزرگ لیست نشان داده شده در دو ستون اول را برمی گرداند:

موقعیت فیلم مربوطه؟
1 ژنرال بله
2 دختران بدجنس بله
3 جوخه خیر
4 ساقدوش ها بله
5 این اسپینال تپ است بله
6 هواپیما! بله
7 روز گراند هاگ بله
8 مونتی پایتون و جام مقدس بله
9 اوپنهایمر خیر
10 بی خبر بله

هشت فیلم در لیست قبلی بسیار خنده دار هستند ، بنابراین آنها "موارد مرتبط در لیست" هستند. بنابراین ، 8 در تمام محاسبات فراخوان در k مخرج خواهد بود. در مورد شمارنده چطور؟ خوب ، 3 مورد از 4 مورد اول مرتبط است ، بنابراین به یاد بیاورید در 4 است:

recall at 4=38=0.375

7 از 8 فیلم اول بسیار خنده دار هستند ، بنابراین به یاد بیاورید در 8 است:

recall at 8=78=0.875

منحنی ROC (مشخصه عملیاتی گیرنده)

#مبانی
#متریک

نمودار از نرخ مثبت واقعی در مقابل نرخ مثبت کاذب برای آستانه طبقه بندی مختلف در طبقه بندی باینری.

شکل یک منحنی ROC توانایی یک مدل طبقه بندی باینری را برای جدا کردن کلاس های مثبت از کلاس های منفی نشان می دهد. به عنوان مثال فرض کنید که یک مدل طبقه بندی باینری کاملاً تمام کلاسهای منفی را از تمام کلاسهای مثبت جدا می کند:

یک خط با 8 مثال مثبت در سمت راست و           7 نمونه منفی در سمت چپ.

منحنی ROC برای مدل قبلی به شرح زیر است:

یک منحنی ROC. محور x نرخ مثبت کاذب و محور y است           نرخ مثبت واقعی است منحنی دارای شکل L معکوس است. منحنی           از (0.0،0.0) شروع می شود و مستقیماً به (0.0،1.0) می رود. سپس منحنی           از (0.0،1.0) به (1.0،1.0) می رود.

در مقابل ، تصویر زیر مقادیر رگرسیون لجستیک خام را برای یک مدل وحشتناک که نمی تواند کلاس های منفی را از کلاس های مثبت جدا کند ، نمودار می کند:

یک خط با مثالهای مثبت و کلاسهای منفی           کاملاً با هم مخلوط شده است.

منحنی ROC برای این مدل به شرح زیر است:

منحنی ROC ، که در واقع یک خط مستقیم از (0.0،0.0) است           به (1.0،1.0).

در همین حال ، در دنیای واقعی ، بیشتر مدلهای طبقه بندی باینری کلاسهای مثبت و منفی را تا حدی جدا می کنند ، اما معمولاً کاملاً مناسب نیستند. بنابراین ، یک منحنی ROC معمولی در جایی بین دو افراط قرار می گیرد:

یک منحنی ROC. محور x نرخ مثبت کاذب و محور y است           نرخ مثبت واقعی است منحنی ROC یک قوس لرزان را تقریبی می کند           عبور از نقاط قطب نما از غرب به شمال.

نقطه در منحنی ROC نزدیک به (0.0،1.0) از لحاظ نظری آستانه طبقه بندی ایده آل را مشخص می کند. با این حال ، چندین موضوع دیگر در دنیای واقعی بر انتخاب آستانه طبقه بندی ایده آل تأثیر می گذارد. به عنوان مثال ، شاید منفی های دروغین باعث درد بسیار بیشتری نسبت به مثبت کاذب شوند.

یک متریک عددی به نام AUC منحنی ROC را به یک مقدار نقطه شناور واحد خلاصه می کند.

ریشه میانگین مربعات خطا (RMSE)

#مبانی
#متریک

ریشه مربع خطای میانگین مربع .

ROUGE (مطالعه فراخوان یادآوری گرا برای ارزیابی Gisting)

#زبان
#متریک

خانواده ای از معیارهایی که خلاصه های خودکار و مدل های ترجمه ماشین را ارزیابی می کنند. معیارهای Rouge درجه ای را تعیین می کنند که یک متن مرجع با متن تولید شده از مدل ML همپوشانی دارد. هر یک از اعضای خانواده روژ به روشی متفاوت همپوشانی دارند. نمرات بالاتر ROUGE شباهت بیشتری بین متن مرجع و متن تولید شده نسبت به نمرات Rouge پایین تر نشان می دهد.

هر یک از اعضای خانواده Rouge به طور معمول معیارهای زیر را تولید می کنند:

  • دقت
  • به یاد بیاورید
  • F 1

برای جزئیات و مثال ، به:

ROUGE-L

#زبان
#متریک

یکی از اعضای خانواده Rouge بر طول طولانی ترین عواقب مشترک در متن مرجع و متن تولید شده متمرکز شده است. فرمول های زیر فراخوان و دقت را برای Rouge-L محاسبه می کنند:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

سپس می توانید از F 1 برای بالا بردن Rouge-L فراخوان و دقت Rouge-L در یک متریک واحد استفاده کنید:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
متن مرجع زیر و متن تولید شده را در نظر بگیرید.
دسته بندی چه کسی تولید کرد؟ متن
متن مرجع مترجم من می خواهم طیف گسترده ای از چیزها را درک کنم.
متن تولید شده مدل ML من می خواهم چیزهای زیادی یاد بگیرم.
بنابراین:
  • طولانی ترین دنبال مشترک 5 است ( من می خواهم به چیزها )
  • تعداد کلمات موجود در متن مرجع 9 است.
  • تعداد کلمات موجود در متن تولید شده 7 است.
در نتیجه:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

Rouge-L هر خط جدید را در متن مرجع و متن تولید شده نادیده می گیرد ، بنابراین طولانی ترین دنباله مشترک می تواند از چندین جمله عبور کند. هنگامی که متن مرجع و متن تولید شده شامل چندین جمله است ، تنوع Rouge-L به نام Rouge-lsum به طور کلی یک معیار بهتر است. Rouge-LSUM طولانی ترین دنبال کننده مشترک برای هر جمله در یک متن را تعیین می کند و سپس میانگین آن طولانی ترین عواقب مشترک را محاسبه می کند.

متن مرجع زیر و متن تولید شده را در نظر بگیرید.
دسته بندی چه کسی تولید کرد؟ متن
متن مرجع مترجم سطح مریخ خشک است. تقریباً تمام آب در زیر زمین قرار دارد.
متن تولید شده مدل ML مریخ یک سطح خشک دارد. با این حال ، اکثریت قریب به اتفاق آب در زیر زمین است.
بنابراین:
جمله اول جمله دوم
طولانی ترین دنباله مشترک 2 (مریخ خشک) 3 (آب زیرزمینی است)
طول جمله متن مرجع 6 7
طول جمله متن تولید شده 5 8
در نتیجه:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#زبان
#متریک

مجموعه ای از معیارهای موجود در خانواده Rouge که N-Grams مشترک با اندازه خاص را در متن مرجع و متن تولید شده مقایسه می کند. به عنوان مثال:

  • Rouge-1 تعداد نشانه های مشترک را در متن مرجع و متن تولید شده اندازه گیری می کند.
  • Rouge-2 تعداد Bigrams مشترک (2 گرم) را در متن مرجع و متن تولید شده اندازه گیری می کند.
  • Rouge-3 تعداد TRIGRAMS مشترک (3 گرم) را در متن مرجع و متن تولید شده اندازه گیری می کند.

می توانید از فرمول های زیر برای محاسبه فراخوان Rouge-N و دقت Rouge-N برای هر یک از اعضای خانواده Rouge-N استفاده کنید:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

سپس می توانید از F 1 برای بالا بردن Rouge-N فراخوان و دقت Rouge-N در یک متریک واحد استفاده کنید:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
فرض کنید تصمیم دارید از Rouge-2 برای اندازه گیری اثربخشی ترجمه یک مدل ML در مقایسه با مترجم انسانی استفاده کنید.
دسته بندی چه کسی تولید کرد؟ متن بیگرام
متن مرجع مترجم من می خواهم طیف گسترده ای از چیزها را درک کنم. من می خواهم ، می خواهم ، درک کنم ، درک کنم ، یک ، تنوع گسترده و گسترده ای ، انواع چیزها
متن تولید شده مدل ML من می خواهم چیزهای زیادی یاد بگیرم. من می خواهم ، می خواهم ، یاد بگیرم ، یاد بگیرم ، چیزهای زیادی ، چیزهای زیادی را یاد بگیرم
بنابراین:
  • تعداد 2 گرم تطبیق 3 است ( من می خواهم ، می خواهم ، و چیزها ).
  • تعداد 2 گرم در متن مرجع 8 است.
  • تعداد 2 گرم در متن تولید شده 6 است.
در نتیجه:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#زبان
#متریک

یک شکل بخشنده از Rouge-N که تطبیق Skip-Gram را امکان پذیر می کند. یعنی ، Rouge-N فقط N-Grams را که دقیقاً مطابقت دارند ، شمارش می کند ، اما Rouge-S همچنین N-Grams را که با یک یا چند کلمه از هم جدا شده اند ، شمارش می کند. برای مثال موارد زیر را در نظر بگیرید:

هنگام محاسبه Rouge-N ، ابرهای سفید 2 گرم ، با ابرهای رنگ سفید مطابقت ندارند. با این حال ، هنگام محاسبه Rouge-S ، ابرهای سفید با ابرهای رنگ سفید مطابقت دارند.

R-squared

#متریک

یک متریک رگرسیون که نشان می دهد میزان تغییر در یک برچسب به دلیل یک ویژگی فردی یا یک مجموعه ویژگی است. R-Squared یک مقدار بین 0 تا 1 است که می توانید به شرح زیر تفسیر کنید:

  • R-Squared از 0 به این معنی است که هیچ یک از تغییرات برچسب به دلیل مجموعه ویژگی نیست.
  • مربع R از 1 به این معنی است که همه تغییرات برچسب به دلیل مجموعه ویژگی است.
  • مربع R بین 0 تا 1 نشان می دهد که میزان تغییر برچسب از یک ویژگی خاص یا مجموعه ویژگی ها قابل پیش بینی است. به عنوان مثال ، مربع R از 0.10 به این معنی است که 10 درصد از واریانس در برچسب به دلیل مجموعه ویژگی است ، یک R-Squared 0.20 به معنای این است که 20 درصد به دلیل تنظیم ویژگی و غیره است.

R-Squared مربع ضریب همبستگی پیرسون بین مقادیری است که یک مدل پیش بینی کرده و حقیقت زمینی است .

اس

به ثمر رساندن

#سیستم ها
#متریک

بخشی از یک سیستم توصیه ای که برای هر مورد تولید شده توسط مرحله تولید نامزد ، ارزش یا رتبه بندی را ارائه می دهد.

اندازه گیری شباهت

#خوشه ای
#متریک

در الگوریتم های خوشه بندی ، متریک برای تعیین چگونگی یکسان (چقدر مشابه) هر دو نمونه استفاده می شود.

پراکندگی

#متریک

تعداد عناصر تعیین شده روی صفر (یا تهی) در یک بردار یا ماتریس تقسیم بر تعداد کل ورودی های آن بردار یا ماتریس. به عنوان مثال ، یک ماتریس 100 عنصر را در نظر بگیرید که در آن 98 سلول حاوی صفر هستند. محاسبه کمبود به شرح زیر است:

sparsity=98100=0.98

مشخصات مشخصات به کمبود یک بردار ویژگی اشاره دارد. پراکندگی مدل به کمبود وزن مدل اشاره دارد.

از دست دادن لولا مربع

#متریک

مربع از دست دادن لولا . از دست دادن لولای مربع مجازات های سخت تر از دست دادن لولای معمولی را مجازات می کند.

از دست دادن مربع

#مبانی
#متریک

مترادف برای از دست دادن L 2 .

تی

از دست دادن

#مبانی
#متریک

یک متریک که از دست دادن یک مدل در برابر مجموعه آزمون است. هنگام ساختن یک مدل ، معمولاً سعی می کنید از دست دادن آزمایش به حداقل برسید. دلیل این امر این است که از دست دادن کم تست یک سیگنال با کیفیت قوی تر از ضرر کم آموزش یا از دست دادن اعتبار سنجی کم است.

فاصله زیادی بین از دست دادن آزمون و از دست دادن آموزش یا از دست دادن اعتبار سنجی گاهی اوقات نشان می دهد که شما نیاز به افزایش نرخ منظم دارید.

دقت

#زبان
#متریک

درصد زمانهایی که "برچسب هدف" در اولین موقعیت K لیست های تولید شده ظاهر می شود. لیست ها می توانند توصیه های شخصی یا لیستی از موارد سفارش داده شده توسط SoftMax باشند.

دقت بالا K نیز به عنوان دقت در K شناخته می شود.

یک سیستم یادگیری ماشین را در نظر بگیرید که از SoftMax برای شناسایی احتمالات درخت بر اساس تصویری از برگهای درخت استفاده می کند. جدول زیر لیست های خروجی تولید شده از پنج تصویر درخت ورودی را نشان می دهد. هر ردیف حاوی یک برچسب هدف و پنج درخت محتمل است. به عنوان مثال ، هنگامی که برچسب هدف افرا بود ، مدل یادگیری ماشین ELM را به عنوان محتمل ترین درخت ، بلوط به عنوان دومین درخت به احتمال زیاد و غیره معرفی کرد.

برچسب هدف 1 2 3 4 5
افرا نرده بلوط افرا راش صنوبر
چوب سگ بلوط چوب سگ صنوبر هیکوری افرا
بلوط بلوط چوب باس ملخ توسکا لیندن
لیندن افرا پنجه پنجه بلوط چوب باس صنوبر
بلوط ملخ لیندن بلوط افرا پنجه پنجه

برچسب هدف فقط در یک موقعیت اول فقط یک بار ظاهر می شود ، بنابراین دقت 1 1 بالا است:

top-1 accuracy=15=0.2

برچسب هدف در یکی از سه موقعیت برتر چهار بار ظاهر می شود ، بنابراین دقت 3 بالا این است:

top-1 accuracy=45=0.8

سمیت

#زبان
#متریک

میزان سوءاستفاده ، تهدیدآمیز یا توهین آمیز است. بسیاری از مدل های یادگیری ماشین می توانند سمیت را شناسایی و اندازه گیری کنند. بسیاری از این مدل ها سمیت را در طول پارامترهای متعدد ، مانند سطح زبان سوءاستفاده و سطح زبان تهدیدآمیز مشخص می کنند.

از دست دادن آموزش

#مبانی
#متریک

یک متریک نشان دهنده ضرر یک مدل در طی یک تکرار آموزش خاص است. به عنوان مثال ، فرض کنید عملکرد از دست دادن به معنای خطای مربع است. شاید از دست دادن آموزش (میانگین خطای مربع) برای تکرار 10 2.2 باشد و از دست دادن تمرین برای 100 تکرار 1.9 است.

یک منحنی ضرر از دست دادن آموزش در مقابل تعداد تکرارها را ترسیم می کند. منحنی ضرر نکات زیر را در مورد آموزش ارائه می دهد:

  • یک شیب رو به پایین دلالت بر این دارد که مدل در حال بهبود است.
  • یک شیب رو به بالا دلالت بر این دارد که مدل بدتر می شود.
  • یک شیب مسطح دلالت بر این دارد که این مدل به همگرایی رسیده است.

به عنوان مثال ، منحنی از دست دادن تا حدودی ایده آل نشان می دهد:

  • شیب شیب دار به سمت پایین در طول تکرار اولیه ، که دلالت بر بهبود سریع مدل دارد.
  • یک شیب به تدریج مسطح (اما هنوز هم پایین) تا پایان آموزش ، که حاکی از بهبود مدل با سرعت کمی کندتر و سپس در طول تکرار اولیه است.
  • شیب مسطح به سمت پایان آموزش ، که نشان دهنده همگرایی است.

طرح از دست دادن آموزش در مقابل تکرارها. این منحنی ضرر شروع می شود      با یک شیب رو به پایین. شیب به تدریج صاف می شود تا      شیب صفر می شود.

اگرچه از دست دادن آموزش مهم است ، اما به تعمیم نیز مراجعه کنید.

منفی واقعی (TN)

#مبانی
#متریک

نمونه ای که در آن مدل به درستی کلاس منفی را پیش بینی می کند. به عنوان مثال ، این مدل نشان می دهد که یک پیام ایمیل خاص هرزنامه نیست و پیام ایمیل واقعاً هرزنامه نیست .

مثبت واقعی (TP)

#مبانی
#متریک

نمونه ای که در آن مدل به درستی کلاس مثبت را پیش بینی می کند. به عنوان مثال ، این مدل نشان می دهد که یک پیام ایمیل خاص هرزنامه است و پیام ایمیل واقعاً هرزنامه است.

نرخ مثبت واقعی (TPR)

#مبانی
#متریک

مترادف برای فراخوان . یعنی:

true positive rate=true positivestrue positives+false negatives

نرخ مثبت واقعی محور y در یک منحنی ROC است.

V

از دست دادن اعتبار سنجی

#مبانی
#متریک

یک متریک که از دست دادن یک مدل در اعتبار سنجی در طول تکرار خاص آموزش است.

همچنین به منحنی تعمیم مراجعه کنید.

اهمیت های متغیر

#df
#متریک

مجموعه ای از امتیازات که اهمیت نسبی هر ویژگی را برای مدل نشان می دهد.

به عنوان مثال، درخت تصمیم گیری را در نظر بگیرید که قیمت خانه را تخمین می زند. فرض کنید این درخت تصمیم از سه ویژگی استفاده می کند: اندازه، سن و سبک. اگر مجموعه ای از اهمیت های متغیر برای سه ویژگی به صورت {size=5.8، age=2.5، style=4.7} محاسبه شود، آنگاه اندازه برای درخت تصمیم مهم تر از سن یا سبک است.

معیارهای اهمیت متغیر متفاوتی وجود دارد که می تواند کارشناسان ML را در مورد جنبه های مختلف مدل ها آگاه کند.

دبلیو

از دست دادن Wasserstein

#متریک

یکی از توابع ضرر که معمولاً در شبکه های مخالف تولیدی مورد استفاده قرار می گیرد ، بر اساس فاصله حرکت زمین بین توزیع داده های تولید شده و داده های واقعی.