این صفحه شامل اصطلاحات واژه نامه اصول ML است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
الف
دقت
تعداد پیشبینیهای طبقهبندی صحیح تقسیم بر تعداد کل پیشبینیها. یعنی:
به عنوان مثال، مدلی که 40 پیشبینی درست و 10 پیشبینی نادرست داشته باشد، دقتی برابر با:
طبقه بندی باینری نام های خاصی را برای دسته های مختلف پیش بینی های صحیح و پیش بینی های نادرست ارائه می دهد. بنابراین، فرمول دقت برای طبقه بندی باینری به شرح زیر است:
کجا:
- TP تعداد مثبت های واقعی (پیش بینی های صحیح) است.
- TN تعداد منفی های واقعی (پیش بینی های صحیح) است.
- FP تعداد مثبت کاذب (پیشبینیهای نادرست) است.
- FN تعداد منفی های کاذب (پیش بینی های نادرست) است.
مقایسه و مقایسه دقت با دقت و یادآوری .
برای اطلاعات بیشتر به طبقه بندی: دقت، یادآوری، دقت و معیارهای مرتبط در دوره تصادف یادگیری ماشین مراجعه کنید.
عملکرد فعال سازی
تابعی که شبکه های عصبی را قادر می سازد تا روابط غیرخطی (پیچیده) بین ویژگی ها و برچسب را بیاموزند.
توابع فعال سازی محبوب عبارتند از:
نمودار توابع فعال سازی هرگز خطوط مستقیم منفرد نیستند. به عنوان مثال، نمودار تابع فعال سازی ReLU از دو خط مستقیم تشکیل شده است:
نمودار تابع فعال سازی سیگموئید به صورت زیر است:
برای اطلاعات بیشتر ، شبکههای عصبی: توابع فعالسازی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
هوش مصنوعی
یک برنامه یا مدل غیر انسانی که می تواند کارهای پیچیده را حل کند. برای مثال، برنامه یا مدلی که متن را ترجمه می کند یا برنامه یا مدلی که بیماری ها را از تصاویر رادیولوژیک شناسایی می کند، هر دو هوش مصنوعی را نشان می دهند.
به طور رسمی، یادگیری ماشین زیر شاخه هوش مصنوعی است. با این حال، در سالهای اخیر، برخی از سازمانها شروع به استفاده از اصطلاحات هوش مصنوعی و یادگیری ماشینی کردهاند.
AUC (مساحت زیر منحنی ROC)
عددی بین 0.0 و 1.0 نشان دهنده توانایی یک مدل طبقه بندی باینری برای جداسازی کلاس های مثبت از کلاس های منفی است. هر چه AUC به 1.0 نزدیکتر باشد، مدل توانایی بهتری برای جداسازی کلاس ها از یکدیگر دارد.
برای مثال، تصویر زیر یک مدل طبقهبندی را نشان میدهد که کلاسهای مثبت (بیضیهای سبز) را از کلاسهای منفی (مستطیلهای بنفش) کاملاً جدا میکند. این مدل غیرواقعی کامل دارای AUC 1.0 است:
برعکس، تصویر زیر نتایج یک مدل طبقهبندی را نشان میدهد که نتایج تصادفی ایجاد میکند. این مدل دارای AUC 0.5 است:
بله، مدل قبلی دارای AUC 0.5 است، نه 0.0.
اکثر مدل ها جایی بین دو حالت افراطی هستند. به عنوان مثال، مدل زیر موارد مثبت را تا حدودی از منفی جدا می کند و بنابراین دارای AUC بین 0.5 و 1.0 است:
AUC هر مقداری را که برای آستانه طبقه بندی تنظیم کرده اید نادیده می گیرد. در عوض، AUC تمام آستانه های طبقه بندی ممکن را در نظر می گیرد.
برای اطلاعات بیشتر به طبقه بندی: ROC و AUC در دوره تصادف یادگیری ماشینی مراجعه کنید.
ب
پس انتشار
الگوریتمی که نزول گرادیان را در شبکه های عصبی پیاده سازی می کند.
آموزش یک شبکه عصبی شامل تکرارهای زیادی از چرخه دو پاس زیر است:
- در طول پاس رو به جلو ، سیستم دستهای از نمونهها را پردازش میکند تا پیشبینی (های) را به دست آورد. سیستم هر پیش بینی را با هر برچسب مقایسه می کند. تفاوت بین مقدار پیشبینی و برچسب، ضرر آن مثال است. سیستم تلفات را برای همه نمونهها جمعآوری میکند تا مجموع ضرر را برای دسته فعلی محاسبه کند.
- در طول گذر به عقب (انتشار عقب)، سیستم با تنظیم وزن تمام نورون ها در تمام لایه(های) پنهان، تلفات را کاهش می دهد.
شبکههای عصبی اغلب حاوی نورونهای زیادی در لایههای پنهان بسیاری هستند. هر یک از این نورون ها به روش های مختلفی در از دست دادن کلی نقش دارند. انتشار معکوس تعیین می کند که آیا وزن اعمال شده روی نورون های خاص افزایش یا کاهش یابد.
نرخ یادگیری یک ضریب است که میزان افزایش یا کاهش هر وزنه توسط هر پاس به عقب را کنترل می کند. نرخ یادگیری زیاد هر وزن را بیش از یک نرخ یادگیری کوچک افزایش یا کاهش می دهد.
از نظر حساب دیفرانسیل و انتگرال، پس انتشار قانون زنجیره را اجرا می کند. از حساب دیفرانسیل و انتگرال یعنی پس انتشار مشتق جزئی خطا را با توجه به هر پارامتر محاسبه می کند.
سالها پیش، تمرینکنندگان ML مجبور بودند کدی را برای پیادهسازی انتشار پسانداز بنویسند. API های مدرن ML مانند Keras اکنون پس انتشار را برای شما پیاده سازی می کنند. اوه!
برای اطلاعات بیشتر ، شبکه های عصبی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
دسته ای
مجموعه مثال های مورد استفاده در یک تکرار آموزشی. اندازه دسته تعداد نمونه ها را در یک دسته تعیین می کند.
برای توضیح نحوه ارتباط یک دسته با یک دوره، به epoch مراجعه کنید.
برای اطلاعات بیشتر به رگرسیون خطی: Hyperparameters in Machine Learning Crash Course مراجعه کنید.
اندازه دسته
تعداد نمونه ها در یک دسته . به عنوان مثال، اگر اندازه دسته 100 باشد، مدل در هر تکرار 100 نمونه را پردازش می کند.
استراتژی های اندازه دسته ای محبوب زیر هستند:
- نزول گرادیان تصادفی (SGD) که در آن اندازه دسته 1 است.
- دسته کامل، که در آن اندازه دسته، تعداد نمونههای کل مجموعه آموزشی است. به عنوان مثال، اگر مجموعه آموزشی حاوی یک میلیون مثال باشد، اندازه دسته ای یک میلیون نمونه خواهد بود. دسته کامل معمولا یک استراتژی ناکارآمد است.
- مینی بچ که در آن اندازه دسته معمولا بین 10 تا 1000 است. مینی بچ معمولا کارآمدترین استراتژی است.
برای اطلاعات بیشتر به ادامه مطلب مراجعه کنید:
- سیستمهای ML تولید: استنتاج استاتیک در مقابل پویا در دوره تصادف یادگیری ماشین.
- کتاب راهنما تنظیم یادگیری عمیق .
تعصب (اخلاق / انصاف)
1. کلیشه سازی، تعصب یا طرفداری نسبت به برخی چیزها، افراد یا گروه ها نسبت به دیگران. این سوگیری ها می توانند بر جمع آوری و تفسیر داده ها، طراحی یک سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارند. اشکال این نوع سوگیری عبارتند از:
- تعصب اتوماسیون
- سوگیری تایید
- تعصب آزمایشگر
- سوگیری اسناد گروهی
- سوگیری ضمنی
- تعصب درون گروهی
- سوگیری همگنی برون گروهی
2. خطای سیستماتیک معرفی شده توسط یک روش نمونه گیری یا گزارش. اشکال این نوع سوگیری عبارتند از:
نباید با اصطلاح سوگیری در مدلهای یادگیری ماشین یا سوگیری پیشبینی اشتباه گرفته شود.
برای اطلاعات بیشتر به Fairness: Types of Bias in Machine Learning Crash Course مراجعه کنید.
تعصب (ریاضی) یا اصطلاح سوگیری
رهگیری یا جبران از مبدأ. تعصب یک پارامتر در مدل های یادگیری ماشینی است که با یکی از موارد زیر نشان داده می شود:
- ب
- w 0
به عنوان مثال، بایاس b در فرمول زیر است:
در یک خط دوبعدی ساده، بایاس فقط به معنای «قطعه y» است. به عنوان مثال، بایاس خط در تصویر زیر 2 است.
تعصب وجود دارد زیرا همه مدل ها از مبدا (0,0) شروع نمی شوند. به عنوان مثال، فرض کنید یک پارک تفریحی برای ورود به آن 2 یورو و برای هر ساعت اقامت مشتری 0.5 یورو اضافی هزینه دارد. بنابراین، مدلی که هزینه کل را نگاشت می کند، بایاس 2 دارد زیرا کمترین هزینه 2 یورو است.
سوگیری نباید با سوگیری در اخلاق و انصاف یا سوگیری پیش بینی اشتباه شود.
برای اطلاعات بیشتر به رگرسیون خطی در دوره تصادف یادگیری ماشین مراجعه کنید.
طبقه بندی باینری
یک نوع کار طبقه بندی که یکی از دو کلاس منحصر به فرد را پیش بینی می کند:
به عنوان مثال، دو مدل یادگیری ماشین زیر، هر کدام دسته بندی باینری را انجام می دهند:
- مدلی که تعیین میکند پیامهای ایمیل هرزنامه هستند (کلاس مثبت) یا اسپم نیستند (کلاس منفی).
- مدلی که علائم پزشکی را ارزیابی می کند تا مشخص کند آیا یک فرد دارای یک بیماری خاص (طبقه مثبت) است یا آن بیماری (طبقه منفی) را ندارد.
در تقابل با طبقه بندی چند طبقه .
همچنین به رگرسیون لجستیک و آستانه طبقه بندی مراجعه کنید.
برای اطلاعات بیشتر به طبقه بندی در دوره تصادف یادگیری ماشین مراجعه کنید.
سطل سازی
تبدیل یک ویژگی واحد به چندین ویژگی باینری به نام سطل یا bins ، که معمولاً بر اساس یک محدوده مقدار است. ویژگی خرد شده معمولاً یک ویژگی پیوسته است.
به عنوان مثال، به جای نمایش دما به عنوان یک ویژگی ممیز شناور منفرد، می توانید محدوده دما را به سطل های مجزا تقسیم کنید، مانند:
- <= 10 درجه سانتیگراد سطل "سرد" خواهد بود.
- 11 تا 24 درجه سانتیگراد سطل "معتدل" خواهد بود.
- >= 25 درجه سانتیگراد سطل "گرم" خواهد بود.
مدل با هر مقدار در یک سطل یکسان رفتار می کند. به عنوان مثال، مقادیر 13
و 22
هر دو در سطل معتدل هستند، بنابراین مدل با دو مقدار یکسان رفتار می کند.
برای اطلاعات بیشتر به دادههای عددی: Binning in Machine Learning Crash Course مراجعه کنید.
سی
داده های طبقه بندی شده
ویژگی هایی که مجموعه خاصی از مقادیر ممکن را دارند. به عنوان مثال، یک ویژگی طبقه بندی به نام traffic-light-state
را در نظر بگیرید که فقط می تواند یکی از سه مقدار ممکن زیر را داشته باشد:
-
red
-
yellow
-
green
با نشان دادن traffic-light-state
به عنوان یک ویژگی طبقهبندی، یک مدل میتواند تأثیرات متفاوت red
، green
و yellow
بر رفتار راننده بیاموزد.
ویژگیهای طبقهبندی گاهی اوقات ویژگیهای گسسته نامیده میشوند.
در مقابل داده های عددی .
برای اطلاعات بیشتر، کار با داده های طبقه بندی شده را در دوره تصادف یادگیری ماشینی ببینید.
کلاس
دسته ای که یک برچسب می تواند به آن تعلق داشته باشد. به عنوان مثال:
- در یک مدل طبقهبندی باینری که هرزنامه را شناسایی میکند، این دو کلاس ممکن است هرزنامه باشند و نه هرزنامه .
- در یک مدل طبقهبندی چند طبقه که نژادهای سگ را مشخص میکند، کلاسها ممکن است پودل ، بیگل ، پاگ و غیره باشند.
یک مدل طبقه بندی یک کلاس را پیش بینی می کند. در مقابل، یک مدل رگرسیون یک عدد را به جای یک کلاس پیش بینی می کند.
برای اطلاعات بیشتر به طبقه بندی در دوره تصادف یادگیری ماشین مراجعه کنید.
مدل طبقه بندی
مدلی که پیشبینی آن یک کلاس است. به عنوان مثال، موارد زیر همه مدل های طبقه بندی هستند:
- مدلی که زبان جمله ورودی (فرانسوی؟ اسپانیایی؟ ایتالیایی؟) را پیش بینی می کند.
- مدلی که گونه های درختی (افرا؟ بلوط؟ بائوباب؟) را پیش بینی می کند.
- مدلی که کلاس مثبت یا منفی را برای یک بیماری خاص پیش بینی می کند.
در مقابل، مدل های رگرسیون اعداد را به جای کلاس ها پیش بینی می کنند.
دو نوع رایج از مدل های طبقه بندی عبارتند از:
آستانه طبقه بندی
در یک طبقه بندی باینری ، عددی بین 0 و 1 که خروجی خام یک مدل رگرسیون لجستیک را به پیش بینی کلاس مثبت یا منفی تبدیل می کند. توجه داشته باشید که آستانه طبقه بندی مقداری است که یک انسان انتخاب می کند، نه ارزشی که توسط آموزش مدل انتخاب شده است.
یک مدل رگرسیون لجستیک یک مقدار خام بین 0 و 1 خروجی می دهد. سپس:
- اگر این مقدار خام بیشتر از آستانه طبقه بندی باشد، کلاس مثبت پیش بینی می شود.
- اگر این مقدار خام کمتر از آستانه طبقه بندی باشد، کلاس منفی پیش بینی می شود.
به عنوان مثال، فرض کنید آستانه طبقه بندی 0.8 باشد. اگر مقدار خام 0.9 باشد، مدل کلاس مثبت را پیش بینی می کند. اگر مقدار خام 0.7 باشد، مدل کلاس منفی را پیش بینی می کند.
انتخاب آستانه طبقه بندی به شدت بر تعداد مثبت کاذب و منفی کاذب تأثیر می گذارد.
برای اطلاعات بیشتر ، آستانهها و ماتریس سردرگمی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
طبقه بندی کننده
یک اصطلاح معمولی برای یک مدل طبقه بندی .
مجموعه داده های کلاس نامتعادل
مجموعه داده ای برای طبقه بندی که در آن تعداد کل برچسب های هر کلاس به طور قابل توجهی متفاوت است. به عنوان مثال، یک مجموعه داده طبقه بندی باینری را در نظر بگیرید که دو برچسب آن به صورت زیر تقسیم می شوند:
- 1,000,000 برچسب منفی
- 10 برچسب مثبت
نسبت برچسب های منفی به مثبت 100000 به 1 است، بنابراین این یک مجموعه داده با کلاس نامتعادل است.
در مقابل، مجموعه داده زیر با کلاس متعادل است زیرا نسبت برچسب های منفی به برچسب های مثبت نسبتا نزدیک به 1 است:
- 517 برچسب منفی
- 483 برچسب مثبت
مجموعه دادههای چند کلاسه نیز میتوانند دارای عدم تعادل کلاسی باشند. به عنوان مثال، مجموعه داده طبقهبندی چند کلاسه زیر نیز از نظر کلاس نامتعادل است، زیرا یک برچسب نمونههای بسیار بیشتری نسبت به دو برچسب دیگر دارد:
- 1,000,000 برچسب با کلاس "سبز"
- 200 برچسب با کلاس "بنفش"
- 350 برچسب با کلاس "نارنجی"
آموزش مجموعه داده های نامتعادل طبقاتی می تواند چالش های ویژه ای ایجاد کند. برای جزئیات ، مجموعه دادههای نامتعادل را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
همچنین به آنتروپی ، کلاس اکثریت و کلاس اقلیت مراجعه کنید.
بریدن
تکنیکی برای رسیدگی به موارد پرت با انجام یکی یا هر دو مورد زیر:
- کاهش مقادیر ویژگی که بیشتر از یک آستانه حداکثر است تا آن آستانه حداکثر.
- افزایش مقادیر ویژگی که کمتر از یک آستانه حداقل تا آن آستانه حداقل است.
برای مثال، فرض کنید که <0.5٪ از مقادیر یک ویژگی خاص خارج از محدوده 40-60 باشد. در این صورت می توانید کارهای زیر را انجام دهید:
- تمام مقادیر بالای 60 (حداکثر آستانه) را دقیقاً 60 کنید.
- تمام مقادیر زیر 40 (حداقل آستانه) را دقیقاً 40 کنید.
پرت ها می توانند به مدل ها آسیب برسانند و گاهی اوقات باعث سرریز وزنه ها در طول تمرین می شوند. برخی از نقاط پرت نیز می توانند به طور چشمگیری معیارهایی مانند دقت را خراب کنند. برش یک تکنیک رایج برای محدود کردن آسیب است.
برش گرادیان مقادیر گرادیان را در یک محدوده تعیین شده در طول تمرین مجبور می کند.
برای اطلاعات بیشتر به داده های عددی: عادی سازی در دوره تصادف یادگیری ماشین مراجعه کنید.
ماتریس سردرگمی
یک جدول NxN که تعداد پیشبینیهای صحیح و نادرست را که یک مدل طبقهبندی انجام داده است، خلاصه میکند. به عنوان مثال، ماتریس سردرگمی زیر را برای یک مدل طبقه بندی باینری در نظر بگیرید:
تومور (پیش بینی شده) | غیر توموری (پیش بینی شده) | |
---|---|---|
تومور (حقیقت زمینی) | 18 (TP) | 1 (FN) |
غیر تومور (حقیقت زمینی) | 6 (FP) | 452 (TN) |
ماتریس سردرگمی قبلی موارد زیر را نشان می دهد:
- از 19 پیشبینی که در آنها حقیقت پایه تومور بود، مدل 18 را به درستی و 1 را به اشتباه طبقهبندی کرد.
- از 458 پیشبینی که در آنها حقیقت پایه غیرتوموری بود، مدل 452 را به درستی و 6 را به اشتباه طبقهبندی کرد.
ماتریس سردرگمی برای یک مسئله طبقه بندی چند طبقه می تواند به شما در شناسایی الگوهای اشتباه کمک کند. به عنوان مثال، ماتریس سردرگمی زیر را برای یک مدل طبقهبندی چند کلاسه سه کلاسه در نظر بگیرید که سه نوع عنبیه مختلف (ویرجینیکا، ورسیکالر و ستوزا) را دستهبندی میکند. زمانی که حقیقت اصلی ویرجینیکا بود، ماتریس سردرگمی نشان میدهد که این مدل به احتمال زیاد Versicolor را به اشتباه پیشبینی میکرد تا Setosa:
ستوزا (پیش بینی شده) | Versicolor (پیشبینی شده) | ویرجینیکا (پیش بینی شده) | |
---|---|---|---|
ستوسا (حقیقت زمینی) | 88 | 12 | 0 |
Versicolor (حقیقت زمینی) | 6 | 141 | 7 |
ویرجینیکا (حقیقت زمینی) | 2 | 27 | 109 |
به عنوان مثال دیگری، یک ماتریس سردرگمی میتواند نشان دهد که مدلی که برای تشخیص ارقام دستنویس آموزش دیده است، به اشتباه 9 را به جای 4 پیشبینی میکند، یا به اشتباه 1 را به جای 7 پیشبینی میکند.
ماتریس های سردرگمی حاوی اطلاعات کافی برای محاسبه انواع معیارهای عملکرد، از جمله دقت و یادآوری هستند .
ویژگی پیوسته
یک ویژگی ممیز شناور با دامنه نامتناهی از مقادیر ممکن، مانند دما یا وزن.
کنتراست با ویژگی گسسته .
همگرایی
حالتی به دست می آید که مقادیر زیان با هر تکرار خیلی کم یا اصلاً تغییر نمی کند. به عنوان مثال، منحنی ضرر زیر همگرایی را در حدود 700 تکرار نشان می دهد:
یک مدل زمانی همگرا می شود که آموزش اضافی مدل را بهبود نبخشد.
در یادگیری عمیق ، مقادیر از دست دادن گاهی اوقات ثابت می ماند یا تقریباً برای بسیاری از تکرارها قبل از اینکه در نهایت کاهش یابد، ثابت می ماند. در طول یک دوره طولانی مقادیر ثابت از دست دادن، ممکن است به طور موقت احساس کاذب همگرایی داشته باشید.
توقف زودهنگام را نیز ببینید.
برای اطلاعات بیشتر ، منحنیهای همگرایی و تلفات مدل را در دوره تصادف یادگیری ماشینی ببینید.
D
DataFrame
یک نوع داده محبوب پانداها برای نمایش مجموعه داده ها در حافظه.
یک DataFrame مشابه یک جدول یا یک صفحه گسترده است. هر ستون از یک DataFrame یک نام (یک سرصفحه) دارد و هر ردیف با یک عدد منحصر به فرد مشخص می شود.
هر ستون در یک DataFrame مانند یک آرایه دو بعدی ساختار یافته است، با این تفاوت که به هر ستون می توان نوع داده خاص خود را اختصاص داد.
همچنین به صفحه مرجع رسمی pandas.DataFrame مراجعه کنید.
مجموعه داده یا مجموعه داده
مجموعه ای از داده های خام، معمولا (اما نه منحصرا) در یکی از قالب های زیر سازماندهی شده است:
- یک صفحه گسترده
- یک فایل با فرمت CSV (مقادیر جدا شده با کاما).
مدل عمیق
یک شبکه عصبی حاوی بیش از یک لایه پنهان .
یک مدل عمیق، شبکه عصبی عمیق نیز نامیده می شود.
کنتراست با مدل عریض .
ویژگی متراکم
ویژگی که در آن اکثر یا همه مقادیر غیر صفر هستند، معمولاً تانسوری از مقادیر ممیز شناور است. به عنوان مثال، تانسور 10 عنصری زیر چگال است زیرا 9 مقدار آن غیر صفر است:
8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
کنتراست با ویژگی پراکنده .
عمق
مجموع موارد زیر در یک شبکه عصبی :
- تعداد لایه های پنهان
- تعداد لایه های خروجی که معمولاً 1 است
- تعداد لایه های تعبیه شده
به عنوان مثال، یک شبکه عصبی با پنج لایه پنهان و یک لایه خروجی دارای عمق 6 است.
توجه داشته باشید که لایه ورودی بر عمق تأثیر نمی گذارد.
ویژگی گسسته
ویژگی با مجموعه محدودی از مقادیر ممکن. برای مثال، یک ویژگی که مقادیر آن ممکن است فقط حیوانی ، گیاهی یا معدنی باشد، یک ویژگی گسسته (یا طبقهبندی) است.
کنتراست با ویژگی پیوسته .
پویا
کاری که به طور مکرر یا مداوم انجام می شود. اصطلاحات پویا و آنلاین در یادگیری ماشین مترادف هستند. موارد زیر کاربردهای رایج پویا و آنلاین در یادگیری ماشینی است:
- مدل پویا (یا مدل آنلاین ) مدلی است که به طور مکرر یا پیوسته بازآموزی می شود.
- آموزش پویا (یا آموزش آنلاین ) فرآیند آموزش مکرر یا مداوم است.
- استنتاج پویا (یا استنتاج آنلاین ) فرآیند تولید پیشبینیها بر حسب تقاضا است.
مدل پویا
مدلی که به طور مکرر (شاید حتی به طور مداوم) بازآموزی می شود. یک مدل پویا یک "یادگیرنده مادام العمر" است که دائماً با داده های در حال تکامل سازگار می شود. یک مدل پویا به عنوان مدل آنلاین نیز شناخته می شود.
کنتراست با مدل استاتیک .
E
توقف زودهنگام
روشی برای منظمسازی که شامل پایان دادن به تمرین قبل از کاهش افت تمرین است. در توقف اولیه، زمانی که از دست دادن مجموعه داده اعتبارسنجی شروع به افزایش میکند، عمداً آموزش مدل را متوقف میکنید. یعنی زمانی که عملکرد تعمیم بدتر می شود.
در مقابل خروج زودهنگام .
لایه جاسازی
یک لایه مخفی ویژه که بر روی یک ویژگی طبقه بندی با ابعاد بالا آموزش می دهد تا به تدریج بردار تعبیه ابعاد پایین تر را یاد بگیرد. یک لایه جاسازی شبکه عصبی را قادر میسازد تا بسیار کارآمدتر از آموزش فقط بر روی ویژگی طبقهبندی با ابعاد بالا آموزش ببیند.
برای مثال، زمین در حال حاضر از حدود 73000 گونه درختی پشتیبانی می کند. فرض کنید گونه درختی یک ویژگی در مدل شما باشد، بنابراین لایه ورودی مدل شما شامل یک بردار یک داغ به طول 73000 عنصر است. برای مثال، شاید baobab
چیزی شبیه به این نشان داده شود:
یک آرایه 73000 عنصری بسیار طولانی است. اگر یک لایه جاسازی به مدل اضافه نکنید، به دلیل ضرب 72999 صفر، آموزش بسیار وقت گیر خواهد بود. شاید لایه جاسازی را از 12 بعد انتخاب کنید. در نتیجه، لایه جاسازی به تدریج یک بردار تعبیه جدید برای هر گونه درختی را یاد می گیرد.
در شرایط خاص، هش جایگزین معقولی برای لایه جاسازی است.
برای اطلاعات بیشتر، به دوره آموزشی تصادفی آموزش ماشینی (Embeddings in Machine Learning) مراجعه کنید.
دوران
یک پاس آموزشی کامل در کل مجموعه آموزشی به طوری که هر نمونه یک بار پردازش شده است.
یک دوره نشان دهنده تکرارهای آموزشی اندازه N
/ دسته ای است که در آن N
تعداد کل نمونه ها است.
به عنوان مثال، موارد زیر را فرض کنید:
- مجموعه داده شامل 1000 نمونه است.
- اندازه دسته 50 نمونه است.
بنابراین، یک دوره واحد نیاز به 20 تکرار دارد:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
برای اطلاعات بیشتر به رگرسیون خطی: Hyperparameters in Machine Learning Crash Course مراجعه کنید.
مثال
مقادیر یک ردیف از ویژگی ها و احتمالاً یک برچسب . نمونه هایی در یادگیری تحت نظارت به دو دسته کلی تقسیم می شوند:
- یک مثال برچسب گذاری شده از یک یا چند ویژگی و یک برچسب تشکیل شده است. در طول آموزش از نمونه های برچسب دار استفاده می شود.
- یک مثال بدون برچسب شامل یک یا چند ویژگی است اما بدون برچسب. در طول استنتاج از نمونه های بدون برچسب استفاده می شود.
به عنوان مثال، فرض کنید در حال آموزش مدلی برای تعیین تأثیر شرایط آب و هوایی بر نمرات آزمون دانش آموزان هستید. در اینجا سه نمونه برچسب گذاری شده وجود دارد:
ویژگی ها | برچسب بزنید | ||
---|---|---|---|
دما | رطوبت | فشار | نمره آزمون |
15 | 47 | 998 | خوب |
19 | 34 | 1020 | عالی |
18 | 92 | 1012 | بیچاره |
در اینجا سه نمونه بدون برچسب آورده شده است:
دما | رطوبت | فشار | |
---|---|---|---|
12 | 62 | 1014 | |
21 | 47 | 1017 | |
19 | 41 | 1021 |
ردیف یک مجموعه داده معمولاً منبع خام برای مثال است. یعنی یک مثال معمولاً از زیر مجموعه ای از ستون های مجموعه داده تشکیل شده است. علاوه بر این، ویژگیهای یک مثال میتواند شامل ویژگیهای مصنوعی ، مانند تلاقی ویژگیها نیز باشد.
برای اطلاعات بیشتر، آموزش تحت نظارت را در دوره مقدماتی یادگیری ماشین ببینید.
اف
منفی کاذب (FN)
مثالی که در آن مدل به اشتباه کلاس منفی را پیش بینی می کند. برای مثال، مدل پیشبینی میکند که یک پیام ایمیل خاص هرزنامه نیست (کلاس منفی)، اما آن پیام ایمیل در واقع هرزنامه است .
مثبت کاذب (FP)
مثالی که در آن مدل به اشتباه کلاس مثبت را پیش بینی می کند. برای مثال، مدل پیشبینی میکند که یک پیام ایمیل خاص هرزنامه است (کلاس مثبت)، اما آن پیام ایمیل در واقع هرزنامه نیست .
برای اطلاعات بیشتر ، آستانهها و ماتریس سردرگمی را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
نرخ مثبت کاذب (FPR)
نسبت مثالهای منفی واقعی که مدل به اشتباه کلاس مثبت را پیشبینی کرده است. فرمول زیر نرخ مثبت کاذب را محاسبه می کند:
نرخ مثبت کاذب، محور x در منحنی ROC است.
برای اطلاعات بیشتر به طبقه بندی: ROC و AUC در دوره تصادف یادگیری ماشینی مراجعه کنید.
ویژگی
یک متغیر ورودی به یک مدل یادگیری ماشینی یک مثال از یک یا چند ویژگی تشکیل شده است. به عنوان مثال، فرض کنید در حال آموزش مدلی برای تعیین تأثیر شرایط آب و هوایی بر نمرات آزمون دانش آموزان هستید. جدول زیر سه نمونه را نشان می دهد که هر کدام شامل سه ویژگی و یک برچسب است:
ویژگی ها | برچسب بزنید | ||
---|---|---|---|
دما | رطوبت | فشار | نمره آزمون |
15 | 47 | 998 | 92 |
19 | 34 | 1020 | 84 |
18 | 92 | 1012 | 87 |
کنتراست با برچسب
برای اطلاعات بیشتر، آموزش تحت نظارت را در دوره مقدماتی یادگیری ماشین ببینید.
متقاطع ویژگی
یک ویژگی مصنوعی که با "تقاطع" ویژگی های طبقه بندی شده یا سطلی شکل می گیرد.
به عنوان مثال، یک مدل "پیش بینی خلق و خو" را در نظر بگیرید که دما را در یکی از چهار سطل زیر نشان می دهد:
-
freezing
-
chilly
-
temperate
-
warm
و سرعت باد را در یکی از سه سطل زیر نشان می دهد:
-
still
-
light
-
windy
بدون تلاقی ویژگی ها، مدل خطی به طور مستقل در هر یک از هفت سطل مختلف قبلی تمرین می کند. بنابراین، این مدل به عنوان مثال، مستقل از آموزش، به عنوان مثال، در windy
freezing
تمرین می کند.
از طرف دیگر، می توانید یک تلاقی ویژگی از دما و سرعت باد ایجاد کنید. این ویژگی مصنوعی دارای 12 مقدار ممکن زیر است:
-
freezing-still
-
freezing-light
-
freezing-windy
-
chilly-still
-
chilly-light
-
chilly-windy
-
temperate-still
-
temperate-light
-
temperate-windy
-
warm-still
-
warm-light
-
warm-windy
به لطف ویژگیهای ضربدری، این مدل میتواند تفاوتهای خلقی را بین یک روز freezing-windy
و یک روز freezing-still
بیاموزد.
اگر یک ویژگی مصنوعی از دو ویژگی ایجاد کنید که هر کدام دارای سطل های مختلف هستند، ویژگی متقاطع حاصل تعداد زیادی ترکیب ممکن خواهد داشت. به عنوان مثال، اگر یک ویژگی دارای 1000 سطل و ویژگی دیگر دارای 2000 سطل باشد، متقاطع ویژگی حاصل دارای 2،000،000 سطل است.
به طور رسمی، صلیب یک محصول دکارتی است.
تلاقی ویژگی ها بیشتر با مدل های خطی استفاده می شود و به ندرت برای شبکه های عصبی استفاده می شود.
برای اطلاعات بیشتر، دادههای دستهبندی: تلاقی ویژگیها را در دوره تصادف یادگیری ماشینی ببینید.
مهندسی ویژگی
فرآیندی که شامل مراحل زیر است:
- تعیین اینکه کدام ویژگی ممکن است در آموزش یک مدل مفید باشد.
- تبدیل داده های خام از مجموعه داده به نسخه های کارآمد آن ویژگی ها.
برای مثال، ممکن است تعیین کنید که temperature
ممکن است یک ویژگی مفید باشد. سپس، میتوانید با سطلسازی آزمایش کنید تا آنچه را که مدل میتواند از محدودههای temperature
مختلف بیاموزد، بهینه کنید.
مهندسی ویژگی گاهی اوقات استخراج ویژگی یا ویژگی نامیده می شود.
برای اطلاعات بیشتر به دادههای عددی مراجعه کنید: چگونه یک مدل دادهها را با استفاده از بردارهای ویژگی در دوره تصادف یادگیری ماشین دریافت میکند .
مجموعه ویژگی
گروهی از ویژگیها که مدل یادگیری ماشین شما در آن آموزش میبیند. به عنوان مثال، مجموعه ای از ویژگی های ساده برای مدلی که قیمت مسکن را پیش بینی می کند ممکن است شامل کد پستی، اندازه ملک و وضعیت ملک باشد.
بردار ویژگی
آرایه ای از مقادیر ویژگی شامل یک مثال است. بردار ویژگی در حین آموزش و در حین استنتاج ورودی است. برای مثال، بردار ویژگی برای یک مدل با دو ویژگی گسسته ممکن است:
[0.92, 0.56]
هر مثال مقادیر مختلفی را برای بردار ویژگی فراهم می کند ، بنابراین بردار ویژگی برای مثال بعدی می تواند چیزی شبیه باشد:
[0.73, 0.49]
مهندسی ویژگی نحوه نمایش ویژگی ها در بردار ویژگی را تعیین می کند. به عنوان مثال ، یک ویژگی طبقه بندی باینری با پنج مقدار ممکن ممکن است با رمزگذاری یک داغ نشان داده شود. در این حالت ، بخشی از بردار ویژگی برای یک مثال خاص شامل چهار صفر و یک موقعیت 1.0 در موقعیت سوم است ، به شرح زیر:
[0.0, 0.0, 1.0, 0.0, 0.0]
به عنوان نمونه دیگر ، فرض کنید مدل شما از سه ویژگی تشکیل شده است:
- یک ویژگی طبقه بندی باینری با پنج مقدار ممکن که با رمزگذاری یک داغ نشان داده شده است. به عنوان مثال:
[0.0, 1.0, 0.0, 0.0, 0.0]
- یکی دیگر از ویژگی های طبقه بندی باینری با سه مقدار ممکن که با رمزگذاری یک داغ نشان داده شده است. به عنوان مثال:
[0.0, 0.0, 1.0]
- یک ویژگی نقطه شناور ؛ به عنوان مثال:
8.3
.
در این حالت ، بردار ویژگی برای هر مثال توسط نه مقدار نشان داده می شود. با توجه به مقادیر مثال در لیست قبلی ، بردار ویژگی:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
حلقه بازخورد
در یادگیری ماشین ، وضعیتی که پیش بینی های یک مدل بر داده های آموزش برای همان مدل یا مدل دیگر تأثیر می گذارد. به عنوان مثال ، مدلی که فیلم ها را توصیه می کند ، فیلم هایی را که افراد می بینند تأثیر می گذارد ، که در این صورت بر مدل های توصیه فیلم بعدی تأثیر می گذارد.
برای اطلاعات بیشتر به سیستم ML Systems: سؤالاتی که باید در دوره تصادف یادگیری ماشین بپرسید ، مراجعه کنید.
جی
تعمیم
توانایی یک مدل در پیش بینی های صحیح در مورد داده های جدید و قبلاً دیده نشده است. مدلی که می تواند تعمیم دهد ، برعکس مدلی است که بیش از حد مناسب است.
برای کسب اطلاعات بیشتر به تعمیم در دوره Crash Learning Machine مراجعه کنید.
منحنی تعمیم
یک طرح از دست دادن آموزش و از دست دادن اعتبارسنجی به عنوان تابعی از تعداد تکرارها .
یک منحنی تعمیم می تواند به شما در تشخیص بیش از حد احتمالی کمک کند. به عنوان مثال ، منحنی عمومی سازی زیر حاکی از افزایش بیش از حد است زیرا در نهایت از دست دادن اعتبار سنجی به طور قابل توجهی بالاتر از دست دادن آموزش است.
برای کسب اطلاعات بیشتر به تعمیم در دوره Crash Learning Machine مراجعه کنید.
نزول شیب
یک تکنیک ریاضی برای به حداقل رساندن ضرر . نزول شیب به طور تکراری وزن و تعصب را تنظیم می کند ، به تدریج بهترین ترکیب را برای به حداقل رساندن از دست دادن پیدا می کند.
نزول شیب قدیمی تر از یادگیری ماشین بسیار قدیمی تر است.
برای کسب اطلاعات بیشتر به رگرسیون خطی: نزول شیب در دوره تصادف Learning Machine مراجعه کنید.
حقیقت زمین
واقعیت.
اتفاقی که در واقع اتفاق افتاد.
به عنوان مثال ، یک مدل طبقه بندی باینری را در نظر بگیرید که پیش بینی می کند که آیا دانشجویی در سال اول دانشگاه خود طی شش سال فارغ التحصیل خواهد شد. حقیقت زمینی برای این مدل این است که آیا دانش آموز در واقع طی شش سال فارغ التحصیل شده است یا خیر.
اچ
لایه پنهان
یک لایه در یک شبکه عصبی بین لایه ورودی (ویژگی ها) و لایه خروجی (پیش بینی). هر لایه پنهان از یک یا چند نورون تشکیل شده است. به عنوان مثال ، شبکه عصبی زیر شامل دو لایه پنهان است ، اول با سه نورون و دوم با دو نورون:
یک شبکه عصبی عمیق حاوی بیش از یک لایه پنهان است. به عنوان مثال ، تصویر قبلی یک شبکه عصبی عمیق است زیرا این مدل حاوی دو لایه پنهان است.
برای اطلاعات بیشتر به شبکه های عصبی: گره ها و لایه های پنهان در دوره Crash Learning Machine مراجعه کنید.
بیشه
متغیرهایی که شما یا یک سرویس تنظیم Hyperparameter هستیددر طول دوره های پی در پی آموزش یک مدل تنظیم کنید. به عنوان مثال ، میزان یادگیری یک هیپرپارامتر است. می توانید قبل از یک جلسه آموزشی ، نرخ یادگیری را روی 0.01 تنظیم کنید. اگر تعیین کنید که 0.01 خیلی زیاد است ، شاید می توانید نرخ یادگیری را برای جلسه آموزشی بعدی 0.003 تعیین کنید.
در مقابل ، پارامترها وزن و تعصب مختلفی هستند که مدل در طول آموزش می آموزد .
برای اطلاعات بیشتر به رگرسیون خطی مراجعه کنید: HyperParameters در دوره Crash Learning Machine.
من
به طور مستقل و یکسان توزیع شده (IID)
داده های حاصل از توزیع که تغییر نمی کند ، و جایی که هر مقدار ترسیم شده به مقادیری که قبلاً ترسیم شده اند بستگی ندارد. IID گاز ایده آل یادگیری ماشین است - یک ساختار ریاضی مفید اما تقریباً هرگز در دنیای واقعی یافت نمی شود. به عنوان مثال ، توزیع بازدید کنندگان به یک صفحه وب ممکن است در یک پنجره کوتاه از زمان باشد. یعنی توزیع در طی آن پنجره مختصر تغییر نمی کند و بازدید یک نفر به طور کلی مستقل از بازدید شخص دیگر است. با این حال ، اگر آن پنجره زمان را گسترش دهید ، ممکن است تفاوت های فصلی در بازدید کنندگان صفحه وب ظاهر شود.
همچنین به غیر استیجت مراجعه کنید.
استنتاج
در یادگیری ماشین سنتی ، فرایند پیش بینی با استفاده از یک مدل آموزش دیده در مثالهای بدون برچسب . برای کسب اطلاعات بیشتر به یادگیری نظارت شده در دوره معرفی به ML مراجعه کنید.
در مدلهای بزرگ زبان ، استنباط فرایند استفاده از یک مدل آموزش دیده برای ایجاد پاسخ به یک فوری ورودی است.
استنتاج در آمار معنای کمی متفاوت دارد. برای جزئیات بیشتر به مقاله ویکی پدیا در مورد استنتاج آماری مراجعه کنید.
لایه ورودی
لایه یک شبکه عصبی که دارای بردار ویژگی است. یعنی لایه ورودی نمونه هایی را برای آموزش یا استنباط ارائه می دهد. به عنوان مثال ، لایه ورودی در شبکه عصبی زیر از دو ویژگی تشکیل شده است:
تفسیر پذیری
توانایی توضیح یا ارائه استدلال یک مدل ML به صورت قابل درک به یک انسان.
به عنوان مثال ، بیشتر مدل های رگرسیون خطی بسیار قابل تفسیر هستند. (شما فقط باید به وزن های آموزش دیده برای هر ویژگی نگاه کنید.) جنگل های تصمیم گیری نیز بسیار قابل تفسیر هستند. با این حال ، برخی از مدل ها برای تفسیر قابل تفسیر نیاز به تجسم پیچیده دارند.
برای تفسیر مدل های ML می توانید از ابزار تفسیر یادگیری (LIT) استفاده کنید.
تکرار
یک به روزرسانی واحد از پارامترهای یک مدل - وزن و تعصب مدل - آموزش . اندازه دسته ای تعیین می کند که چند نمونه از مدل در یک تکرار واحد فرآیند می کند. به عنوان مثال ، اگر اندازه دسته ای 20 باشد ، مدل قبل از تنظیم پارامترها 20 نمونه را پردازش می کند.
هنگام آموزش یک شبکه عصبی ، یک تکرار واحد شامل دو پاس زیر است:
- یک پاس رو به جلو برای ارزیابی ضرر در یک دسته واحد.
- یک پاس به عقب ( backpropagation ) برای تنظیم پارامترهای مدل بر اساس ضرر و میزان یادگیری.
برای کسب اطلاعات بیشتر به شیب نزول در دوره Crash Learning Machine مراجعه کنید.
L
تنظیم منظم
نوعی منظم سازی که تعداد کل وزن های غیرزرو را در یک مدل مجازات می کند. به عنوان مثال ، یک مدل با 11 وزن غیرزرو بیش از یک مدل مشابه با 10 وزن غیرزرو مجازات می شود.
تنظیم مجدد L 0 گاهی اوقات تنظیم L0-NORM نامیده می شود.
L 1 ضرر
یک تابع از دست دادن که مقدار مطلق تفاوت بین مقادیر برچسب واقعی و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. به عنوان مثال ، در اینجا محاسبه از دست دادن L 1 برای دسته ای از پنج مثال آورده شده است:
مقدار واقعی مثال | مقدار پیش بینی شده مدل | مقدار مطلق دلتا |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L 1 ضرر |
L 1 از دست دادن نسبت به Outliers نسبت به L 2 از دست دادن حساسیت کمتری دارد.
میانگین خطای مطلق میانگین ضرر L 1 در هر مثال است.
برای کسب اطلاعات بیشتر به رگرسیون خطی مراجعه کنید: از دست دادن در دوره تصادف یادگیری ماشین.
l 1 منظم سازی
نوعی منظم سازی که وزن ها را متناسب با مجموع مقدار مطلق وزنها مجازات می کند. تنظیم منظم L 1 به هدایت وزن ویژگی های بی ربط یا به سختی مرتبط با دقیقاً 0 کمک می کند. یک ویژگی با وزن 0 به طور موثری از مدل حذف می شود.
کنتراست با تنظیم مجدد L 2 .
L 2 ضرر
یک تابع از دست دادن که مربع تفاوت بین مقادیر برچسب واقعی و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. به عنوان مثال ، در اینجا محاسبه از دست دادن L 2 برای دسته ای از پنج مثال آورده شده است:
مقدار واقعی مثال | مقدار پیش بینی شده مدل | مربع دلتا |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L 2 ضرر |
با توجه به مربع ، L 2 ضرر تأثیر دور را تقویت می کند. یعنی L 2 ضرر نسبت به از دست دادن L 1 نسبت به پیش بینی های بد واکنش نشان می دهد. به عنوان مثال ، ضرر L 1 برای دسته قبلی 8 خواهد بود و نه 16.
مدل های رگرسیون به طور معمول از L 2 از دست دادن به عنوان عملکرد از دست دادن استفاده می کنند.
میانگین خطای مربع میانگین از دست دادن L 2 در هر مثال است. از دست دادن مربع نام دیگری برای از دست دادن L 2 است.
برای کسب اطلاعات بیشتر به رگرسیون لجستیک: از دست دادن و تنظیم در دوره تصادف یادگیری ماشین مراجعه کنید.
تنظیم منظم L 2
نوعی منظم سازی که وزن را متناسب با مجموع مربع وزن ها مجازات می کند. تنظیم مجدد L 2 به رانندگی وزنهای دورتر (کسانی که دارای مقادیر منفی مثبت یا پایین هستند) به 0 نزدیک می شود اما کاملاً به 0 نیست . ویژگی هایی با مقادیر بسیار نزدیک به 0 در مدل باقی می مانند اما پیش بینی مدل را بسیار تحت تأثیر قرار نمی دهد.
تنظیم مجدد L 2 همیشه تعمیم در مدلهای خطی را بهبود می بخشد.
کنتراست با تنظیم مجدد L 1 .
برای کسب اطلاعات بیشتر به Overfittion مراجعه کنید: تنظیم مجدد L2 در دوره Crash Learning Machine.
برچسب
در یادگیری ماشین تحت نظارت ، بخش "پاسخ" یا "نتیجه" از یک مثال .
هر مثال برچسب شامل یک یا چند ویژگی و یک برچسب است. به عنوان مثال ، در یک مجموعه داده تشخیص هرزنامه ، برچسب احتمالاً یا "هرزنامه" یا "نه هرزنامه" خواهد بود. در یک مجموعه داده بارندگی ، این برچسب ممکن است میزان باران باشد که در طی یک دوره خاص کاهش یافته است.
برای اطلاعات بیشتر به یادگیری نظارت شده در مقدمه یادگیری ماشین مراجعه کنید.
نمونه
نمونه ای که شامل یک یا چند ویژگی و یک برچسب است. به عنوان مثال ، جدول زیر سه نمونه برچسب زده شده از یک مدل ارزیابی خانه را نشان می دهد که هر کدام دارای سه ویژگی و یک برچسب است:
تعداد اتاق خواب | تعداد حمام ها | دوره خانه | قیمت خانه (برچسب) |
---|---|---|---|
3 | 2 | 15 | 345000 دلار |
2 | 1 | 72 | 179،000 دلار |
4 | 2 | 34 | 392،000 دلار |
در یادگیری ماشین تحت نظارت ، مدل ها بر روی نمونه های دارای برچسب آموزش می بینند و در مورد نمونه های بدون برچسب پیش بینی می کنند.
نمونه کنتراست با نمونه های بدون برچسب.
برای اطلاعات بیشتر به یادگیری نظارت شده در مقدمه یادگیری ماشین مراجعه کنید.
لامبدا
مترادف برای نرخ منظم .
لامبدا یک اصطلاح بیش از حد است. در اینجا ما روی تعریف این اصطلاح در تنظیم مجدد تمرکز می کنیم.
لایه
مجموعه ای از نورون ها در یک شبکه عصبی . سه نوع لایه مشترک به شرح زیر است:
- لایه ورودی ، که مقادیر همه ویژگی ها را فراهم می کند.
- یک یا چند لایه پنهان ، که روابط غیرخطی بین ویژگی ها و برچسب پیدا می کنند.
- لایه خروجی ، که پیش بینی را ارائه می دهد.
به عنوان مثال ، تصویر زیر یک شبکه عصبی با یک لایه ورودی ، دو لایه پنهان و یک لایه خروجی را نشان می دهد:
در TensorFlow ، لایه ها نیز توابع پایتون هستند که تانسور و گزینه های پیکربندی را به عنوان ورودی می گیرند و تنش های دیگر را به عنوان خروجی تولید می کنند.
میزان یادگیری
یک شماره نقطه شناور که به الگوریتم نزول شیب می گوید چگونه می توان وزن و تعصب را در هر تکرار تنظیم کرد. به عنوان مثال ، میزان یادگیری 0.3 می تواند وزن و تعصب را سه برابر قدرتمندتر از نرخ یادگیری 0.1 تنظیم کند.
میزان یادگیری یک هیپرپارامتر کلیدی است. اگر نرخ یادگیری را خیلی پایین تنظیم کنید ، آموزش بیش از حد طول می کشد. اگر نرخ یادگیری را خیلی زیاد تنظیم کنید ، نزول شیب اغلب در رسیدن به همگرایی مشکل دارد.
برای اطلاعات بیشتر به رگرسیون خطی مراجعه کنید: HyperParameters در دوره Crash Learning Machine.
خطی
رابطه بین دو یا چند متغیر که فقط از طریق افزودن و ضرب قابل نمایش هستند.
طرح یک رابطه خطی یک خط است.
تضاد با غیرخطی .
مدل خطی
مدلی که یک وزن در هر ویژگی را برای پیش بینی تعیین می کند. (مدل های خطی نیز دارای تعصب هستند.) در مقابل ، رابطه ویژگی ها با پیش بینی در مدل های عمیق به طور کلی غیرخطی است.
مدل های خطی معمولاً آموزش آسانتر و قابل تفسیر از مدل های عمیق هستند. با این حال ، مدل های عمیق می توانند روابط پیچیده ای بین ویژگی ها بیاموزند.
رگرسیون خطی و رگرسیون لجستیک دو نوع مدل خطی است.
رگرسیون خطی
نوعی مدل یادگیری ماشین که در آن هر دو مورد صحیح است:
رگرسیون خطی کنتراست با رگرسیون لجستیک . همچنین ، رگرسیون کنتراست با طبقه بندی .
برای کسب اطلاعات بیشتر به رگرسیون خطی در دوره Crash Learning Machine مراجعه کنید.
رگرسیون لجستیک
نوعی مدل رگرسیون که یک احتمال را پیش بینی می کند. مدل های رگرسیون لجستیک ویژگی های زیر را دارند:
- برچسب طبقه بندی شده است. اصطلاح رگرسیون لجستیک معمولاً به رگرسیون لجستیک باینری اشاره دارد ، یعنی به مدلی که احتمال را برای برچسب ها با دو مقدار ممکن محاسبه می کند. یک نوع کمتر متداول ، رگرسیون لجستیک چندمجمی ، احتمالات مربوط به برچسب ها را با بیش از دو مقدار ممکن محاسبه می کند.
- عملکرد ضرر در طول آموزش از دست دادن ورود به سیستم است. (چند واحد از دست دادن ورود به سیستم را می توان به طور موازی برای برچسب هایی با بیش از دو مقدار ممکن قرار داد.)
- این مدل دارای معماری خطی است ، نه یک شبکه عصبی عمیق. با این حال ، باقیمانده این تعریف همچنین در مورد مدل های عمیق که احتمال برچسب های طبقه بندی را پیش بینی می کند ، اعمال می شود.
به عنوان مثال ، یک مدل رگرسیون لجستیک را در نظر بگیرید که احتمال یک ایمیل ورودی یا هرزنامه یا اسپم را محاسبه می کند. در طول استنتاج ، فرض کنید مدل 0.72 را پیش بینی می کند. بنابراین ، مدل تخمین می زند:
- 72 ٪ شانس ایمیل در هرزنامه.
- 28 ٪ احتمال عدم اسپم ایمیل.
یک مدل رگرسیون لجستیک از معماری دو مرحله ای زیر استفاده می کند:
- این مدل با استفاده از یک تابع خطی از ویژگی های ورودی ، پیش بینی خام (y ') ایجاد می کند.
- این مدل از پیش بینی خام به عنوان ورودی به یک عملکرد سیگموئید استفاده می کند ، که پیش بینی خام را به یک مقدار بین 0 تا 1 تبدیل می کند ، منحصر به فرد.
مانند هر مدل رگرسیون ، یک مدل رگرسیون لجستیک تعدادی را پیش بینی می کند. با این حال ، این تعداد به طور معمول بخشی از یک مدل طبقه بندی باینری به شرح زیر می شود:
- اگر تعداد پیش بینی شده از آستانه طبقه بندی بیشتر باشد ، مدل طبقه بندی باینری کلاس مثبت را پیش بینی می کند.
- اگر تعداد پیش بینی شده کمتر از آستانه طبقه بندی باشد ، مدل طبقه بندی باینری کلاس منفی را پیش بینی می کند.
برای کسب اطلاعات بیشتر به رگرسیون لجستیک در دوره Crash Learning Machine مراجعه کنید.
از دست دادن ورود
عملکرد از دست دادن مورد استفاده در رگرسیون لجستیک باینری.
برای کسب اطلاعات بیشتر به رگرسیون لجستیک: از دست دادن و تنظیم در دوره تصادف یادگیری ماشین مراجعه کنید.
با ورود به سیستم
لگاریتم شانس برخی از رویدادها.
از دست دادن
در طول آموزش یک مدل نظارت شده ، معیاری از پیش بینی مدل تا چه اندازه از برچسب آن است.
یک تابع از دست دادن ضرر را محاسبه می کند.
برای کسب اطلاعات بیشتر به رگرسیون خطی مراجعه کنید: از دست دادن در دوره تصادف یادگیری ماشین.
منحنی ضرر
طرح از دست دادن به عنوان تابعی از تعداد تکرارهای آموزش. طرح زیر یک منحنی ضرر معمولی را نشان می دهد:
منحنی های از دست دادن می توانند به شما در تعیین زمان همگرا یا بیش از حد مدل کمک کنند.
منحنی های ضرر می توانند تمام انواع زیر را از دست بدهند:
همچنین به منحنی تعمیم مراجعه کنید.
برای کسب اطلاعات بیشتر ، به بیش از حد مراجعه کنید: تفسیر منحنی های ضرر در دوره تصادف Learning Machine.
تابع ضرر
در حین آموزش یا آزمایش ، یک عملکرد ریاضی که از بین رفتن در یک دسته از نمونه ها محاسبه می کند. یک عملکرد از دست دادن باعث از بین رفتن کمتر برای مدل هایی می شود که پیش بینی های خوبی را نسبت به مدل هایی که پیش بینی های بدی دارند ، ایجاد می کند.
هدف از آموزش به طور معمول به حداقل رساندن ضرر است که عملکرد ضرر باز می گردد.
انواع مختلفی از توابع ضرر وجود دارد. عملکرد ضرر مناسب را برای نوع مدلی که می سازید انتخاب کنید. به عنوان مثال:
- L 2 از دست دادن (یا میانگین خطای مربع ) عملکرد از دست دادن رگرسیون خطی است.
- از دست دادن ورود به سیستم عملکرد ضرر برای رگرسیون لجستیک است.
م
یادگیری ماشینی
برنامه یا سیستمی که یک مدل را از داده های ورودی آموزش می دهد . مدل آموزش دیده می تواند پیش بینی های مفیدی را از داده های جدید (هرگز دیده نشده) که از همان توزیع مشابه مورد استفاده برای آموزش مدل تهیه شده است ، پیش بینی کند.
یادگیری ماشین همچنین به زمینه تحصیلی مربوط به این برنامه ها یا سیستم ها اشاره دارد.
برای اطلاعات بیشتر به مقدمه دوره یادگیری ماشین مراجعه کنید.
طبقه اکثریت
برچسب رایج تر در یک مجموعه داده با کلاس متعادل . به عنوان مثال ، با توجه به یک مجموعه داده حاوی 99 ٪ برچسب منفی و 1 ٪ برچسب های مثبت ، برچسب های منفی کلاس اکثریت هستند.
تضاد با کلاس اقلیت .
برای اطلاعات بیشتر به مجموعه داده ها مراجعه کنید: مجموعه داده های نامتعادل در دوره Crash Learning Machine.
مینی دسته
یک زیر مجموعه کوچک و به طور تصادفی از یک دسته که در یک تکرار پردازش می شود. اندازه دسته ای از یک مینی دسته معمولاً بین 10 تا 1000 نمونه است.
به عنوان مثال ، فرض کنید کل مجموعه آموزش (دسته کامل) شامل 1000 نمونه است. علاوه بر این فرض کنید که اندازه دسته ای از هر مینی دسته را به 20 تنظیم کرده اید. بنابراین ، هر تکرار از دست دادن در 20 نمونه از 1000 نمونه را تعیین می کند و سپس وزن و تعصب را بر این اساس تنظیم می کند.
محاسبه ضرر در یک مینی دسته بسیار کارآمدتر از ضرر در تمام نمونه های موجود در دسته کامل است.
برای اطلاعات بیشتر به رگرسیون خطی مراجعه کنید: HyperParameters در دوره Crash Learning Machine.
طبقه اقلیت
برچسب کمتر متداول در یک مجموعه داده با کلاس متعادل . به عنوان مثال ، با توجه به یک مجموعه داده حاوی 99 ٪ برچسب منفی و 1 ٪ برچسب های مثبت ، برچسب های مثبت کلاس اقلیت هستند.
تضاد با کلاس اکثریت .
برای اطلاعات بیشتر به مجموعه داده ها مراجعه کنید: مجموعه داده های نامتعادل در دوره Crash Learning Machine.
مدل
به طور کلی ، هر ساختاری ریاضی که داده های ورودی را پردازش می کند و خروجی را باز می گرداند. با بیان متفاوت ، یک مدل مجموعه پارامترها و ساختار مورد نیاز برای یک سیستم برای پیش بینی است. در یادگیری ماشین تحت نظارت ، یک مدل به عنوان ورودی مثال می زند و پیش بینی را به عنوان خروجی نشان می دهد. در یادگیری ماشین تحت نظارت ، مدل ها تا حدودی متفاوت هستند. به عنوان مثال:
- یک مدل رگرسیون خطی شامل مجموعه ای از وزنه ها و تعصب است.
- یک مدل شبکه عصبی شامل موارد زیر است:
- مجموعه ای از لایه های پنهان ، هر یک حاوی یک یا چند نورون .
- وزن و تعصب مرتبط با هر نورون.
- یک مدل درخت تصمیم شامل موارد زیر است:
- شکل درخت ؛ یعنی الگویی که در آن شرایط و برگها به هم وصل شده است.
- شرایط و برگها.
می توانید از یک مدل ذخیره ، بازیابی یا تهیه کنید.
یادگیری دستگاه بدون نظارت همچنین مدل هایی را تولید می کند ، به طور معمول تابعی که می تواند یک نمونه ورودی را برای مناسب ترین خوشه ترسیم کند.
طبقه بندی چند طبقه
در یادگیری تحت نظارت ، یک مشکل طبقه بندی که در آن مجموعه داده شامل بیش از دو کلاس برچسب است. به عنوان مثال ، برچسب های موجود در مجموعه داده های Iris باید یکی از سه کلاس زیر باشد:
- ایریس ستوسا
- آیریس ویرجینیکا
- عنبیه
مدلی که در مجموعه داده های Iris آموزش داده شده است که نوع IRIS را در نمونه های جدید پیش بینی می کند ، انجام طبقه بندی چند کلاس است.
در مقابل ، مشکلات طبقه بندی که دقیقاً بین دو کلاس تمایز قائل هستند ، مدل های طبقه بندی باینری هستند. به عنوان مثال ، یک مدل ایمیل که اسپم را پیش بینی می کند یا نه هرزنامه یک مدل طبقه بندی باینری است.
در مشکلات خوشه بندی ، طبقه بندی چند طبقه به بیش از دو خوشه اشاره دارد.
برای کسب اطلاعات بیشتر به شبکه های عصبی: طبقه بندی چند طبقه در دوره تصادف یادگیری ماشین مراجعه کنید.
ن
طبقه منفی
در طبقه بندی باینری ، یک کلاس مثبت خوانده می شود و دیگری منفی نامیده می شود. کلاس مثبت چیز یا رویدادی است که مدل در حال آزمایش است و کلاس منفی احتمال دیگر است. به عنوان مثال:
- کلاس منفی در یک آزمایش پزشکی ممکن است "تومور" نباشد.
- کلاس منفی در یک مدل طبقه بندی ایمیل ممکن است "اسپم" نباشد.
تضاد با کلاس مثبت .
شبکه عصبی
یک مدل حاوی حداقل یک لایه پنهان . یک شبکه عصبی عمیق نوعی از شبکه عصبی است که حاوی بیش از یک لایه پنهان است. به عنوان مثال ، نمودار زیر یک شبکه عصبی عمیق حاوی دو لایه پنهان را نشان می دهد.
هر نورون در یک شبکه عصبی به تمام گره های لایه بعدی متصل می شود. به عنوان مثال ، در نمودار قبلی ، توجه کنید که هر یک از سه نورون در لایه اول پنهان به طور جداگانه به هر دو نورون در لایه پنهان دوم متصل می شوند.
شبکه های عصبی که بر روی رایانه ها اجرا می شوند ، گاهی اوقات شبکه های عصبی مصنوعی نامیده می شوند تا آنها را از شبکه های عصبی موجود در مغز و سایر سیستم های عصبی متمایز کنند.
برخی از شبکه های عصبی می توانند از روابط غیرخطی بسیار پیچیده بین ویژگی های مختلف و برچسب تقلید کنند.
همچنین به شبکه عصبی Convolutional و شبکه عصبی مکرر مراجعه کنید.
برای اطلاعات بیشتر به شبکه های عصبی در دوره Crash Learning Machine مراجعه کنید.
سویون
در یادگیری ماشین ، یک واحد مجزا در یک لایه پنهان از یک شبکه عصبی . هر نورون عملکرد دو مرحله ای زیر را انجام می دهد:
- مقدار وزنی مقادیر ورودی را ضرب شده توسط وزن مربوطه آنها محاسبه می کند.
- مبلغ وزنی را به عنوان ورودی به یک عملکرد فعال سازی منتقل می کند.
یک نورون در اولین لایه پنهان ورودی های مقادیر ویژگی موجود در لایه ورودی را می پذیرد. یک نورون در هر لایه پنهان فراتر از اولین ، ورودی های نورون ها را در لایه پنهان قبلی می پذیرد. به عنوان مثال ، یک نورون در لایه پنهان دوم ورودی های نورون ها را در لایه اول پنهان می پذیرد.
تصویر زیر دو نورون و ورودی های آنها را برجسته می کند.
یک نورون در یک شبکه عصبی از رفتار نورون ها در مغز و سایر قسمت های سیستم های عصبی تقلید می کند.
گره (شبکه عصبی)
یک نورون در یک لایه پنهان .
برای اطلاعات بیشتر به شبکه های عصبی در دوره Crash Learning Machine مراجعه کنید.
غیرخطی
رابطه بین دو یا چند متغیر که فقط از طریق افزودن و ضرب قابل نمایش نیستند. یک رابطه خطی را می توان به عنوان یک خط نشان داد. یک رابطه غیرخطی نمی تواند به عنوان یک خط ارائه شود. به عنوان مثال ، دو مدل را در نظر بگیرید که هر کدام یک ویژگی واحد را به یک برچسب واحد مرتبط می کنند. مدل در سمت چپ خطی است و مدل در سمت راست غیرخطی است:
به شبکه های عصبی مراجعه کنید: گره ها و لایه های پنهان در دوره Crash Learning Machine برای آزمایش با انواع مختلف عملکردهای غیرخطی.
غیر ایستاری
ویژگی ای که مقادیر آن در یک یا چند بعد تغییر می کند ، معمولاً زمان. به عنوان مثال ، مثالهای زیر از عدم استحکام را در نظر بگیرید:
- تعداد لباس های شنا که در یک فروشگاه خاص فروخته می شود با فصل متفاوت است.
- مقدار میوه خاصی که در یک منطقه خاص برداشت می شود برای بیشتر سال صفر است اما برای مدت کوتاهی بزرگ است.
- با توجه به تغییرات آب و هوایی ، میانگین دما سالانه در حال تغییر است.
تضاد با ثابت بودن .
عادی سازی
به طور گسترده ، فرایند تبدیل مقادیر واقعی یک متغیر به یک محدوده استاندارد از مقادیر ، مانند:
- -1 تا 1
- 0 تا 1
- Z -Scores (تقریباً -3 تا +3)
به عنوان مثال ، فرض کنید دامنه واقعی مقادیر یک ویژگی خاص 800 تا 2400 است. به عنوان بخشی از مهندسی ویژگی ، می توانید مقادیر واقعی را به یک محدوده استاندارد مانند -1 تا 1+ عادی کنید.
عادی سازی یک کار مشترک در مهندسی ویژگی است. مدل ها معمولاً سریعتر تمرین می کنند (و پیش بینی های بهتری را تولید می کنند) وقتی هر ویژگی عددی در بردار ویژگی تقریباً یکسان است.
همچنین به عادی سازی Z-نمره مراجعه کنید.
برای اطلاعات بیشتر به داده های عددی: عادی سازی در دوره Crash Learning Machine مراجعه کنید.
داده های عددی
ویژگی های ارائه شده به عنوان عدد صحیح یا اعداد با ارزش واقعی. به عنوان مثال ، یک مدل ارزیابی خانه احتمالاً اندازه یک خانه (در فوت مربع یا متر مربع) را به عنوان داده های عددی نشان می دهد. نمایندگی یک ویژگی به عنوان داده های عددی نشان می دهد که مقادیر ویژگی دارای یک رابطه ریاضی با برچسب است. یعنی تعداد متر مربع در یک خانه احتمالاً رابطه ریاضی با ارزش خانه دارد.
Not all integer data should be represented as numerical data. For example, postal codes in some parts of the world are integers; however, integer postal codes shouldn't be represented as numerical data in models. That's because a postal code of 20000
is not twice (or half) as potent as a postal code of 10000. Furthermore, although different postal codes do correlate to different real estate values, we can't assume that real estate values at postal code 20000 are twice as valuable as real estate values at postal code 10000. Postal codes should be represented as categorical data instead.
Numerical features are sometimes called continuous features .
See Working with numerical data in Machine Learning Crash Course for more information.
O
آفلاین
Synonym for static .
offline inference
The process of a model generating a batch of predictions and then caching (saving) those predictions. Apps can then access the inferred prediction from the cache rather than rerunning the model.
For example, consider a model that generates local weather forecasts (predictions) once every four hours. After each model run, the system caches all the local weather forecasts. Weather apps retrieve the forecasts from the cache.
Offline inference is also called static inference .
Contrast with online inference . See Production ML systems: Static versus dynamic inference in Machine Learning Crash Course for more information.
one-hot encoding
Representing categorical data as a vector in which:
- One element is set to 1.
- All other elements are set to 0.
One-hot encoding is commonly used to represent strings or identifiers that have a finite set of possible values. For example, suppose a certain categorical feature named Scandinavia
has five possible values:
- "Denmark"
- "Sweden"
- "Norway"
- "Finland"
- "Iceland"
One-hot encoding could represent each of the five values as follows:
کشور | بردار | ||||
---|---|---|---|---|---|
"Denmark" | 1 | 0 | 0 | 0 | 0 |
"Sweden" | 0 | 1 | 0 | 0 | 0 |
"Norway" | 0 | 0 | 1 | 0 | 0 |
"Finland" | 0 | 0 | 0 | 1 | 0 |
"Iceland" | 0 | 0 | 0 | 0 | 1 |
Thanks to one-hot encoding, a model can learn different connections based on each of the five countries.
Representing a feature as numerical data is an alternative to one-hot encoding. Unfortunately, representing the Scandinavian countries numerically is not a good choice. For example, consider the following numeric representation:
- "Denmark" is 0
- "Sweden" is 1
- "Norway" is 2
- "Finland" is 3
- "Iceland" is 4
With numeric encoding, a model would interpret the raw numbers mathematically and would try to train on those numbers. However, Iceland isn't actually twice as much (or half as much) of something as Norway, so the model would come to some strange conclusions.
See Categorical data: Vocabulary and one-hot encoding in Machine Learning Crash Course for more information.
one-vs.-all
Given a classification problem with N classes, a solution consisting of N separate binary classification model—one binary classification model for each possible outcome. For example, given a model that classifies examples as animal, vegetable, or mineral, a one-vs.-all solution would provide the following three separate binary classification models:
- animal versus not animal
- vegetable versus not vegetable
- mineral versus not mineral
آنلاین
Synonym for dynamic .
online inference
Generating predictions on demand. For example, suppose an app passes input to a model and issues a request for a prediction. A system using online inference responds to the request by running the model (and returning the prediction to the app).
Contrast with offline inference .
See Production ML systems: Static versus dynamic inference in Machine Learning Crash Course for more information.
output layer
The "final" layer of a neural network. The output layer contains the prediction.
The following illustration shows a small deep neural network with an input layer, two hidden layers, and an output layer:
بیش از حد
Creating a model that matches the training data so closely that the model fails to make correct predictions on new data.
Regularization can reduce overfitting. Training on a large and diverse training set can also reduce overfitting.
See Overfitting in Machine Learning Crash Course for more information.
پ
پانداها
A column-oriented data analysis API built on top of numpy . Many machine learning frameworks, including TensorFlow, support pandas data structures as inputs. See the pandas documentation for details.
پارامتر
The weights and biases that a model learns during training . For example, in a linear regression model, the parameters consist of the bias ( b ) and all the weights ( w 1 , w 2 , and so on) in the following formula:
In contrast, hyperparameters are the values that you (or a hyperparameter tuning service) supply to the model. For example, learning rate is a hyperparameter.
positive class
The class you are testing for.
For example, the positive class in a cancer model might be "tumor." The positive class in an email classification model might be "spam."
Contrast with negative class .
پس پردازش
تنظیم خروجی یک مدل پس از اجرای مدل. پس پردازش می تواند برای اعمال محدودیت های انصاف بدون تغییر خود مدل ها استفاده شود.
برای مثال، میتوان پس پردازش را برای یک مدل طبقهبندی باینری با تعیین آستانه طبقهبندی بهگونهای اعمال کرد که برابری فرصت برای برخی ویژگیها حفظ شود و با بررسی اینکه نرخ مثبت واقعی برای همه مقادیر آن ویژگی یکسان است.
دقت
A metric for classification models that answers the following question:
When the model predicted the positive class , what percentage of the predictions were correct?
این فرمول است:
کجا:
- true positive means the model correctly predicted the positive class.
- false positive means the model mistakenly predicted the positive class.
For example, suppose a model made 200 positive predictions. Of these 200 positive predictions:
- 150 were true positives.
- 50 were false positives.
در این مورد:
Contrast with accuracy and recall .
See Classification: Accuracy, recall, precision and related metrics in Machine Learning Crash Course for more information.
پیش بینی
A model's output. به عنوان مثال:
- The prediction of a binary classification model is either the positive class or the negative class.
- The prediction of a multi-class classification model is one class.
- The prediction of a linear regression model is a number.
proxy labels
Data used to approximate labels not directly available in a dataset.
For example, suppose you must train a model to predict employee stress level. Your dataset contains a lot of predictive features but doesn't contain a label named stress level. Undaunted, you pick "workplace accidents" as a proxy label for stress level. After all, employees under high stress get into more accidents than calm employees. یا آنها؟ Maybe workplace accidents actually rise and fall for multiple reasons.
As a second example, suppose you want is it raining? to be a Boolean label for your dataset, but your dataset doesn't contain rain data. If photographs are available, you might establish pictures of people carrying umbrellas as a proxy label for is it raining? Is that a good proxy label? Possibly, but people in some cultures may be more likely to carry umbrellas to protect against sun than the rain.
Proxy labels are often imperfect. When possible, choose actual labels over proxy labels. That said, when an actual label is absent, pick the proxy label very carefully, choosing the least horrible proxy label candidate.
See Datasets: Labels in Machine Learning Crash Course for more information.
آر
RAG
Abbreviation for retrieval-augmented generation .
ارزیاب
A human who provides labels for examples . "Annotator" is another name for rater.
See Categorical data: Common issues in Machine Learning Crash Course for more information.
به یاد بیاور
A metric for classification models that answers the following question:
When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?
این فرمول است:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
کجا:
- true positive means the model correctly predicted the positive class.
- false negative means that the model mistakenly predicted the negative class .
For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:
- 180 were true positives.
- 20 were false negatives.
در این مورد:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
See Classification: Accuracy, recall, precision and related metrics for more information.
Rectified Linear Unit (ReLU)
An activation function with the following behavior:
- If input is negative or zero, then the output is 0.
- If input is positive, then the output is equal to the input.
به عنوان مثال:
- If the input is -3, then the output is 0.
- If the input is +3, then the output is 3.0.
Here is a plot of ReLU:
ReLU is a very popular activation function. Despite its simple behavior, ReLU still enables a neural network to learn nonlinear relationships between features and the label .
regression model
Informally, a model that generates a numerical prediction. (In contrast, a classification model generates a class prediction.) For example, the following are all regression models:
- A model that predicts a certain house's value in Euros, such as 423,000.
- A model that predicts a certain tree's life expectancy in years, such as 23.2.
- A model that predicts the amount of rain in inches that will fall in a certain city over the next six hours, such as 0.18.
Two common types of regression models are:
- Linear regression , which finds the line that best fits label values to features.
- Logistic regression , which generates a probability between 0.0 and 1.0 that a system typically then maps to a class prediction.
Not every model that outputs numerical predictions is a regression model. In some cases, a numeric prediction is really just a classification model that happens to have numeric class names. For example, a model that predicts a numeric postal code is a classification model, not a regression model.
منظم سازی
Any mechanism that reduces overfitting . Popular types of regularization include:
- L 1 regularization
- L 2 regularization
- تنظیم ترک تحصیل
- early stopping (this is not a formal regularization method, but can effectively limit overfitting)
Regularization can also be defined as the penalty on a model's complexity.
See Overfitting: Model complexity in Machine Learning Crash Course for more information.
regularization rate
A number that specifies the relative importance of regularization during training. Raising the regularization rate reduces overfitting but may reduce the model's predictive power. Conversely, reducing or omitting the regularization rate increases overfitting.
See Overfitting: L2 regularization in Machine Learning Crash Course for more information.
ReLU
Abbreviation for Rectified Linear Unit .
retrieval-augmented generation (RAG)
A technique for improving the quality of large language model (LLM) output by grounding it with sources of knowledge retrieved after the model was trained. RAG improves the accuracy of LLM responses by providing the trained LLM with access to information retrieved from trusted knowledge bases or documents.
Common motivations to use retrieval-augmented generation include:
- Increasing the factual accuracy of a model's generated responses.
- Giving the model access to knowledge it was not trained on.
- Changing the knowledge that the model uses.
- Enabling the model to cite sources.
For example, suppose that a chemistry app uses the PaLM API to generate summaries related to user queries. When the app's backend receives a query, the backend:
- Searches for ("retrieves") data that's relevant to the user's query.
- Appends ("augments") the relevant chemistry data to the user's query.
- Instructs the LLM to create a summary based on the appended data.
ROC (receiver operating characteristic) Curve
A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.
The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:
The ROC curve for the preceding model looks as follows:
In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:
The ROC curve for this model looks as follows:
Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:
The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.
A numerical metric called AUC summarizes the ROC curve into a single floating-point value.
ریشه میانگین مربعات خطا (RMSE)
The square root of the Mean Squared Error .
اس
sigmoid function
A mathematical function that "squishes" an input value into a constrained range, typically 0 to 1 or -1 to +1. That is, you can pass any number (two, a million, negative billion, whatever) to a sigmoid and the output will still be in the constrained range. A plot of the sigmoid activation function looks as follows:
The sigmoid function has several uses in machine learning, including:
- Converting the raw output of a logistic regression or multinomial regression model to a probability.
- Acting as an activation function in some neural networks.
softmax
A function that determines probabilities for each possible class in a multi-class classification model . The probabilities add up to exactly 1.0. For example, the following table shows how softmax distributes various probabilities:
Image is a... | احتمال |
---|---|
سگ | .85 |
گربه | .13 |
اسب | .02 |
Softmax is also called full softmax .
Contrast with candidate sampling .
See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.
sparse feature
A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.
In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."
In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.
sparse representation
Storing only the position(s) of nonzero elements in a sparse feature.
For example, suppose a categorical feature named species
identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.
You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1
(to represent the particular tree species in that example) and 35 0
s (to represent the 35 tree species not in that example). So, the one-hot representation of maple
might look something like the following:
Alternatively, sparse representation would simply identify the position of the particular species. If maple
is at position 24, then the sparse representation of maple
would simply be:
24
Notice that the sparse representation is much more compact than the one-hot representation.
See Working with categorical data in Machine Learning Crash Course for more information.
sparse vector
A vector whose values are mostly zeroes. See also sparse feature and sparsity .
squared loss
Synonym for L 2 loss .
ایستا
Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:
- static model (or offline model ) is a model trained once and then used for a while.
- static training (or offline training ) is the process of training a static model.
- static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.
Contrast with dynamic .
static inference
Synonym for offline inference .
ایستایی
A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.
In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.
Contrast with nonstationarity .
stochastic gradient descent (SGD)
A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .
See Linear regression: Hyperparameters in Machine Learning Crash Course for more information.
supervised machine learning
Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.
Compare with unsupervised machine learning .
See Supervised Learning in the Introduction to ML course for more information.
synthetic feature
A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:
- Bucketing a continuous feature into range bins.
- Creating a feature cross .
- Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if
a
andb
are input features, then the following are examples of synthetic features:- ab
- a 2
- Applying a transcendental function to a feature value. For example, if
c
is an input feature, then the following are examples of synthetic features:- sin(c)
- ln(c)
Features created by normalizing or scaling alone are not considered synthetic features.
تی
test loss
A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .
A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .
آموزش
The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.
See Supervised Learning in the Introduction to ML course for more information.
training loss
A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.
A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:
- A downward slope implies that the model is improving.
- An upward slope implies that the model is getting worse.
- A flat slope implies that the model has reached convergence .
For example, the following somewhat idealized loss curve shows:
- A steep downward slope during the initial iterations, which implies rapid model improvement.
- A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
- A flat slope towards the end of training, which suggests convergence.
Although training loss is important, see also generalization .
training-serving skew
The difference between a model's performance during training and that same model's performance during serving .
training set
The subset of the dataset used to train a model .
Traditionally, examples in the dataset are divided into the following three distinct subsets:
- a training set
- a validation set
- a test set
Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.
See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.
true negative (TN)
An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .
true positive (TP)
An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.
true positive rate (TPR)
Synonym for recall . یعنی:
True positive rate is the y-axis in an ROC curve .
U
underfitting
Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:
- Training on the wrong set of features .
- Training for too few epochs or at too low a learning rate .
- Training with too high a regularization rate .
- Providing too few hidden layers in a deep neural network.
See Overfitting in Machine Learning Crash Course for more information.
unlabeled example
An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:
تعداد اتاق خواب | Number of bathrooms | House age |
---|---|---|
3 | 2 | 15 |
2 | 1 | 72 |
4 | 2 | 34 |
In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .
In semi-supervised and unsupervised learning, unlabeled examples are used during training.
Contrast unlabeled example with labeled example .
unsupervised machine learning
Training a model to find patterns in a dataset, typically an unlabeled dataset.
The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.
Contrast with supervised machine learning .
See What is Machine Learning? in the Introduction to ML course for more information.
V
اعتبار سنجی
The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .
Because the validation set differs from the training set , validation helps guard against overfitting .
You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.
validation loss
A metric representing a model's loss on the validation set during a particular iteration of training.
See also generalization curve .
validation set
The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .
Traditionally, you divide the examples in the dataset into the following three distinct subsets:
- a training set
- a validation set
- a test set
Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.
See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.
دبلیو
وزن
A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.
See Linear regression in Machine Learning Crash Course for more information.
weighted sum
The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:
input value | input weight |
2 | -1.3 |
-1 | 0.6 |
3 | 0.4 |
The weighted sum is therefore:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
A weighted sum is the input argument to an activation function .
ز
Z-score normalization
A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:
Raw value | امتیاز Z |
---|---|
800 | 0 |
950 | +1.5 |
575 | -2.25 |
The machine learning model then trains on the Z-scores for that feature instead of on the raw values.
See Numerical data: Normalization in Machine Learning Crash Course for more information.