واژه نامه یادگیری ماشینی: مبانی ML

این صفحه شامل اصطلاحات واژه نامه اصول ML است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

دقت

#مبانی

تعداد پیش‌بینی‌های طبقه‌بندی صحیح تقسیم بر تعداد کل پیش‌بینی‌ها. به این معنا که:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

به عنوان مثال، مدلی که 40 پیش‌بینی درست و 10 پیش‌بینی نادرست داشته باشد، دقتی برابر با:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

طبقه بندی باینری نام های خاصی را برای دسته های مختلف پیش بینی های صحیح و پیش بینی های نادرست ارائه می دهد. بنابراین، فرمول دقت برای طبقه بندی باینری به شرح زیر است:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

جایی که:

مقایسه و مقایسه دقت با دقت و یادآوری .

عملکرد فعال سازی

#مبانی

تابعی که شبکه های عصبی را قادر می سازد تا روابط غیرخطی (پیچیده) بین ویژگی ها و برچسب را بیاموزند.

توابع فعال سازی محبوب عبارتند از:

نمودار توابع فعال سازی هرگز خطوط مستقیم منفرد نیستند. به عنوان مثال، نمودار تابع فعال سازی ReLU از دو خط مستقیم تشکیل شده است:

طرح دکارتی از دو خط. خط اول دارای یک مقدار ثابت y برابر با 0 است که در امتداد محور x از -infinity,0 تا 0,-0 قرار دارد. خط دوم از 0.0 شروع می شود. این خط دارای شیب 1+ است، بنابراین از 0،0 تا + بی نهایت، + بی نهایت است.

نمودار تابع فعال سازی سیگموئید به صورت زیر است:

یک نمودار منحنی دو بعدی با مقادیر x که دامنه -بی نهایت تا + مثبت را در بر می گیرد، در حالی که مقادیر y محدوده تقریباً 0 تا تقریبا 1 را در بر می گیرد. وقتی x 0 باشد، y 0.5 است. شیب منحنی همیشه مثبت است، با بیشترین شیب 0.5 و به تدریج با افزایش مقدار مطلق x شیب ها کاهش می یابد.

هوش مصنوعی

#مبانی

یک برنامه یا مدل غیر انسانی که می تواند کارهای پیچیده را حل کند. برای مثال، برنامه یا مدلی که متن را ترجمه می کند یا برنامه یا مدلی که بیماری ها را از تصاویر رادیولوژیک شناسایی می کند، هر دو هوش مصنوعی را نشان می دهند.

به طور رسمی، یادگیری ماشین زیر شاخه هوش مصنوعی است. با این حال، در سال‌های اخیر، برخی از سازمان‌ها شروع به استفاده از اصطلاحات هوش مصنوعی و یادگیری ماشینی کرده‌اند.

AUC (مساحت زیر منحنی ROC)

#مبانی

عددی بین 0.0 و 1.0 نشان دهنده توانایی یک مدل طبقه بندی باینری برای جداسازی کلاس های مثبت از کلاس های منفی است. هر چه AUC به 1.0 نزدیکتر باشد، مدل توانایی بهتری برای جداسازی کلاس ها از یکدیگر دارد.

برای مثال، تصویر زیر یک مدل طبقه‌بندی کننده را نشان می‌دهد که کلاس‌های مثبت (بیضی سبز) را از کلاس‌های منفی (مستطیل‌های بنفش) کاملاً جدا می‌کند. این مدل غیرواقعی کامل دارای AUC 1.0 است:

یک خط اعداد با 8 مثال مثبت در یک طرف و 9 مثال منفی در طرف دیگر.

برعکس، تصویر زیر نتایج یک مدل طبقه‌بندی کننده را نشان می‌دهد که نتایج تصادفی ایجاد می‌کند. این مدل دارای AUC 0.5 است:

یک خط اعداد با 6 مثال مثبت و 6 مثال منفی. دنباله مثال ها مثبت، منفی، مثبت، منفی، مثبت، منفی، مثبت، منفی، مثبت، مثبت، منفی است.

بله، مدل قبلی دارای AUC 0.5 است، نه 0.0.

اکثر مدل ها جایی بین دو حالت افراطی هستند. به عنوان مثال، مدل زیر موارد مثبت را تا حدودی از منفی جدا می کند و بنابراین دارای AUC بین 0.5 و 1.0 است:

یک خط اعداد با 6 مثال مثبت و 6 مثال منفی. دنباله مثال ها منفی، منفی، منفی، منفی، مثبت، منفی، مثبت، مثبت، منفی، مثبت، مثبت، مثبت است.

AUC هر مقداری را که برای آستانه طبقه بندی تنظیم کرده اید نادیده می گیرد. در عوض، AUC تمام آستانه های طبقه بندی ممکن را در نظر می گیرد.

ب

پس انتشار

#مبانی

الگوریتمی که نزول گرادیان را در شبکه های عصبی پیاده سازی می کند.

آموزش یک شبکه عصبی شامل تکرارهای زیادی از چرخه دو پاس زیر است:

  1. در طول پاس رو به جلو ، سیستم دسته‌ای از نمونه‌ها را پردازش می‌کند تا پیش‌بینی (های) را به دست آورد. سیستم هر پیش بینی را با هر برچسب مقایسه می کند. تفاوت بین مقدار پیش‌بینی و برچسب، ضرر آن مثال است. سیستم تلفات را برای همه نمونه‌ها جمع‌آوری می‌کند تا مجموع ضرر را برای دسته فعلی محاسبه کند.
  2. در طول گذر به عقب (انتشار عقب)، سیستم با تنظیم وزن تمام نورون ها در تمام لایه(های) پنهان، تلفات را کاهش می دهد.

شبکه‌های عصبی اغلب حاوی نورون‌های زیادی در لایه‌های پنهان بسیاری هستند. هر یک از این نورون ها به روش های مختلفی در از دست دادن کلی نقش دارند. انتشار معکوس تعیین می کند که آیا وزن اعمال شده روی نورون های خاص افزایش یا کاهش یابد.

نرخ یادگیری یک ضریب است که میزان افزایش یا کاهش هر وزنه توسط هر پاس به عقب را کنترل می کند. نرخ یادگیری زیاد هر وزن را بیش از یک نرخ یادگیری کوچک افزایش یا کاهش می دهد.

از نظر حساب دیفرانسیل و انتگرال، پس انتشار قانون زنجیره را اجرا می کند. از حساب دیفرانسیل و انتگرال یعنی پس انتشار مشتق جزئی خطا را با توجه به هر پارامتر محاسبه می کند.

سال‌ها پیش، تمرین‌کنندگان ML مجبور بودند کدی را برای پیاده‌سازی انتشار پس‌انداز بنویسند. API های مدرن ML مانند TensorFlow اکنون پس انتشار را برای شما پیاده سازی می کنند. اوه!

دسته ای

#مبانی

مجموعه مثال های مورد استفاده در یک تکرار آموزشی. اندازه دسته تعداد نمونه ها را در یک دسته تعیین می کند.

برای توضیح نحوه ارتباط یک دسته با یک دوره، به epoch مراجعه کنید.

اندازه دسته

#مبانی

تعداد نمونه ها در یک دسته . به عنوان مثال، اگر اندازه دسته 100 باشد، مدل در هر تکرار 100 نمونه را پردازش می کند.

استراتژی های اندازه دسته ای محبوب زیر هستند:

  • نزول گرادیان تصادفی (SGD) که در آن اندازه دسته 1 است.
  • دسته کامل، که در آن اندازه دسته، تعداد نمونه‌های کل مجموعه آموزشی است. به عنوان مثال، اگر مجموعه آموزشی حاوی یک میلیون مثال باشد، اندازه دسته ای یک میلیون نمونه خواهد بود. دسته کامل معمولا یک استراتژی ناکارآمد است.
  • مینی بچ که در آن اندازه دسته معمولا بین 10 تا 1000 است. مینی بچ معمولا کارآمدترین استراتژی است.

تعصب (اخلاق / انصاف)

#انصاف
#مبانی

1. کلیشه سازی، تعصب یا طرفداری نسبت به برخی چیزها، افراد یا گروه ها نسبت به دیگران. این سوگیری ها می توانند بر جمع آوری و تفسیر داده ها، طراحی یک سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارند. اشکال این نوع سوگیری عبارتند از:

2. خطای سیستماتیک معرفی شده توسط یک روش نمونه گیری یا گزارش. اشکال این نوع سوگیری عبارتند از:

نباید با اصطلاح سوگیری در مدل‌های یادگیری ماشین یا سوگیری پیش‌بینی اشتباه گرفته شود.

تعصب (ریاضی) یا اصطلاح سوگیری

#مبانی

رهگیری یا جبران از مبدأ. تعصب یک پارامتر در مدل های یادگیری ماشینی است که با یکی از موارد زیر نشان داده می شود:

  • ب
  • w 0

به عنوان مثال، بایاس b در فرمول زیر است:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

در یک خط دوبعدی ساده، بایاس فقط به معنای «قطعه y» است. به عنوان مثال، بایاس خط در تصویر زیر 2 است.

نمودار یک خط با شیب 0.5 و بایاس (برق y) 2.

تعصب وجود دارد زیرا همه مدل ها از مبدا (0,0) شروع نمی شوند. به عنوان مثال، فرض کنید یک پارک تفریحی برای ورود به آن 2 یورو و برای هر ساعت اقامت مشتری 0.5 یورو اضافی هزینه دارد. بنابراین، مدلی که هزینه کل را نگاشت می کند، بایاس 2 دارد زیرا کمترین هزینه 2 یورو است.

سوگیری نباید با سوگیری در اخلاق و انصاف یا سوگیری پیش بینی اشتباه شود.

طبقه بندی باینری

#مبانی

یک نوع کار طبقه بندی که یکی از دو کلاس منحصر به فرد را پیش بینی می کند:

به عنوان مثال، دو مدل یادگیری ماشین زیر، هر کدام دسته بندی باینری را انجام می دهند:

  • مدلی که تعیین می‌کند پیام‌های ایمیل هرزنامه هستند (کلاس مثبت) یا اسپم نیستند (کلاس منفی).
  • مدلی که علائم پزشکی را ارزیابی می کند تا مشخص کند آیا یک فرد دارای یک بیماری خاص (طبقه مثبت) است یا آن بیماری (طبقه منفی) را ندارد.

در تقابل با طبقه بندی چند طبقه .

همچنین به رگرسیون لجستیک و آستانه طبقه بندی مراجعه کنید.

سطل سازی

#مبانی

تبدیل یک ویژگی واحد به چندین ویژگی باینری به نام سطل یا bins ، که معمولاً بر اساس یک محدوده مقدار است. ویژگی خرد شده معمولاً یک ویژگی پیوسته است.

به عنوان مثال، به جای نمایش دما به عنوان یک ویژگی ممیز شناور منفرد، می توانید محدوده دما را به سطل های مجزا تقسیم کنید، مانند:

  • <= 10 درجه سانتیگراد سطل "سرد" خواهد بود.
  • 11 تا 24 درجه سانتیگراد سطل "معتدل" خواهد بود.
  • >= 25 درجه سانتیگراد سطل "گرم" خواهد بود.

مدل با هر مقدار در یک سطل یکسان رفتار می کند. به عنوان مثال، مقادیر 13 و 22 هر دو در سطل معتدل هستند، بنابراین مدل با دو مقدار یکسان رفتار می کند.

سی

داده های طبقه بندی شده

#مبانی

ویژگی هایی که مجموعه خاصی از مقادیر ممکن را دارند. به عنوان مثال، یک ویژگی طبقه بندی به نام traffic-light-state را در نظر بگیرید که فقط می تواند یکی از سه مقدار ممکن زیر را داشته باشد:

  • red
  • yellow
  • green

با نشان دادن traffic-light-state به عنوان یک ویژگی طبقه‌بندی، یک مدل می‌تواند تأثیرات متفاوت red ، green و yellow را بر رفتار راننده بیاموزد.

ویژگی‌های طبقه‌بندی گاهی اوقات ویژگی‌های گسسته نامیده می‌شوند.

در مقابل داده های عددی .

کلاس

#مبانی

دسته ای که یک برچسب می تواند به آن تعلق داشته باشد. مثلا:

  • در یک مدل طبقه‌بندی باینری که هرزنامه را شناسایی می‌کند، این دو کلاس ممکن است هرزنامه باشند و نه هرزنامه .
  • در یک مدل طبقه‌بندی چند طبقه که نژادهای سگ را مشخص می‌کند، کلاس‌ها ممکن است پودل ، بیگل ، پاگ و غیره باشند.

یک مدل طبقه بندی یک کلاس را پیش بینی می کند. در مقابل، یک مدل رگرسیون یک عدد را به جای یک کلاس پیش بینی می کند.

مدل طبقه بندی

#مبانی

مدلی که پیش‌بینی آن یک کلاس است. به عنوان مثال، موارد زیر همه مدل های طبقه بندی هستند:

  • مدلی که زبان جمله ورودی (فرانسوی؟ اسپانیایی؟ ایتالیایی؟) را پیش بینی می کند.
  • مدلی که گونه های درختی (افرا؟ بلوط؟ بائوباب؟) را پیش بینی می کند.
  • مدلی که کلاس مثبت یا منفی را برای یک بیماری خاص پیش بینی می کند.

در مقابل، مدل های رگرسیون اعداد را به جای کلاس ها پیش بینی می کنند.

دو نوع رایج از مدل های طبقه بندی عبارتند از:

آستانه طبقه بندی

#مبانی

در یک طبقه بندی باینری ، عددی بین 0 و 1 که خروجی خام یک مدل رگرسیون لجستیک را به پیش بینی کلاس مثبت یا منفی تبدیل می کند. توجه داشته باشید که آستانه طبقه بندی مقداری است که یک انسان انتخاب می کند، نه ارزشی که توسط آموزش مدل انتخاب شده است.

یک مدل رگرسیون لجستیک یک مقدار خام بین 0 و 1 خروجی می دهد. سپس:

  • اگر این مقدار خام بیشتر از آستانه طبقه بندی باشد، کلاس مثبت پیش بینی می شود.
  • اگر این مقدار خام کمتر از آستانه طبقه بندی باشد، کلاس منفی پیش بینی می شود.

به عنوان مثال، فرض کنید آستانه طبقه بندی 0.8 باشد. اگر مقدار خام 0.9 باشد، مدل کلاس مثبت را پیش بینی می کند. اگر مقدار خام 0.7 باشد، مدل کلاس منفی را پیش بینی می کند.

انتخاب آستانه طبقه بندی به شدت بر تعداد مثبت کاذب و منفی کاذب تأثیر می گذارد.

مجموعه داده های کلاس نامتعادل

#مبانی

مجموعه داده ای برای یک مسئله طبقه بندی که در آن تعداد کل برچسب های هر کلاس به طور قابل توجهی متفاوت است. به عنوان مثال، یک مجموعه داده طبقه بندی باینری را در نظر بگیرید که دو برچسب آن به صورت زیر تقسیم می شوند:

  • 1,000,000 برچسب منفی
  • 10 برچسب مثبت

نسبت برچسب های منفی به مثبت 100000 به 1 است، بنابراین این یک مجموعه داده با کلاس نامتعادل است.

در مقابل، مجموعه داده زیر از نظر کلاس نامتعادل نیست زیرا نسبت برچسب های منفی به برچسب های مثبت نسبتا نزدیک به 1 است:

  • 517 برچسب منفی
  • 483 برچسب مثبت

مجموعه داده‌های چند کلاسه نیز می‌توانند دارای عدم تعادل کلاسی باشند. به عنوان مثال، مجموعه داده طبقه‌بندی چند کلاسه زیر نیز از نظر کلاس نامتعادل است، زیرا یک برچسب نمونه‌های بسیار بیشتری نسبت به دو برچسب دیگر دارد:

  • 1,000,000 برچسب با کلاس "سبز"
  • 200 برچسب با کلاس "بنفش"
  • 350 برچسب با کلاس "نارنجی"

همچنین به آنتروپی ، کلاس اکثریت و کلاس اقلیت مراجعه کنید.

بریدن

#مبانی

تکنیکی برای رسیدگی به موارد پرت با انجام یکی یا هر دو مورد زیر:

  • کاهش مقادیر ویژگی که بیشتر از یک آستانه حداکثر است تا آن آستانه حداکثر.
  • افزایش مقادیر ویژگی که کمتر از یک آستانه حداقل تا آن آستانه حداقل است.

برای مثال، فرض کنید که <0.5٪ از مقادیر یک ویژگی خاص خارج از محدوده 40-60 باشد. در این صورت می توانید کارهای زیر را انجام دهید:

  • تمام مقادیر بالای 60 (حداکثر آستانه) را دقیقاً 60 کنید.
  • تمام مقادیر زیر 40 (حداقل آستانه) را دقیقاً 40 کنید.

پرت ها می توانند به مدل ها آسیب برسانند و گاهی اوقات باعث سرریز وزنه ها در طول تمرین می شوند. برخی از نقاط پرت نیز می توانند به طور چشمگیری معیارهایی مانند دقت را خراب کنند. برش یک تکنیک رایج برای محدود کردن آسیب است.

برش گرادیان مقادیر گرادیان را در یک محدوده تعیین شده در طول تمرین مجبور می کند.

ماتریس سردرگمی

#مبانی

یک جدول NxN که تعداد پیش‌بینی‌های صحیح و نادرست را که یک مدل طبقه‌بندی انجام داده است، خلاصه می‌کند. به عنوان مثال، ماتریس سردرگمی زیر را برای یک مدل طبقه بندی باینری در نظر بگیرید:

تومور (پیش بینی شده) غیر توموری (پیش بینی شده)
تومور (حقیقت زمینی) 18 (TP) 1 (FN)
غیر تومور (حقیقت زمینی) 6 (FP) 452 (TN)

ماتریس سردرگمی قبلی موارد زیر را نشان می دهد:

  • از 19 پیش‌بینی که در آنها حقیقت پایه تومور بود، مدل 18 را به درستی و 1 را به اشتباه طبقه‌بندی کرد.
  • از 458 پیش‌بینی که در آنها حقیقت پایه غیرتوموری بود، مدل 452 را به درستی و 6 را به اشتباه طبقه‌بندی کرد.

ماتریس سردرگمی برای یک مسئله طبقه بندی چند طبقه می تواند به شما در شناسایی الگوهای اشتباه کمک کند. به عنوان مثال، ماتریس سردرگمی زیر را برای یک مدل طبقه‌بندی چند کلاسه سه کلاسه در نظر بگیرید که سه نوع عنبیه مختلف (ویرجینیکا، ورسیکالر و ستوزا) را دسته‌بندی می‌کند. زمانی که حقیقت اصلی ویرجینیکا بود، ماتریس سردرگمی نشان می‌دهد که این مدل به احتمال زیاد Versicolor را به اشتباه پیش‌بینی می‌کرد تا Setosa:

ستوزا (پیش بینی شده) Versicolor (پیش‌بینی شده) ویرجینیکا (پیش بینی شده)
ستوسا (حقیقت زمینی) 88 12 0
Versicolor (حقیقت زمینی) 6 141 7
ویرجینیکا (حقیقت زمینی) 2 27 109

به عنوان مثال دیگری، یک ماتریس سردرگمی می‌تواند نشان دهد که مدلی که برای تشخیص ارقام دست‌نویس آموزش دیده است، به اشتباه 9 را به جای 4 پیش‌بینی می‌کند، یا به اشتباه 1 را به جای 7 پیش‌بینی می‌کند.

ماتریس های سردرگمی حاوی اطلاعات کافی برای محاسبه انواع معیارهای عملکرد، از جمله دقت و یادآوری هستند.

ویژگی پیوسته

#مبانی

یک ویژگی ممیز شناور با دامنه نامتناهی از مقادیر ممکن، مانند دما یا وزن.

کنتراست با ویژگی گسسته .

همگرایی

#مبانی

حالتی به دست می آید که مقادیر زیان با هر تکرار خیلی کم یا اصلاً تغییر نمی کند. به عنوان مثال، منحنی ضرر زیر همگرایی را در حدود 700 تکرار نشان می دهد:

طرح دکارتی. محور X از دست دادن است. محور Y تعداد تکرارهای آموزشی است. تلفات در چند تکرار اول بسیار زیاد است، اما به شدت کاهش می یابد. پس از حدود 100 تکرار، زیان همچنان در حال کاهش است، اما بسیار تدریجی تر. پس از حدود 700 تکرار، ضرر ثابت می ماند.

یک مدل زمانی همگرا می شود که آموزش اضافی مدل را بهبود نبخشد.

در یادگیری عمیق ، مقادیر از دست دادن گاهی اوقات ثابت می ماند یا تقریباً برای بسیاری از تکرارها قبل از اینکه در نهایت کاهش یابد، ثابت می ماند. در طول یک دوره طولانی مقادیر ثابت از دست دادن، ممکن است به طور موقت احساس کاذب همگرایی داشته باشید.

توقف زودهنگام را نیز ببینید.

D

DataFrame

#مبانی

یک نوع داده محبوب پانداها برای نمایش مجموعه داده ها در حافظه.

یک DataFrame مشابه یک جدول یا یک صفحه گسترده است. هر ستون از یک DataFrame یک نام (یک سرصفحه) دارد و هر ردیف با یک عدد منحصر به فرد مشخص می شود.

هر ستون در یک DataFrame مانند یک آرایه دو بعدی ساختار یافته است، با این تفاوت که به هر ستون می توان نوع داده خاص خود را اختصاص داد.

همچنین به صفحه مرجع رسمی pandas.DataFrame مراجعه کنید.

مجموعه داده یا مجموعه داده

#مبانی

مجموعه ای از داده های خام، معمولا (اما نه منحصرا) در یکی از قالب های زیر سازماندهی شده است:

  • یک صفحه گسترده
  • یک فایل با فرمت CSV (مقادیر جدا شده با کاما).

مدل عمیق

#مبانی

یک شبکه عصبی حاوی بیش از یک لایه پنهان .

یک مدل عمیق ، شبکه عصبی عمیق نیز نامیده می شود.

کنتراست با مدل عریض .

ویژگی متراکم

#مبانی

ویژگی که در آن اکثر یا همه مقادیر غیر صفر هستند، معمولاً تانسوری از مقادیر ممیز شناور است. به عنوان مثال، تانسور 10 عنصری زیر چگال است زیرا 9 مقدار آن غیر صفر است:

8 3 7 5 2 4 0 4 9 6

کنتراست با ویژگی پراکنده .

عمق

#مبانی

مجموع موارد زیر در یک شبکه عصبی :

به عنوان مثال، یک شبکه عصبی با پنج لایه پنهان و یک لایه خروجی دارای عمق 6 است.

توجه داشته باشید که لایه ورودی بر عمق تأثیر نمی گذارد.

ویژگی گسسته

#مبانی

ویژگی با مجموعه محدودی از مقادیر ممکن. برای مثال، یک ویژگی که مقادیر آن ممکن است فقط حیوانی ، گیاهی یا معدنی باشد، یک ویژگی گسسته (یا طبقه‌بندی) است.

کنتراست با ویژگی پیوسته .

پویا

#مبانی

کاری که به طور مکرر یا مداوم انجام می شود. اصطلاحات پویا و آنلاین در یادگیری ماشین مترادف هستند. موارد زیر کاربردهای رایج پویا و آنلاین در یادگیری ماشینی است:

  • مدل پویا (یا مدل آنلاین ) مدلی است که به طور مکرر یا پیوسته بازآموزی می شود.
  • آموزش پویا (یا آموزش آنلاین ) فرآیند آموزش مکرر یا مداوم است.
  • استنتاج پویا (یا استنتاج آنلاین ) فرآیند تولید پیش‌بینی‌ها بر حسب تقاضا است.

مدل پویا

#مبانی

مدلی که به طور مکرر (شاید حتی به طور مداوم) بازآموزی می شود. یک مدل پویا یک "یادگیرنده مادام العمر" است که دائماً با داده های در حال تکامل سازگار می شود. یک مدل پویا به عنوان مدل آنلاین نیز شناخته می شود.

کنتراست با مدل استاتیک .

E

توقف زودهنگام

#مبانی

روشی برای منظم‌سازی که شامل پایان دادن به تمرین قبل از کاهش افت تمرین است. در توقف اولیه، زمانی که از دست دادن مجموعه داده اعتبارسنجی شروع به افزایش می‌کند، عمداً آموزش مدل را متوقف می‌کنید. یعنی زمانی که عملکرد تعمیم بدتر می شود.

لایه جاسازی

#زبان
#مبانی

یک لایه مخفی ویژه که بر روی یک ویژگی طبقه بندی با ابعاد بالا آموزش می دهد تا به تدریج بردار تعبیه ابعاد پایین تر را یاد بگیرد. یک لایه جاسازی شبکه عصبی را قادر می‌سازد تا بسیار کارآمدتر از آموزش فقط بر روی ویژگی طبقه‌بندی با ابعاد بالا آموزش ببیند.

برای مثال، زمین در حال حاضر از حدود 73000 گونه درختی پشتیبانی می کند. فرض کنید گونه درختی یک ویژگی در مدل شما باشد، بنابراین لایه ورودی مدل شما شامل یک بردار یک داغ به طول 73000 عنصر است. برای مثال، شاید baobab چیزی شبیه به این نشان داده شود:

آرایه ای از 73000 عنصر. 6232 عنصر اول مقدار 0 را نگه می دارند. عنصر بعدی مقدار 1 را دارد. 66767 عنصر نهایی مقدار صفر را نگه می دارند.

یک آرایه 73000 عنصری بسیار طولانی است. اگر یک لایه جاسازی به مدل اضافه نکنید، به دلیل ضرب 72999 صفر، آموزش بسیار وقت گیر خواهد بود. شاید لایه جاسازی را از 12 بعد انتخاب کنید. در نتیجه، لایه جاسازی به تدریج یک بردار تعبیه جدید برای هر گونه درختی را یاد می گیرد.

در شرایط خاص، هش جایگزین معقولی برای لایه جاسازی است.

دوران

#مبانی

یک پاس آموزشی کامل در کل مجموعه آموزشی به طوری که هر نمونه یک بار پردازش شده است.

یک دوره نشان دهنده تکرارهای آموزشی اندازه N / دسته ای است که در آن N تعداد کل نمونه ها است.

به عنوان مثال، موارد زیر را فرض کنید:

  • مجموعه داده شامل 1000 نمونه است.
  • اندازه دسته 50 نمونه است.

بنابراین، یک دوره واحد نیاز به 20 تکرار دارد:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

مثال

#مبانی

مقادیر یک ردیف از ویژگی ها و احتمالاً یک برچسب . نمونه هایی در یادگیری تحت نظارت به دو دسته کلی تقسیم می شوند:

  • یک مثال برچسب گذاری شده از یک یا چند ویژگی و یک برچسب تشکیل شده است. در طول آموزش از نمونه های برچسب دار استفاده می شود.
  • یک مثال بدون برچسب شامل یک یا چند ویژگی است اما بدون برچسب. در طول استنتاج از نمونه های بدون برچسب استفاده می شود.

به عنوان مثال، فرض کنید در حال آموزش مدلی برای تعیین تأثیر شرایط آب و هوایی بر نمرات آزمون دانش آموزان هستید. در اینجا سه ​​نمونه برچسب گذاری شده وجود دارد:

امکانات برچسب
درجه حرارت رطوبت فشار نمره آزمون
15 47 998 خوب
19 34 1020 عالی
18 92 1012 فقیر

در اینجا سه ​​نمونه بدون برچسب آورده شده است:

درجه حرارت رطوبت فشار
12 62 1014
21 47 1017
19 41 1021

ردیف یک مجموعه داده معمولاً منبع خام برای مثال است. یعنی یک مثال معمولاً از زیر مجموعه ای از ستون های مجموعه داده تشکیل شده است. علاوه بر این، ویژگی‌های یک مثال می‌تواند شامل ویژگی‌های مصنوعی ، مانند تلاقی ویژگی‌ها نیز باشد.

اف

منفی کاذب (FN)

#مبانی

مثالی که در آن مدل به اشتباه کلاس منفی را پیش بینی می کند. برای مثال، مدل پیش‌بینی می‌کند که یک پیام ایمیل خاص هرزنامه نیست (کلاس منفی)، اما آن پیام ایمیل در واقع هرزنامه است .

مثبت کاذب (FP)

#مبانی

مثالی که در آن مدل به اشتباه کلاس مثبت را پیش بینی می کند. برای مثال، مدل پیش‌بینی می‌کند که یک پیام ایمیل خاص هرزنامه است (کلاس مثبت)، اما آن پیام ایمیل در واقع هرزنامه نیست .

نرخ مثبت کاذب (FPR)

#مبانی

نسبت مثال‌های منفی واقعی که مدل به اشتباه کلاس مثبت را پیش‌بینی کرده است. فرمول زیر نرخ مثبت کاذب را محاسبه می کند:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

نرخ مثبت کاذب، محور x در منحنی ROC است.

ویژگی

#مبانی

یک متغیر ورودی به یک مدل یادگیری ماشینی یک مثال از یک یا چند ویژگی تشکیل شده است. به عنوان مثال، فرض کنید در حال آموزش مدلی برای تعیین تأثیر شرایط آب و هوایی بر نمرات آزمون دانش آموزان هستید. جدول زیر سه نمونه را نشان می دهد که هر کدام شامل سه ویژگی و یک برچسب است:

امکانات برچسب
درجه حرارت رطوبت فشار نمره آزمون
15 47 998 92
19 34 1020 84
18 92 1012 87

کنتراست با برچسب

متقاطع ویژگی

#مبانی

یک ویژگی مصنوعی که با "تقاطع" ویژگی های طبقه بندی شده یا سطلی شکل می گیرد.

به عنوان مثال، یک مدل "پیش بینی خلق و خو" را در نظر بگیرید که دما را در یکی از چهار سطل زیر نشان می دهد:

  • freezing
  • chilly
  • temperate
  • warm

و سرعت باد را در یکی از سه سطل زیر نشان می دهد:

  • still
  • light
  • windy

بدون تلاقی ویژگی ها، مدل خطی به طور مستقل در هر یک از هفت سطل مختلف قبلی تمرین می کند. بنابراین، به عنوان مثال، مدل در freezing مستقل از آموزش، به عنوان مثال، windy تمرین می کند.

از طرف دیگر، می توانید یک تلاقی ویژگی از دما و سرعت باد ایجاد کنید. این ویژگی مصنوعی دارای 12 مقدار ممکن زیر است:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

به لطف ویژگی‌های ضربدری، این مدل می‌تواند تفاوت‌های خلقی را بین یک روز freezing-windy و یک روز freezing-still بیاموزد.

اگر یک ویژگی مصنوعی از دو ویژگی ایجاد کنید که هر کدام دارای سطل های مختلف هستند، ویژگی متقاطع حاصل تعداد زیادی ترکیب ممکن خواهد داشت. به عنوان مثال، اگر یک ویژگی دارای 1000 سطل و ویژگی دیگر دارای 2000 سطل باشد، متقاطع ویژگی حاصل دارای 2،000،000 سطل است.

به طور رسمی، صلیب یک محصول دکارتی است.

تلاقی ویژگی ها بیشتر با مدل های خطی استفاده می شود و به ندرت برای شبکه های عصبی استفاده می شود.

مهندسی ویژگی

#مبانی
#TensorFlow

فرآیندی که شامل مراحل زیر است:

  1. تعیین اینکه کدام ویژگی ممکن است در آموزش یک مدل مفید باشد.
  2. تبدیل داده های خام از مجموعه داده به نسخه های کارآمد آن ویژگی ها.

برای مثال، ممکن است تعیین کنید که temperature ممکن است یک ویژگی مفید باشد. سپس، می‌توانید با سطل‌سازی آزمایش کنید تا آنچه را که مدل می‌تواند از محدوده‌های temperature مختلف بیاموزد، بهینه کنید.

مهندسی ویژگی گاهی اوقات استخراج ویژگی یا ویژگی نامیده می شود.

مجموعه ویژگی

#مبانی

گروهی از ویژگی‌ها که مدل یادگیری ماشین شما در آن آموزش می‌بیند. به عنوان مثال، کد پستی، اندازه ملک و وضعیت ملک ممکن است مجموعه ای از ویژگی های ساده برای مدلی باشد که قیمت مسکن را پیش بینی می کند.

بردار ویژگی

#مبانی

آرایه ای از مقادیر ویژگی شامل یک مثال است. بردار ویژگی در حین آموزش و در حین استنتاج ورودی است. برای مثال، بردار ویژگی برای یک مدل با دو ویژگی گسسته ممکن است:

[0.92, 0.56]

چهار لایه: یک لایه ورودی، دو لایه پنهان و یک لایه خروجی. لایه ورودی شامل دو گره است، یکی حاوی مقدار 0.92 و دیگری حاوی مقدار 0.56.

هر مثال مقادیر مختلفی را برای بردار ویژگی ارائه می دهد، بنابراین بردار ویژگی برای مثال بعدی می تواند چیزی شبیه به:

[0.73, 0.49]

مهندسی ویژگی نحوه نمایش ویژگی ها در بردار ویژگی را تعیین می کند. برای مثال، یک ویژگی دسته‌بندی باینری با پنج مقدار ممکن ممکن است با رمزگذاری یک‌طرفه نمایش داده شود. در این مورد، بخشی از بردار ویژگی برای یک مثال خاص از چهار صفر و یک 1.0 واحد در موقعیت سوم تشکیل شده است، به شرح زیر:

[0.0, 0.0, 1.0, 0.0, 0.0]

به عنوان مثال دیگر، فرض کنید مدل شما از سه ویژگی تشکیل شده است:

  • یک ویژگی دسته‌بندی باینری با پنج مقدار ممکن که با رمزگذاری یک‌طرف نمایش داده می‌شود. به عنوان مثال: [0.0, 1.0, 0.0, 0.0, 0.0]
  • یکی دیگر از ویژگی های دسته بندی باینری با سه مقدار ممکن که با رمزگذاری یک داغ نشان داده شده است. به عنوان مثال: [0.0, 0.0, 1.0]
  • یک ویژگی ممیز شناور؛ به عنوان مثال: 8.3 .

در این حالت، بردار ویژگی برای هر مثال با 9 مقدار نشان داده می شود. با توجه به مقادیر مثال در لیست قبلی، بردار ویژگی به صورت زیر خواهد بود:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

حلقه بازخورد

#مبانی

در یادگیری ماشین، وضعیتی که در آن پیش‌بینی‌های یک مدل بر داده‌های آموزشی همان مدل یا مدل دیگر تأثیر می‌گذارد. برای مثال، مدلی که فیلم‌ها را توصیه می‌کند، بر فیلم‌هایی که مردم می‌بینند تأثیر می‌گذارد، که سپس بر مدل‌های پیشنهادی فیلم بعدی تأثیر می‌گذارد.

جی

تعمیم

#مبانی

توانایی یک مدل برای پیش‌بینی صحیح روی داده‌های جدید که قبلاً دیده نشده بود. مدلی که می تواند تعمیم دهد برعکس مدلی است که بیش از حد مناسب است.

منحنی تعمیم

#مبانی

نمودار از دست دادن آموزش و از دست دادن اعتبار به عنوان تابعی از تعداد تکرارها .

یک منحنی تعمیم می تواند به شما کمک کند تا بیش از حد مناسب را تشخیص دهید. برای مثال، منحنی تعمیم زیر، بیش از حد برازش را پیشنهاد می‌کند، زیرا ضرر اعتبار سنجی در نهایت به طور قابل‌توجهی بیشتر از ضرر تمرینی می‌شود.

یک نمودار دکارتی که در آن محور y با عنوان ضرر و محور x با برچسب تکرار مشخص شده است. دو طرح ظاهر می شود. یکی از نمودارها فقدان آموزش و دیگری فقدان اعتبار را نشان می دهد. این دو نمودار به طور مشابه شروع می شوند، اما تلفات آموزشی در نهایت بسیار کمتر از تلفات اعتبار سنجی کاهش می یابد.

شیب نزول

#مبانی

یک تکنیک ریاضی برای به حداقل رساندن ضرر نزول گرادیان به طور مکرر وزن ها و سوگیری ها را تنظیم می کند و به تدریج بهترین ترکیب را برای به حداقل رساندن تلفات پیدا می کند.

نزول گرادیان قدیمی‌تر-بسیار بسیار قدیمی‌تر-از یادگیری ماشین است.

حقیقت زمین

#مبانی

واقعیت.

چیزی که در واقع اتفاق افتاده است.

به عنوان مثال، یک مدل طبقه‌بندی دودویی را در نظر بگیرید که پیش‌بینی می‌کند که آیا دانش‌آموزی در سال اول دانشگاهش ظرف شش سال فارغ‌التحصیل می‌شود یا خیر. حقیقت اصلی این مدل این است که آیا آن دانشجو واقعاً ظرف شش سال فارغ التحصیل شده است یا خیر.

اچ

لایه پنهان

#مبانی

لایه ای در یک شبکه عصبی بین لایه ورودی (ویژگی ها) و لایه خروجی (پیش بینی). هر لایه پنهان از یک یا چند نورون تشکیل شده است. به عنوان مثال، شبکه عصبی زیر شامل دو لایه پنهان است، اولی با سه نورون و دومی با دو نورون:

چهار لایه. لایه اول یک لایه ورودی است که شامل دو ویژگی است. لایه دوم یک لایه پنهان شامل سه نورون است. لایه سوم یک لایه پنهان حاوی دو نورون است. لایه چهارم یک لایه خروجی است. هر ویژگی شامل سه یال است که هر کدام به یک نورون متفاوت در لایه دوم اشاره می کند. هر یک از نورون های لایه دوم شامل دو لبه است که هر یک به نورون متفاوتی در لایه سوم اشاره می کند. هر یک از نورون های لایه سوم دارای یک لبه است که هر کدام به لایه خروجی اشاره دارد.

یک شبکه عصبی عمیق حاوی بیش از یک لایه پنهان است. به عنوان مثال، تصویر قبلی یک شبکه عصبی عمیق است زیرا مدل شامل دو لایه پنهان است.

فرا پارامتر

#مبانی

متغیرهایی که شما یا یک سرویس تنظیم فراپارامتردر طول اجراهای متوالی آموزش یک مدل تنظیم می کنند. برای مثال نرخ یادگیری یک فراپارامتر است. می توانید قبل از یک جلسه تمرین میزان یادگیری را روی 0.01 تنظیم کنید. اگر تشخیص دادید که 0.01 خیلی زیاد است، می توانید نرخ یادگیری را برای جلسه آموزشی بعدی روی 0.003 تنظیم کنید.

در مقابل، پارامترها وزن ها و سوگیری های مختلفی هستند که مدل در طول آموزش یاد می گیرد .

من

به طور مستقل و یکسان توزیع شده (iid)

#مبانی

داده‌های گرفته شده از توزیعی که تغییر نمی‌کنند، و جایی که هر مقدار ترسیم شده به مقادیری که قبلاً ترسیم شده‌اند بستگی ندارد. iid گاز ایده آل یادگیری ماشین است - یک ساختار ریاضی مفید اما تقریباً هرگز دقیقاً در دنیای واقعی یافت نمی شود. به عنوان مثال، توزیع بازدیدکنندگان در یک صفحه وب ممکن است در یک بازه زمانی کوتاه به صورت iid باشد. یعنی توزیع در طول آن پنجره کوتاه تغییر نمی کند و بازدید یک نفر به طور کلی مستقل از بازدید شخص دیگر است. با این حال، اگر این پنجره زمانی را گسترش دهید، ممکن است تفاوت های فصلی در بازدیدکنندگان صفحه وب ظاهر شود.

همچنین ناپایداری را ببینید.

استنتاج

#مبانی

در یادگیری ماشینی، فرآیند پیش‌بینی با استفاده از یک مدل آموزش‌دیده برای نمونه‌های بدون برچسب .

استنتاج در آمار معنای متفاوتی دارد. برای جزئیات بیشتر به مقاله ویکی پدیا در مورد استنتاج آماری مراجعه کنید.

لایه ورودی

#مبانی

لایه ای از یک شبکه عصبی که بردار ویژگی را نگه می دارد. یعنی لایه ورودی نمونه هایی برای آموزش یا استنتاج ارائه می دهد. به عنوان مثال، لایه ورودی در شبکه عصبی زیر از دو ویژگی تشکیل شده است:

چهار لایه: یک لایه ورودی، دو لایه پنهان و یک لایه خروجی.

تفسیر پذیری

#مبانی

توانایی توضیح یا ارائه استدلال مدل ML با عبارات قابل درک برای انسان.

به عنوان مثال، اکثر مدل های رگرسیون خطی ، بسیار قابل تفسیر هستند. (شما فقط باید به وزن های تمرین شده برای هر ویژگی نگاه کنید.) جنگل های تصمیم گیری نیز بسیار قابل تفسیر هستند. با این حال، برخی از مدل‌ها برای تفسیرپذیر شدن به تجسم پیچیده نیاز دارند.

شما می توانید از ابزار تفسیرپذیری یادگیری (LIT) برای تفسیر مدل های ML استفاده کنید.

تکرار

#مبانی

یک به روز رسانی واحد از پارامترهای یک مدل - وزن ها و سوگیری های مدل - در طول آموزش . اندازه دسته ای تعیین می کند که مدل چند نمونه را در یک تکرار واحد پردازش می کند. به عنوان مثال، اگر اندازه دسته 20 باشد، مدل 20 نمونه را قبل از تنظیم پارامترها پردازش می کند.

هنگام آموزش یک شبکه عصبی ، یک تکرار شامل دو پاس زیر است:

  1. یک پاس رو به جلو برای ارزیابی ضرر در یک دسته.
  2. یک پاس به عقب ( پس انتشار ) برای تنظیم پارامترهای مدل بر اساس تلفات و نرخ یادگیری.

L

تنظیم L 0

#مبانی

نوعی منظم‌سازی که تعداد کل وزن‌های غیرصفر را در یک مدل جریمه می‌کند. به عنوان مثال، مدلی که 11 وزن غیر صفر داشته باشد بیشتر از مدل مشابه دارای 10 وزن غیر صفر جریمه می شود.

منظم سازی L 0 گاهی اوقات منظم سازی هنجار L0 نامیده می شود.

L 1 باخت

#مبانی

یک تابع ضرر که قدر مطلق تفاوت بین مقادیر واقعی برچسب و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. برای مثال، در اینجا محاسبه ضرر L 1 برای یک دسته از پنج مثال آمده است:

ارزش واقعی مثال مقدار پیش بینی شده مدل مقدار مطلق دلتا
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 ضرر

از دست دادن L 1 نسبت به L 2 حساسیت کمتری نسبت به موارد پرت دارد.

میانگین خطای مطلق میانگین تلفات L 1 در هر مثال است.

تنظیم L 1

#مبانی

نوعی قاعده‌سازی که وزن‌ها را متناسب با مجموع قدر مطلق وزن‌ها جریمه می‌کند. تنظیم L 1 کمک می کند تا وزن ویژگی های نامربوط یا به ندرت مرتبط را دقیقاً به 0 برساند. یک ویژگی با وزن 0 به طور موثر از مدل حذف می شود.

در مقابل تنظیم L 2 .

L 2 باخت

#مبانی

یک تابع ضرر که مجذور تفاوت بین مقادیر واقعی برچسب و مقادیری را که یک مدل پیش بینی می کند محاسبه می کند. برای مثال، در اینجا محاسبه تلفات L 2 برای یک دسته از پنج مثال آمده است:

ارزش واقعی مثال مقدار پیش بینی شده مدل مربع دلتا
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = L 2 ضرر

با توجه به تربیع، از دست دادن L 2 تاثیر نقاط پرت را تقویت می کند. یعنی ضرر L 2 نسبت به ضرر L 1 به پیش بینی های بد واکنش قوی تری نشان می دهد. به عنوان مثال، تلفات L 1 برای دسته قبلی به جای 16، 8 خواهد بود. توجه کنید که یک عدد پرت تنها 9 مورد از 16 مورد را به خود اختصاص می دهد.

مدل‌های رگرسیون معمولاً از تلفات L 2 به عنوان تابع ضرر استفاده می‌کنند.

میانگین مربعات خطا میانگین تلفات L 2 در هر مثال است. ضرر مربعی نام دیگری برای ضرر L 2 است.

تنظیم L 2

#مبانی

نوعی منظم سازی که وزن ها را متناسب با مجموع مجذورات اوزان جریمه می کند. منظم‌سازی L 2 کمک می‌کند وزن‌های پرت (آنهایی که دارای مقادیر منفی بالا یا پایین هستند) به 0 نزدیک‌تر شوند، اما نه کاملاً به 0 . ویژگی هایی با مقادیر بسیار نزدیک به 0 در مدل باقی می مانند اما چندان بر پیش بینی مدل تأثیر نمی گذارند.

منظم سازی L 2 همیشه تعمیم را در مدل های خطی بهبود می بخشد.

در مقابل تنظیم L 1 .

برچسب

#مبانی

در یادگیری ماشینی تحت نظارت ، بخش «پاسخ» یا «نتیجه» یک مثال .

هر نمونه برچسب گذاری شده از یک یا چند ویژگی و یک برچسب تشکیل شده است. به عنوان مثال، در یک مجموعه داده تشخیص هرزنامه، برچسب احتمالاً "هرزنامه" یا "نه هرزنامه" خواهد بود. در مجموعه داده های بارش، برچسب ممکن است مقدار بارانی باشد که در یک دوره معین باریده است.

نمونه برچسب گذاری شده

#مبانی

مثالی که حاوی یک یا چند ویژگی و یک برچسب است . به عنوان مثال، جدول زیر سه نمونه برچسب دار از مدل ارزش گذاری خانه را نشان می دهد که هر کدام دارای سه ویژگی و یک برچسب هستند:

تعداد اتاق خواب تعداد حمام سن خانه قیمت خانه (برچسب)
3 2 15 345000 دلار
2 1 72 179000 دلار
4 2 34 392000 دلار

در یادگیری ماشینی نظارت شده ، مدل ها بر روی نمونه های برچسب دار آموزش می بینند و روی نمونه های بدون برچسب پیش بینی می کنند.

مثال برچسب‌گذاری‌شده را با نمونه‌های بدون برچسب مقایسه کنید.

لامبدا

#مبانی

مترادف نرخ منظم سازی .

لامبدا یک اصطلاح پر بار است. در اینجا ما بر تعریف این اصطلاح در قانون‌گذاری تمرکز می‌کنیم.

لایه

#مبانی

مجموعه ای از نورون ها در یک شبکه عصبی . سه نوع لایه رایج به شرح زیر است:

به عنوان مثال، تصویر زیر یک شبکه عصبی با یک لایه ورودی، دو لایه پنهان و یک لایه خروجی را نشان می دهد:

یک شبکه عصبی با یک لایه ورودی، دو لایه پنهان و یک لایه خروجی. لایه ورودی از دو ویژگی تشکیل شده است. لایه پنهان اول از سه نورون و لایه پنهان دوم از دو نورون تشکیل شده است. لایه خروجی از یک گره تشکیل شده است.

در TensorFlow ، لایه ها نیز توابع پایتون هستند که تنسورها و گزینه های پیکربندی را به عنوان ورودی می گیرند و تانسورهای دیگر را به عنوان خروجی تولید می کنند.

میزان یادگیری

#مبانی

یک عدد ممیز شناور که به الگوریتم نزول گرادیان می‌گوید که چگونه وزن‌ها و سوگیری‌ها را در هر تکرار به شدت تنظیم کند. به عنوان مثال، نرخ یادگیری 0.3 می تواند وزن ها و سوگیری ها را سه برابر قوی تر از نرخ یادگیری 0.1 تنظیم کند.

نرخ یادگیری یک فراپارامتر کلیدی است. اگر میزان یادگیری را خیلی پایین تنظیم کنید، آموزش خیلی طول می کشد. اگر نرخ یادگیری را خیلی بالا تنظیم کنید، شیب نزول اغلب در رسیدن به همگرایی مشکل دارد.

خطی

#مبانی

رابطه ای بین دو یا چند متغیر که تنها از طریق جمع و ضرب قابل نمایش است.

طرح یک رابطه خطی یک خط است.

کنتراست با غیر خطی .

مدل خطی

#مبانی

مدلی که به هر ویژگی یک وزن را برای پیش بینی اختصاص می دهد. (مدل های خطی همچنین دارای یک سوگیری هستند.) در مقابل، رابطه ویژگی ها با پیش بینی ها در مدل های عمیق عموما غیرخطی است.

مدل‌های خطی معمولاً ساده‌تر از مدل‌های عمیق آموزش داده می‌شوند و قابل تفسیرتر هستند . با این حال، مدل های عمیق می توانند روابط پیچیده بین ویژگی ها را یاد بگیرند.

رگرسیون خطی و رگرسیون لجستیک دو نوع مدل خطی هستند.

رگرسیون خطی

#مبانی

نوعی از مدل یادگیری ماشین که در آن هر دو مورد زیر صادق است:

  • مدل یک مدل خطی است.
  • پیش بینی یک مقدار ممیز شناور است. (این بخش رگرسیون رگرسیون خطی است.)

رگرسیون خطی را با رگرسیون لجستیک مقایسه کنید. همچنین، رگرسیون را با طبقه بندی مقایسه کنید.

رگرسیون لجستیک

#مبانی

یک نوع مدل رگرسیون که یک احتمال را پیش بینی می کند. مدل های رگرسیون لجستیک دارای ویژگی های زیر هستند:

  • برچسب طبقه بندی شده است. اصطلاح رگرسیون لجستیک معمولاً به رگرسیون لجستیک باینری اشاره دارد، یعنی به مدلی که احتمالات را برای برچسب‌هایی با دو مقدار ممکن محاسبه می‌کند. یک نوع کمتر رایج، رگرسیون لجستیک چند جمله ای ، احتمالات را برای برچسب هایی با بیش از دو مقدار ممکن محاسبه می کند.
  • تابع ضرر در طول تمرین Log Loss است. (واحدهای Log Loss چندگانه را می توان برای برچسب هایی با بیش از دو مقدار ممکن به صورت موازی قرار داد.)
  • مدل دارای معماری خطی است، نه یک شبکه عصبی عمیق. با این حال، باقی‌مانده این تعریف برای مدل‌های عمیق که احتمالات را برای برچسب‌های طبقه‌بندی پیش‌بینی می‌کنند نیز اعمال می‌شود.

به عنوان مثال، یک مدل رگرسیون لجستیک را در نظر بگیرید که احتمال اسپم بودن یا غیر اسپم بودن یک ایمیل ورودی را محاسبه می کند. در طول استنتاج، فرض کنید مدل 0.72 را پیش بینی می کند. بنابراین، مدل تخمین می زند:

  • احتمال 72% اسپم بودن ایمیل
  • احتمال اینکه ایمیل اسپم نباشد 28 درصد است.

یک مدل رگرسیون لجستیک از معماری دو مرحله ای زیر استفاده می کند:

  1. این مدل با اعمال یک تابع خطی از ویژگی های ورودی، یک پیش بینی خام (y') ایجاد می کند.
  2. این مدل از آن پیش‌بینی خام به عنوان ورودی یک تابع سیگموئید استفاده می‌کند، که پیش‌بینی خام را به مقداری بین 0 و 1 تبدیل می‌کند.

مانند هر مدل رگرسیونی، مدل رگرسیون لجستیک یک عدد را پیش‌بینی می‌کند. با این حال، این عدد معمولاً بخشی از یک مدل طبقه‌بندی باینری به شرح زیر می‌شود:

  • اگر عدد پیش‌بینی‌شده بیشتر از آستانه طبقه‌بندی باشد، مدل طبقه‌بندی باینری کلاس مثبت را پیش‌بینی می‌کند.
  • اگر عدد پیش‌بینی‌شده کمتر از آستانه طبقه‌بندی باشد، مدل طبقه‌بندی باینری کلاس منفی را پیش‌بینی می‌کند.

از دست دادن گزارش

#مبانی

تابع ضرر مورد استفاده در رگرسیون لجستیک باینری.

شانس ورود

#مبانی

لگاریتم شانس برخی رویدادها.

ضرر - زیان

#مبانی

در طول آموزش یک مدل نظارت شده ، اندازه گیری از فاصله پیش بینی یک مدل با برچسب آن.

یک تابع ضرر زیان را محاسبه می کند.

منحنی ضرر

#مبانی

نمودار از دست دادن به عنوان تابعی از تعداد تکرارهای آموزشی. نمودار زیر یک منحنی ضرر معمولی را نشان می دهد:

نمودار دکارتی از دست دادن در مقابل تکرارهای آموزشی، که افت سریع ضرر را برای تکرارهای اولیه، به دنبال آن یک افت تدریجی، و سپس یک شیب صاف در طول تکرارهای نهایی نشان می دهد.

منحنی های ضرر می توانند به شما کمک کنند تا تعیین کنید که چه زمانی مدل شما همگرا یا بیش از حد مناسب است.

منحنی‌های ضرر می‌توانند تمام انواع زیان زیر را ترسیم کنند:

منحنی تعمیم را نیز ببینید.

عملکرد از دست دادن

#مبانی

در حین آموزش یا آزمایش، یک تابع ریاضی است که زیان را در مجموعه ای از مثال ها محاسبه می کند. یک تابع ضرر برای مدل هایی که پیش بینی های خوبی انجام می دهند، ضرر کمتری نسبت به مدل هایی که پیش بینی های بد انجام می دهند، برمی گرداند.

هدف از آموزش معمولاً به حداقل رساندن ضرری است که یک تابع ضرر باز می گرداند.

بسیاری از انواع مختلف توابع از دست دادن وجود دارد. تابع ضرر مناسب را برای نوع مدلی که می سازید انتخاب کنید. مثلا:

م

فراگیری ماشین

#مبانی

برنامه یا سیستمی که یک مدل را از داده های ورودی آموزش می دهد . مدل آموزش‌دیده می‌تواند پیش‌بینی‌های مفیدی را از داده‌های جدید (تابه‌حال دیده نشده) که از همان توزیعی که برای آموزش مدل استفاده شده است، انجام دهد.

یادگیری ماشینی همچنین به رشته تحصیلی مربوط به این برنامه ها یا سیستم ها اشاره دارد.

طبقه اکثریت

#مبانی

برچسب رایج‌تر در مجموعه داده‌های نامتعادل کلاس . به عنوان مثال، با توجه به مجموعه داده ای که شامل 99٪ برچسب های منفی و 1٪ برچسب های مثبت است، برچسب های منفی کلاس اکثریت هستند.

در تضاد با طبقه اقلیت .

مینی دسته

#مبانی

یک زیر مجموعه کوچک و تصادفی انتخاب شده از یک دسته که در یک تکرار پردازش شده است. اندازه دسته ای یک مینی بچ معمولا بین 10 تا 1000 نمونه است.

به عنوان مثال، فرض کنید کل مجموعه آموزشی (گروه کامل) از 1000 نمونه تشکیل شده است. علاوه بر این، فرض کنید که اندازه دسته‌ای هر مینی بچ را روی 20 تنظیم کرده‌اید. بنابراین، هر تکرار ضرر را در 20 نمونه از 1000 نمونه تعیین می‌کند و سپس وزن‌ها و بایاس‌ها را بر این اساس تنظیم می‌کند.

محاسبه تلفات در یک دسته کوچک بسیار کارآمدتر از ضرر در تمام نمونه های دسته کامل است.

طبقه اقلیت

#مبانی

برچسب کمتر رایج در یک مجموعه داده با کلاس نامتعادل . به عنوان مثال، با توجه به مجموعه داده ای حاوی 99٪ برچسب های منفی و 1٪ برچسب های مثبت، برچسب های مثبت کلاس اقلیت هستند.

در تضاد با طبقه اکثریت .

مدل

#مبانی

به طور کلی، هر ساختار ریاضی که داده های ورودی را پردازش می کند و خروجی را برمی گرداند. به عبارتی متفاوت، مدل مجموعه ای از پارامترها و ساختار مورد نیاز یک سیستم برای پیش بینی است. در یادگیری ماشینی نظارت شده ، یک مدل یک مثال را به عنوان ورودی می گیرد و یک پیش بینی را به عنوان خروجی استنباط می کند. در یادگیری ماشینی تحت نظارت، مدل‌ها تا حدودی متفاوت هستند. مثلا:

  • یک مدل رگرسیون خطی شامل مجموعه ای از وزن ها و یک سوگیری است.
  • یک مدل شبکه عصبی شامل موارد زیر است:
  • یک مدل درخت تصمیم شامل موارد زیر است:
    • شکل درخت؛ یعنی الگویی که در آن شرایط و برگها به هم وصل شده اند.
    • شرایط و ترک.

می توانید یک مدل را ذخیره، بازیابی یا کپی کنید.

یادگیری ماشینی بدون نظارت نیز مدل هایی را تولید می کند، معمولاً تابعی که می تواند یک نمونه ورودی را به مناسب ترین خوشه نگاشت کند.

طبقه بندی چند طبقه

#مبانی

در یادگیری تحت نظارت ، یک مشکل طبقه بندی که در آن مجموعه داده شامل بیش از دو کلاس برچسب است. به عنوان مثال ، برچسب های موجود در مجموعه داده های Iris باید یکی از سه کلاس زیر باشد:

  • زنبق ستوزا
  • زنبق ویرجینیکا
  • عنبیه

مدلی که در مجموعه داده های Iris آموزش داده شده است که نوع IRIS را در نمونه های جدید پیش بینی می کند ، انجام طبقه بندی چند کلاس است.

در مقابل ، مشکلات طبقه بندی که دقیقاً بین دو کلاس تمایز قائل هستند ، مدل های طبقه بندی باینری هستند. به عنوان مثال ، یک مدل ایمیل که اسپم را پیش بینی می کند یا نه هرزنامه یک مدل طبقه بندی باینری است.

در مشکلات خوشه بندی ، طبقه بندی چند طبقه به بیش از دو خوشه اشاره دارد.

ن

طبقه منفی

#مبانی

در طبقه بندی باینری ، یک کلاس مثبت خوانده می شود و دیگری منفی نامیده می شود. کلاس مثبت چیز یا رویدادی است که مدل در حال آزمایش است و کلاس منفی احتمال دیگر است. مثلا:

  • کلاس منفی در یک آزمایش پزشکی ممکن است "تومور" نباشد.
  • کلاس منفی در یک طبقه بندی کننده ایمیل ممکن است "اسپم" نباشد.

تضاد با کلاس مثبت .

شبکه عصبی

#مبانی

یک مدل حاوی حداقل یک لایه پنهان . یک شبکه عصبی عمیق نوعی از شبکه عصبی است که حاوی بیش از یک لایه پنهان است. به عنوان مثال ، نمودار زیر یک شبکه عصبی عمیق حاوی دو لایه پنهان را نشان می دهد.

یک شبکه عصبی با یک لایه ورودی ، دو لایه پنهان و یک لایه خروجی.

هر نورون در یک شبکه عصبی به تمام گره های لایه بعدی متصل می شود. به عنوان مثال ، در نمودار قبلی ، توجه کنید که هر یک از سه نورون در لایه اول پنهان به طور جداگانه به هر دو نورون در لایه پنهان دوم متصل می شوند.

شبکه های عصبی که بر روی رایانه ها اجرا می شوند ، گاهی اوقات شبکه های عصبی مصنوعی نامیده می شوند تا آنها را از شبکه های عصبی موجود در مغز و سایر سیستم های عصبی متمایز کنند.

برخی از شبکه های عصبی می توانند از روابط غیرخطی بسیار پیچیده بین ویژگی های مختلف و برچسب تقلید کنند.

همچنین به شبکه عصبی Convolutional و شبکه عصبی مکرر مراجعه کنید.

نورون

#مبانی

در یادگیری ماشین ، یک واحد مجزا در یک لایه پنهان از یک شبکه عصبی . هر نورون عملکرد دو مرحله ای زیر را انجام می دهد:

  1. مقدار وزنی مقادیر ورودی را ضرب شده توسط وزن مربوطه آنها محاسبه می کند.
  2. مبلغ وزنی را به عنوان ورودی به یک عملکرد فعال سازی منتقل می کند.

یک نورون در اولین لایه پنهان ورودی های مقادیر ویژگی موجود در لایه ورودی را می پذیرد. یک نورون در هر لایه پنهان فراتر از اولین ، ورودی های نورون ها را در لایه پنهان قبلی می پذیرد. به عنوان مثال ، یک نورون در لایه پنهان دوم ورودی های نورون ها را در لایه اول پنهان می پذیرد.

تصویر زیر دو نورون و ورودی های آنها را برجسته می کند.

یک شبکه عصبی با یک لایه ورودی ، دو لایه پنهان و یک لایه خروجی. دو نورون برجسته شده است: یکی در لایه اول پنهان و دیگری در لایه دوم پنهان. نورون برجسته در لایه پنهان اول ورودی هایی از هر دو ویژگی موجود در لایه ورودی را دریافت می کند. نورون برجسته در لایه پنهان دوم ورودی های هر یک از سه نورون را در لایه اول پنهان دریافت می کند.

یک نورون در یک شبکه عصبی از رفتار نورون ها در مغز و سایر قسمت های سیستم های عصبی تقلید می کند.

گره (شبکه عصبی)

#مبانی

یک نورون در یک لایه پنهان .

غیر خطی

#مبانی

رابطه بین دو یا چند متغیر که فقط از طریق افزودن و ضرب قابل نمایش نیستند. یک رابطه خطی را می توان به عنوان یک خط نشان داد. یک رابطه غیرخطی نمی تواند به عنوان یک خط ارائه شود. به عنوان مثال ، دو مدل را در نظر بگیرید که هر کدام یک ویژگی واحد را به یک برچسب واحد مرتبط می کنند. مدل در سمت چپ خطی است و مدل در سمت راست غیرخطی است:

دو قطعه یک طرح یک خط است ، بنابراین این یک رابطه خطی است. طرح دیگر منحنی است ، بنابراین این یک رابطه غیرخطی است.

نامانایی

#مبانی

ویژگی ای که مقادیر آن در یک یا چند بعد تغییر می کند ، معمولاً زمان. به عنوان مثال ، مثالهای زیر از عدم استحکام را در نظر بگیرید:

  • تعداد لباس های شنا که در یک فروشگاه خاص فروخته می شود با فصل متفاوت است.
  • مقدار میوه خاصی که در یک منطقه خاص برداشت می شود برای بیشتر سال صفر است اما برای مدت کوتاهی بزرگ است.
  • با توجه به تغییرات آب و هوایی ، میانگین دما سالانه در حال تغییر است.

تضاد با ثابت بودن .

عادی سازی

#مبانی

به طور گسترده ، فرایند تبدیل مقادیر واقعی یک متغیر به یک محدوده استاندارد از مقادیر ، مانند:

  • -1 تا 1
  • 0 به 1
  • توزیع عادی

به عنوان مثال ، فرض کنید دامنه واقعی مقادیر یک ویژگی خاص 800 تا 2400 است. به عنوان بخشی از مهندسی ویژگی ، می توانید مقادیر واقعی را به یک محدوده استاندارد مانند -1 تا 1+ عادی کنید.

عادی سازی یک کار مشترک در مهندسی ویژگی است. مدل ها معمولاً سریعتر تمرین می کنند (و پیش بینی های بهتری را تولید می کنند) وقتی هر ویژگی عددی در بردار ویژگی تقریباً یکسان است.

داده های عددی

#مبانی

ویژگی های ارائه شده به عنوان عدد صحیح یا اعداد با ارزش واقعی. به عنوان مثال ، یک مدل ارزیابی خانه احتمالاً اندازه یک خانه (در فوت مربع یا متر مربع) را به عنوان داده های عددی نشان می دهد. نمایندگی یک ویژگی به عنوان داده های عددی نشان می دهد که مقادیر ویژگی دارای یک رابطه ریاضی با برچسب است. یعنی تعداد متر مربع در یک خانه احتمالاً رابطه ریاضی با ارزش خانه دارد.

همه داده های عدد صحیح نباید به عنوان داده های عددی ارائه شوند. به عنوان مثال ، کدهای پستی در برخی از نقاط جهان عدد صحیح هستند. با این حال ، کدهای پستی عدد صحیح نباید به عنوان داده های عددی در مدل ها ارائه شود. دلیل این امر این است که یک کد پستی 20000 به اندازه یک کد پستی 10000 دو برابر (یا نیم) نیست. علاوه بر این ، اگرچه کدهای پستی مختلف با ارزش های مختلف املاک و مستغلات ارتباط دارند ، ما نمی توانیم فرض کنیم که ارزش املاک و مستغلات در کد پستی 20000 دو برابر با ارزش املاک و مستغلات در کد پستی 10000 ارزشمند هستند. به جای آن ، کدهای پستی باید به عنوان داده های طبقه بندی شوند.

ویژگی های عددی گاهی اوقات ویژگی های مداوم نامیده می شوند.

O

آفلاین

#مبانی

مترادف برای استاتیک .

استنتاج آفلاین

#مبانی

فرآیند یک مدل تولید یک دسته از پیش بینی ها و سپس ذخیره (صرفه جویی) آن پیش بینی ها. سپس برنامه ها می توانند به جای اینکه دوباره مدل را دوباره انجام دهند ، به پیش بینی استنباط شده از حافظه نهان دسترسی پیدا کنند.

به عنوان مثال ، مدلی را در نظر بگیرید که هر چهار ساعت یک بار پیش بینی آب و هوا محلی (پیش بینی) را ایجاد می کند. پس از اجرای هر مدل ، سیستم تمام پیش بینی های آب و هوا محلی را ذخیره می کند. برنامه های هواشناسی پیش بینی ها را از حافظه نهان بازیابی می کنند.

استنتاج آفلاین نیز استنتاج استاتیک نامیده می شود.

تضاد با استنتاج آنلاین .

رمزگذاری تک داغ

#مبانی

نمایش داده های طبقه بندی به عنوان یک بردار که در آن:

  • یک عنصر روی 1 تنظیم شده است.
  • تمام عناصر دیگر روی 0 تنظیم شده اند.

رمزگذاری یک داغ معمولاً برای نشان دادن رشته ها یا شناسه هایی که دارای مجموعه ای محدود از مقادیر ممکن هستند ، استفاده می شود. به عنوان مثال ، فرض کنید یک ویژگی خاص خاص به نام Scandinavia دارای پنج مقدار ممکن است:

  • "دانمارک"
  • "سوئد"
  • "نروژ"
  • "فنلاند"
  • "ایسلند"

رمزگذاری یک داغ می تواند هر یک از پنج مقدار را به شرح زیر نشان دهد:

کشور بردار
"دانمارک" 1 0 0 0 0
"سوئد" 0 1 0 0 0
"نروژ" 0 0 1 0 0
"فنلاند" 0 0 0 1 0
"ایسلند" 0 0 0 0 1

با تشکر از رمزگذاری یک داغ ، یک مدل می تواند ارتباطات مختلفی را بر اساس هر یک از پنج کشور بیاموزد.

نمایندگی یک ویژگی به عنوان داده های عددی جایگزینی برای رمزگذاری یک داغ است. متأسفانه ، نمایندگی کشورهای اسکاندیناوی عددی انتخاب خوبی نیست. به عنوان مثال ، نمایش عددی زیر را در نظر بگیرید:

  • "دانمارک" 0 است
  • "سوئد" 1 است
  • "نروژ" 2 است
  • "فنلاند" 3 است
  • "ایسلند" 4 است

با رمزگذاری عددی ، یک مدل اعداد خام را از نظر ریاضی تفسیر می کند و سعی می کند روی آن شماره ها آموزش ببیند. با این حال ، ایسلند در واقع دو برابر (یا نیمی از) چیزی به عنوان نروژ نیست ، بنابراین این مدل به نتیجه گیری های عجیبی می رسد.

یک ولتاژ همه

#مبانی

با توجه به یک مشکل طبقه بندی با کلاس های N ، راه حلی متشکل از طبقه بندی کننده های باینری جداگانه - یک طبقه بندی باینری برای هر نتیجه ممکن. به عنوان مثال ، با توجه به مدلی که نمونه هایی را به عنوان حیوانات ، سبزیجات یا مواد معدنی طبقه بندی می کند ، یک راه حل یک Vs.-ALL سه طبقه بندی باینری جداگانه زیر را ارائه می دهد:

  • حیوان در مقابل حیوان نیست
  • سبزیجات در مقابل سبزیجات
  • مواد معدنی در مقابل مواد معدنی نیست

برخط

#مبانی

مترادف برای پویا .

استنباط آنلاین

#مبانی

ایجاد پیش بینی در مورد تقاضا. به عنوان مثال ، فرض کنید یک برنامه ورودی را به یک مدل منتقل می کند و درخواست پیش بینی را صادر می کند. سیستمی با استفاده از استنتاج آنلاین با اجرای مدل (و بازگشت پیش بینی به برنامه) به درخواست پاسخ می دهد.

تضاد با استنتاج آفلاین .

لایه خروجی

#مبانی

لایه "نهایی" یک شبکه عصبی. لایه خروجی حاوی پیش بینی است.

تصویر زیر یک شبکه عصبی عمیق کوچک با یک لایه ورودی ، دو لایه پنهان و یک لایه خروجی را نشان می دهد:

یک شبکه عصبی با یک لایه ورودی ، دو لایه پنهان و یک لایه خروجی. لایه ورودی از دو ویژگی تشکیل شده است. اولین لایه پنهان از سه نورون تشکیل شده و لایه دوم پنهان از دو نورون تشکیل شده است. لایه خروجی از یک گره واحد تشکیل شده است.

بیش از حد

#مبانی

ایجاد مدلی که با داده های آموزش آنقدر مطابقت داشته باشد که مدل نتواند پیش بینی های صحیح در مورد داده های جدید انجام دهد.

منظم سازی می تواند باعث کاهش بیش از حد شود. آموزش در یک مجموعه آموزش بزرگ و متنوع همچنین می تواند باعث کاهش بیش از حد شود.

پ

پانداها

#مبانی

API تجزیه و تحلیل داده های ستون گرا در بالای Numpy ساخته شده است. بسیاری از چارچوب های یادگیری ماشین ، از جمله Tensorflow ، از ساختار داده های پاندا به عنوان ورودی پشتیبانی می کنند. برای جزئیات بیشتر به مستندات Pandas مراجعه کنید.

پارامتر

#مبانی

وزنه ها و تعصباتی که یک مدل در طول تمرین می آموزد. به عنوان مثال ، در یک مدل رگرسیون خطی ، پارامترها از تعصب ( B ) و تمام وزن ( W 1 ، W 2 و غیره) در فرمول زیر تشکیل شده است:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

در مقابل ، HyperParameter مقادیری هستند که شما (یا یک سرویس چرخش Hyperparameter) به مدل عرضه می کنید. به عنوان مثال ، میزان یادگیری یک هیپرپارامتر است.

طبقه مثبت

#مبانی

کلاس که برای آن آزمایش می کنید.

به عنوان مثال ، کلاس مثبت در یک مدل سرطان ممکن است "تومور" باشد. کلاس مثبت در یک طبقه بندی کننده ایمیل ممکن است "هرزنامه" باشد.

تضاد با کلاس منفی .

پس پردازش

#انصاف
#مبانی

تنظیم خروجی یک مدل پس از اجرای مدل. پردازش پس از آن می تواند برای اجرای محدودیت های انصاف بدون اصلاح خود مدل ها استفاده شود.

به عنوان مثال ، ممکن است با تنظیم آستانه طبقه بندی ، پس از پردازش برای یک طبقه بندی باینری اعمال شود به گونه ای که برابری فرصت برای برخی از ویژگی ها با بررسی اینکه نرخ مثبت واقعی برای همه مقادیر آن ویژگی یکسان است ، حفظ می شود.

پیش بینی

#مبانی

خروجی یک مدل مثلا:

  • پیش بینی یک مدل طبقه بندی باینری یا کلاس مثبت یا کلاس منفی است.
  • پیش بینی یک مدل طبقه بندی چند کلاس یک کلاس است.
  • پیش بینی یک مدل رگرسیون خطی یک عدد است.

برچسب های پروکسی

#مبانی

داده های مورد استفاده برای تقریبی برچسب ها که به طور مستقیم در یک مجموعه داده موجود نیستند.

به عنوان مثال ، فرض کنید شما باید یک مدل را برای پیش بینی سطح استرس کارکنان آموزش دهید. مجموعه داده شما شامل بسیاری از ویژگی های پیش بینی کننده است اما حاوی برچسب به نام استرس نیست. بدون در نظر گرفتن ، شما "تصادفات در محل کار" را به عنوان یک برچسب پروکسی برای سطح استرس انتخاب می کنید. از این گذشته ، کارمندان تحت استرس زیاد به تصادفات بیشتر از کارمندان آرام می رسند. یا آنها؟ شاید تصادفات در محل کار به دلایل مختلف در واقع افزایش و سقوط کنند.

به عنوان مثال دوم ، فرض کنید می خواهید باران می بارد؟ برای اینکه یک برچسب بولی برای مجموعه داده های خود باشید ، اما مجموعه داده شما حاوی داده های باران نیست. اگر عکس ها در دسترس هستند ، ممکن است عکس هایی از افرادی که حامل چتر به عنوان یک برچسب پروکسی هستند ، ایجاد کنید؟ آیا این یک برچسب پروکسی خوبی است؟ احتمالاً ، اما افراد در بعضی از فرهنگ ها احتمالاً بیشتر از باران برای محافظت در برابر خورشید چترهایی برای محافظت در برابر خورشید دارند.

برچسب های پروکسی اغلب ناقص هستند. در صورت امکان ، برچسب های واقعی را روی برچسب های پروکسی انتخاب کنید. گفته می شود ، هنگامی که یک برچسب واقعی وجود ندارد ، برچسب پروکسی را با دقت انتخاب کنید و کمترین نامزد برچسب پروکسی را انتخاب کنید.

آر

RAG

#مبانی

مخفف برای نسل بازیابی و اوج .

ارزیاب

#مبانی

انسانی که برچسب هایی را برای مثال فراهم می کند. "حاشیه نویسی" نام دیگری برای Rater است.

واحد خطی اصلاح شده (RELU)

#مبانی

یک عملکرد فعال سازی با رفتار زیر:

  • اگر ورودی منفی یا صفر باشد ، خروجی 0 است.
  • اگر ورودی مثبت باشد ، خروجی برابر با ورودی است.

مثلا:

  • اگر ورودی -3 باشد ، خروجی 0 است.
  • اگر ورودی +3 باشد ، خروجی 3.0 است.

در اینجا یک طرح RELU آورده شده است:

طرح دکارتی از دو خط. خط اول دارای یک مقدار ثابت y برابر با 0 است که در امتداد محور x از -infinity,0 تا 0,-0 قرار دارد. خط دوم از 0.0 شروع می شود. این خط دارای شیب 1+ است، بنابراین از 0،0 تا + بی نهایت، + بی نهایت است.

RELU یک تابع فعال سازی بسیار محبوب است. با وجود رفتار ساده ، Relu هنوز یک شبکه عصبی را قادر می سازد تا روابط غیرخطی بین ویژگی ها و برچسب را بیاموزد.

مدل رگرسیون

#مبانی

به طور غیررسمی ، مدلی که پیش بینی عددی ایجاد می کند. (در مقابل ، یک مدل طبقه بندی پیش بینی کلاس را ایجاد می کند.) به عنوان مثال ، موارد زیر همه مدل های رگرسیون هستند:

  • مدلی که ارزش یک خانه خاص مانند 423،000 یورو را پیش بینی می کند.
  • مدلی که امید به زندگی یک درخت خاص را پیش بینی می کند ، مانند 23.2 سال.
  • مدلی که میزان باران را که طی شش ساعت آینده در یک شهر خاص سقوط خواهد کرد ، مانند 0.18 اینچ پیش بینی می کند.

دو نوع متداول از مدل های رگرسیون عبارتند از:

  • رگرسیون خطی ، که خطی را پیدا می کند که به بهترین وجه مقادیر برچسب را با ویژگی ها متناسب می کند.
  • رگرسیون لجستیک ، که یک احتمال بین 0.0 تا 1.0 ایجاد می کند که یک سیستم به طور معمول سپس به یک پیش بینی کلاس می پردازد.

هر مدلی که پیش بینی های عددی را خروجی می کند ، یک مدل رگرسیون است. در بعضی موارد ، یک پیش بینی عددی واقعاً فقط یک مدل طبقه بندی است که به نظر می رسد نام کلاس عددی است. به عنوان مثال ، مدلی که یک کد پستی عددی را پیش بینی می کند ، یک مدل طبقه بندی است ، نه یک مدل رگرسیون.

منظم سازی

#مبانی

هر مکانیسمی که باعث کاهش بیش از حد شود. انواع منظم منظم شامل موارد زیر است:

منظم سازی همچنین می تواند به عنوان مجازات پیچیدگی یک مدل تعریف شود.

میزان منظم سازی

#مبانی

تعدادی که اهمیت نسبی تنظیم مجدد در طول آموزش را مشخص می کند. افزایش نرخ منظم باعث کاهش بیش از حد می شود اما ممکن است قدرت پیش بینی مدل را کاهش دهد. برعکس ، کاهش یا حذف نرخ منظم باعث افزایش بیش از حد می شود.

ReLU

#مبانی

مخفف برای واحد خطی اصلاح شده .

نسل بازیابی-اوت (RAG)

#مبانی

تکنیکی برای بهبود کیفیت تولید مدل زبان بزرگ (LLM) با پایه گذاری آن با منابع دانش بازیابی شده پس از آموزش مدل. RAG با ارائه LLM آموزش دیده به اطلاعاتی که از پایگاه های دانش معتبر یا اسناد بازیابی شده است ، دقت پاسخ های LLM را بهبود می بخشد.

انگیزه های رایج برای استفاده از نسل بازیابی و اوج شامل موارد زیر است:

  • افزایش دقت واقعی پاسخ های تولید شده یک مدل.
  • دسترسی به مدل به دانش مورد نظر خود را آموزش نداد.
  • تغییر دانشی که مدل از آن استفاده می کند.
  • این مدل را قادر به استناد به منابع می کند.

به عنوان مثال ، فرض کنید که یک برنامه شیمی از API PALM برای تولید خلاصه های مربوط به نمایش داده های کاربر استفاده می کند. هنگامی که باطن برنامه پرس و جو دریافت می کند ، پس زمینه:

  1. جستجو برای داده های ("بازیابی") که مربوط به پرس و جو کاربر است.
  2. ضمیمه ("تقویت") داده های شیمی مربوط به پرس و جو کاربر.
  3. به LLM دستور می دهد که بر اساس داده های ضمیمه خلاصه ایجاد کند.

منحنی ROC (مشخصه عملیاتی گیرنده)

#مبانی

نمودار از نرخ مثبت واقعی در مقابل نرخ مثبت کاذب برای آستانه طبقه بندی مختلف در طبقه بندی باینری.

شکل یک منحنی ROC توانایی یک مدل طبقه بندی باینری را برای جدا کردن کلاس های مثبت از کلاس های منفی نشان می دهد. به عنوان مثال فرض کنید که یک مدل طبقه بندی باینری کاملاً تمام کلاسهای منفی را از تمام کلاسهای مثبت جدا می کند:

یک خط با 8 نمونه مثبت در سمت راست و 7 نمونه منفی در سمت چپ.

منحنی ROC برای مدل قبلی به شرح زیر است:

یک منحنی ROC. محور x نرخ مثبت کاذب است و محور y نرخ مثبت مثبت است. منحنی دارای شکل L معکوس است. منحنی از (0.0.0.0) شروع می شود و مستقیماً به (0.0،1.0) می رود. سپس منحنی از (0.0،1.0) به (1.0،1.0) می رود.

در مقابل ، تصویر زیر مقادیر رگرسیون لجستیک خام را برای یک مدل وحشتناک که نمی تواند کلاس های منفی را از کلاس های مثبت جدا کند ، نمودارهای اصلی را نمودار می کند:

یک خط با مثالهای مثبت و کلاسهای منفی کاملاً با هم مخلوط شده است.

منحنی ROC برای این مدل به شرح زیر است:

یک منحنی ROC ، که در واقع یک خط مستقیم از (0.0،0.0) تا (1.0،1.0) است.

در همین حال ، در دنیای واقعی ، بیشتر مدلهای طبقه بندی باینری کلاسهای مثبت و منفی را تا حدی جدا می کنند ، اما معمولاً کاملاً مناسب نیستند. بنابراین ، یک منحنی ROC معمولی در جایی بین دو افراط قرار می گیرد:

یک منحنی ROC. محور x نرخ مثبت کاذب است و محور y نرخ مثبت مثبت است. منحنی ROC یک قوس لرزان را که از نقاط قطب نما از غرب به شمال عبور می کند ، تقریبی می کند.

نقطه در منحنی ROC نزدیک به (0.0،1.0) از لحاظ نظری آستانه طبقه بندی ایده آل را مشخص می کند. با این حال ، چندین موضوع دیگر در دنیای واقعی بر انتخاب آستانه طبقه بندی ایده آل تأثیر می گذارد. به عنوان مثال ، شاید منفی های دروغین باعث درد بسیار بیشتری نسبت به مثبت کاذب شوند.

یک متریک عددی به نام AUC منحنی ROC را به یک مقدار نقطه شناور واحد خلاصه می کند.

ریشه میانگین مربعات خطا (RMSE)

#مبانی

ریشه مربع خطای میانگین مربع .

اس

تابع سیگموئید

#مبانی

یک عملکرد ریاضی که یک مقدار ورودی را در یک محدوده محدود ، به طور معمول 0 تا 1 یا -1 تا 1 +1 "خرد می کند". یعنی شما می توانید هر شماره (دو ، یک میلیون ، میلیارد منفی ، هر چیز دیگری) را به یک سیگموئید منتقل کنید و خروجی هنوز در محدوده محدود خواهد بود. نمودار تابع فعال سازی سیگموئید به صورت زیر است:

یک نمودار منحنی دو بعدی با مقادیر x که دامنه -بی نهایت تا + مثبت را در بر می گیرد، در حالی که مقادیر y محدوده تقریباً 0 تا تقریبا 1 را در بر می گیرد. وقتی x 0 باشد، y 0.5 است. شیب منحنی همیشه مثبت است، با بیشترین شیب 0.5 و به تدریج با افزایش مقدار مطلق x شیب ها کاهش می یابد.

عملکرد سیگموئید چندین کاربرد در یادگیری ماشین دارد ، از جمله:

نرم

#مبانی

تابعی که احتمالات را برای هر کلاس ممکن در یک مدل طبقه بندی چند طبقه تعیین می کند. احتمالات دقیقاً به 1.0 اضافه می شود. به عنوان مثال ، جدول زیر نشان می دهد که چگونه SoftMax احتمالات مختلف را توزیع می کند:

تصویر یک ... احتمال
سگ .85
گربه .13
اسب .02

SoftMax همچنین Full Softmax نامیده می شود.

تضاد با نمونه گیری نامزد .

ویژگی پراکنده

#زبان
#مبانی

ویژگی ای که مقادیر آن عمدتا صفر یا خالی است. به عنوان مثال ، یک ویژگی حاوی یک مقدار 1 و یک میلیون مقدار 0 مقدار پراکنده است. در مقابل ، یک ویژگی متراکم دارای مقادیری است که عمدتا صفر یا خالی نیستند.

در یادگیری ماشین ، تعداد غافلگیرکننده ای از ویژگی ها از ویژگی های پراکنده هستند. ویژگی های طبقه بندی شده معمولاً ویژگی های پراکنده است. به عنوان مثال ، از 300 گونه درخت ممکن در یک جنگل ، یک مثال واحد ممکن است فقط یک درخت افرا را شناسایی کند. یا از میلیون ها فیلم ممکن در یک کتابخانه ویدیویی ، یک مثال واحد ممکن است فقط "Casablanca" را مشخص کند.

در یک مدل ، شما به طور معمول ویژگی های پراکنده را با رمزگذاری یک داغ نشان می دهید. اگر رمزگذاری یک داغ بزرگ باشد ، ممکن است یک لایه تعبیه شده را در بالای رمزگذاری یک داغ برای راندمان بیشتر قرار دهید.

نمایش پراکنده

#زبان
#مبانی

ذخیره فقط موقعیت (های) عناصر nonzero در یک ویژگی پراکنده.

به عنوان مثال ، فرض کنید یک ویژگی طبقه بندی شده به نام species 36 گونه درخت را در یک جنگل خاص مشخص می کند. بیشتر فرض کنید که هر مثال فقط یک گونه واحد را مشخص می کند.

در هر مثال می توانید از یک بردار یک داغ استفاده کنید تا گونه های درخت را نشان دهد. یک بردار یک داغ حاوی 1 (برای نشان دادن گونه های خاص درخت در آن مثال) و 35 0 ثانیه (برای نشان دادن 35 گونه درختی که در آن مثال نیست ). بنابراین ، نمایش یک داغ maple ممکن است چیزی شبیه به موارد زیر باشد:

وکتوری که در آن موقعیت 0 تا 23 مقدار 0 را نگه می دارد ، موقعیت 24 مقدار 1 را نگه می دارد و موقعیت های 25 تا 35 مقدار 0 را نگه می دارد.

از طرف دیگر ، نمایندگی پراکنده به سادگی موقعیت گونه های خاص را مشخص می کند. اگر maple در موقعیت 24 قرار داشته باشد ، نمایش پراکنده maple به سادگی خواهد بود:

24

توجه کنید که نمایندگی پراکنده بسیار فشرده تر از نمایندگی یک داغ است.

بردار پراکنده

#مبانی

وکتوری که مقادیر آن بیشتر صفر است. همچنین ویژگی پراکنده و کمبود را ببینید.

از دست دادن مربع

#مبانی

مترادف برای از دست دادن L 2 .

ایستا

#مبانی

کاری که یک بار انجام شده است و نه به طور مداوم. اصطلاحات استاتیک و آفلاین مترادف هستند. موارد زیر کاربردهای متداول استاتیک و آفلاین در یادگیری ماشین است:

  • مدل استاتیک (یا مدل آفلاین ) مدلی است که یک بار آموزش دیده و سپس برای مدتی استفاده می شود.
  • آموزش استاتیک (یا آموزش آفلاین ) روند آموزش یک مدل استاتیک است.
  • استنتاج استاتیک (یا استنتاج آفلاین ) فرایندی است که در آن یک مدل یک دسته از پیش بینی ها را در یک زمان تولید می کند.

تضاد با پویا .

استنباط استاتیک

#مبانی

مترادف برای استنباط آفلاین .

جایگاه

#مبانی

ویژگی ای که مقادیر آن در یک یا چند بعد تغییر نمی کند ، معمولاً زمان. به عنوان مثال ، ویژگی ای که مقادیر آن در سالهای 2021 و 2023 به همان اندازه به نظر می رسد ، دارای ثابت بودن است.

در دنیای واقعی ، تعداد بسیار کمی از ویژگی های ثابت بودن. حتی ویژگی های مترادف با ثبات (مانند سطح دریا) با گذشت زمان تغییر می کند.

تضاد با غیر ایستگاه .

نزول شیب تصادفی (SGD)

#مبانی

یک الگوریتم نزول شیب که در آن اندازه دسته ای یکی است. به عبارت دیگر ، SGD با یک مثال واحد به طور تصادفی از یک مجموعه آموزش انتخاب می شود.

یادگیری ماشینی تحت نظارت

#مبانی

آموزش یک مدل از ویژگی ها و برچسب های مربوطه آنها. یادگیری ماشین تحت نظارت با مطالعه مجموعه ای از سؤالات و پاسخ های مربوط به آنها مشابه با یادگیری یک موضوع است. پس از تسلط بر نقشه برداری بین سؤالات و پاسخ ها ، دانش آموز می تواند پاسخ به سؤالات جدید (هرگز دیده نشده) در مورد همان موضوع ارائه دهد.

با یادگیری ماشین بدون نظارت مقایسه کنید.

ویژگی مصنوعی

#مبانی

ویژگی ای که در بین ویژگی های ورودی وجود ندارد ، اما از یک یا چند مورد از آنها مونتاژ شده است. روش های ایجاد ویژگی های مصنوعی شامل موارد زیر است:

  • چسباندن یک ویژگی مداوم در سطل های محدوده.
  • ایجاد یک صلیب ویژگی .
  • ضرب (یا تقسیم) یک مقدار ویژگی با توجه به ارزش (های) دیگر یا به خودی خود. به عنوان مثال ، اگر a و b ویژگی های ورودی هستند ، موارد زیر نمونه هایی از ویژگی های مصنوعی است:
    • ab
    • یک 2
  • استفاده از یک تابع متعالی به یک مقدار ویژگی. به عنوان مثال ، اگر c یک ویژگی ورودی است ، نمونه های زیر نمونه هایی از ویژگی های مصنوعی است:
    • گناه (ج)
    • LN (ج)

ویژگی های ایجاد شده توسط عادی سازی یا مقیاس گذاری به تنهایی از ویژگی های مصنوعی در نظر گرفته نمی شوند.

تی

از دست دادن

#مبانی

یک متریک که از دست دادن یک مدل در برابر مجموعه آزمون است. هنگام ساختن یک مدل ، معمولاً سعی می کنید از دست دادن آزمایش به حداقل برسید. دلیل این امر این است که از دست دادن کم تست یک سیگنال با کیفیت قوی تر از ضرر کم آموزش یا از دست دادن اعتبار سنجی کم است.

فاصله زیادی بین از دست دادن آزمون و از دست دادن آموزش یا از دست دادن اعتبار سنجی گاهی اوقات نشان می دهد که شما نیاز به افزایش نرخ منظم دارید.

آموزش

#مبانی

فرآیند تعیین پارامترهای ایده آل (وزن و تعصب) شامل یک مدل . در طول آموزش ، یک سیستم در مثال می خواند و به تدریج پارامترها را تنظیم می کند. آموزش از هر نمونه در هر نقطه از چند بار تا میلیارد ها بار استفاده می کند.

از دست دادن آموزش

#مبانی

یک متریک نشان دهنده ضرر یک مدل در طی یک تکرار آموزش خاص است. به عنوان مثال ، فرض کنید عملکرد از دست دادن به معنای خطای مربع است. شاید از دست دادن آموزش (میانگین خطای مربع) برای تکرار 10 2.2 باشد و از دست دادن تمرین برای 100 تکرار 1.9 است.

یک منحنی ضرر از دست دادن آموزش در مقابل تعداد تکرارها را ترسیم می کند. منحنی ضرر نکات زیر را در مورد آموزش ارائه می دهد:

  • یک شیب رو به پایین دلالت بر این دارد که مدل در حال بهبود است.
  • یک شیب رو به بالا دلالت بر این دارد که مدل بدتر می شود.
  • یک شیب مسطح دلالت بر این دارد که این مدل به همگرایی رسیده است.

به عنوان مثال ، منحنی از دست دادن تا حدودی ایده آل نشان می دهد:

  • شیب شیب دار به سمت پایین در طول تکرار اولیه ، که دلالت بر بهبود سریع مدل دارد.
  • یک شیب به تدریج مسطح (اما هنوز هم پایین) تا پایان آموزش ، که حاکی از بهبود مدل با سرعت کمی کندتر و سپس در طول تکرار اولیه است.
  • شیب مسطح به سمت پایان آموزش ، که نشان دهنده همگرایی است.

طرح از دست دادن آموزش در مقابل تکرارها. این منحنی ضرر با شیب شیب دار به سمت پایین شروع می شود. شیب به تدریج صاف می شود تا شیب صفر شود.

اگرچه از دست دادن آموزش مهم است ، اما به تعمیم نیز مراجعه کنید.

آموزش و پرورش

#مبانی

تفاوت بین عملکرد یک مدل در طول آموزش و عملکرد همان مدل در طول خدمت .

مجموعه آموزشی

#مبانی

زیر مجموعه مجموعه داده ها برای آموزش یک مدل استفاده می شود.

به طور سنتی ، نمونه هایی در مجموعه داده ها به سه زیر مجموعه زیر تقسیم می شوند:

در حالت ایده آل ، هر نمونه در مجموعه داده باید فقط به یکی از زیر مجموعه های قبلی تعلق داشته باشد. به عنوان مثال ، یک مثال واحد نباید متعلق به مجموعه آموزش و مجموعه اعتبار سنجی باشد.

منفی واقعی (TN)

#فونداستال ها

نمونه ای که در آن مدل به درستی کلاس منفی را پیش بینی می کند. به عنوان مثال ، این مدل نشان می دهد که یک پیام ایمیل خاص هرزنامه نیست و پیام ایمیل واقعاً هرزنامه نیست .

مثبت واقعی (TP)

#فونداستال ها

نمونه ای که در آن مدل به درستی کلاس مثبت را پیش بینی می کند. به عنوان مثال ، این مدل نشان می دهد که یک پیام ایمیل خاص هرزنامه است و پیام ایمیل واقعاً هرزنامه است.

نرخ مثبت واقعی (TPR)

#فونداستال ها

مترادف برای فراخوان . به این معنا که:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

نرخ مثبت واقعی محور y در یک منحنی ROC است.

U

زیر

#فونداستال ها

تولید یک مدل با توانایی پیش بینی ضعیف زیرا این مدل پیچیدگی داده های آموزش را به طور کامل ضبط نکرده است. بسیاری از مشکلات می توانند باعث زیربنایی شوند ، از جمله:

مثال بدون برچسب

#فونداستال ها

نمونه ای که شامل ویژگی هایی است اما بدون برچسب . به عنوان مثال ، جدول زیر سه نمونه بدون برچسب از یک مدل ارزیابی خانه را نشان می دهد ، هر کدام سه ویژگی اما هیچ ارزش خانه ای ندارند:

تعداد اتاق خواب تعداد حمام دوره خانه
3 2 15
2 1 72
4 2 34

در یادگیری ماشین تحت نظارت ، مدل ها بر روی نمونه های دارای برچسب آموزش می بینند و در مورد نمونه های بدون برچسب پیش بینی می کنند.

در یادگیری نیمه تحت نظارت و بدون نظارت ، از نمونه های بدون برچسب در طول آموزش استفاده می شود.

کنتراست نمونه بدون برچسب با مثال برچسب .

یادگیری ماشینی بدون نظارت

#خوشه بندی
#فونداستال ها

آموزش یک مدل برای یافتن الگوهای در یک مجموعه داده ، به طور معمول یک مجموعه داده بدون برچسب.

متداول ترین استفاده از یادگیری دستگاه بدون نظارت ، خوشه ای داده ها به گروه هایی با مثال های مشابه است. به عنوان مثال ، یک الگوریتم یادگیری ماشین بدون نظارت می تواند آهنگ ها را بر اساس خصوصیات مختلف موسیقی خوشه کند. خوشه های حاصل می توانند به سایر الگوریتم های یادگیری ماشین (به عنوان مثال ، به یک سرویس توصیه موسیقی) تبدیل شوند. خوشه بندی می تواند در هنگام برچسب های مفید کمیاب یا غایب کمک کند. به عنوان مثال ، در حوزه هایی مانند ضد سوء استفاده و کلاهبرداری ، خوشه ها می توانند به انسان کمک کنند تا داده ها را بهتر درک کنند.

تضاد با یادگیری ماشین نظارت .

V

اعتبار سنجی

#فونداستال ها

ارزیابی اولیه کیفیت یک مدل. اعتبار سنجی کیفیت پیش بینی های یک مدل را در برابر مجموعه اعتبار سنجی بررسی می کند.

Because the validation set differs from the training set , validation helps guard against overfitting .

You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.

validation loss

#فونداستال ها

A metric representing a model's loss on the validation set during a particular iteration of training.

See also generalization curve .

validation set

#فونداستال ها

The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .

Traditionally, you divide the examples in the dataset into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

دبلیو

وزن

#فونداستال ها

A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.

weighted sum

#فونداستال ها

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

input value وزن ورودی
2 -1.3
-1 0.6
3 0.4

The weighted sum is therefore:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

ز

Z-score normalization

#فونداستال ها

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

Raw value امتیاز Z
800 0
950 +1.5
575 -2.25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.