سوالات زیر به شما کمک میکنند تا درک خود را از مفاهیم اصلی یادگیری ماشینی تقویت کنید.
Predictive power
مدلهای یادگیری ماشینی تحت نظارت با استفاده از مجموعه دادههایی با نمونههای برچسبگذاری شده آموزش داده میشوند. مدل یاد میگیرد که چگونه برچسب را از ویژگیها پیشبینی کند. با این حال، هر ویژگی در یک مجموعه داده قدرت پیشبینی ندارد. در برخی موارد، تنها چند ویژگی به عنوان پیشبینیکنندههای برچسب عمل میکنند. در مجموعه دادههای زیر، از قیمت به عنوان برچسب و ستونهای باقیمانده به عنوان ویژگیها استفاده کنید.

به نظر شما کدام سه ویژگی احتمالاً بهترین پیشبینیکنندههای قیمت خودرو هستند؟
Make_model, year, miles.
مدل/ساخت خودرو، سال ساخت و کیلومتر کارکرد احتمالاً از قویترین عوامل پیشبینیکننده قیمت آن هستند.
Color, height, make_model.
ارتفاع و رنگ یک ماشین، پیشبینیکنندههای قوی برای قیمت آن نیستند.
Miles, gearbox, make_model.
The gearbox isn't a main predictor of price.
Tire_size, wheel_base, year.
اندازه تایر و فاصله بین دو محور، پیشبینیکنندههای قوی برای قیمت خودرو نیستند.
Supervised and unsupervised learning
بسته به مسئله، شما از رویکرد نظارتشده یا بدون نظارت استفاده خواهید کرد. برای مثال، اگر از قبل مقدار یا دستهبندی مورد نظر برای پیشبینی را میدانید، از یادگیری نظارتشده استفاده خواهید کرد. با این حال، اگر میخواهید بدانید که آیا مجموعه دادههای شما شامل تقسیمبندی یا گروهبندی از نمونههای مرتبط است یا خیر، از یادگیری بدون نظارت استفاده خواهید کرد.
فرض کنید مجموعه دادهای از کاربران یک وبسایت خرید آنلاین دارید و شامل ستونهای زیر است:

اگر میخواستید انواع کاربرانی که از سایت بازدید میکنند را بشناسید، از یادگیری نظارتشده استفاده میکردید یا بدون نظارت؟
Unsupervised learning.
از آنجا که میخواهیم مدل، گروههای مشتریان مرتبط را خوشهبندی کند، از یادگیری بدون نظارت استفاده خواهیم کرد. پس از اینکه مدل، کاربران را خوشهبندی کرد، برای هر خوشه نامهای خودمان را ایجاد میکنیم، برای مثال، «تخفیفان»، «شکارچیان معامله»، «موجسواران»، «وفاداران» و «سرگردانان».
یادگیری نظارتشده، چون من سعی دارم پیشبینی کنم که یک کاربر به کدام کلاس تعلق دارد.
در یادگیری نظارتشده، مجموعه دادهها باید حاوی برچسبی باشد که میخواهید پیشبینی کنید. در مجموعه دادهها، هیچ برچسبی وجود ندارد که به یک دسته از کاربران اشاره کند.
فرض کنید یک مجموعه داده مصرف انرژی برای خانهها با ستونهای زیر دارید:

برای پیشبینی کیلووات ساعت مصرفی سالانه یک خانه نوساز، از چه نوع یادگیری ماشینی استفاده میکنید؟
Supervised learning.
یادگیری نظارتشده روی نمونههای برچسبگذاریشده آموزش میدهد. در این مجموعه داده، برچسب «کیلووات ساعت مصرفی در سال» خواهد بود، زیرا این مقداری است که میخواهید مدل پیشبینی کند. ویژگیها عبارتند از «متر مربع»، «موقعیت مکانی» و «سال ساخت».
Unsupervised learning.
یادگیری بدون نظارت از مثالهای بدون برچسب استفاده میکند. در این مثال، «کیلووات ساعت مصرفی در سال» برچسب خواهد بود زیرا این مقداری است که میخواهید مدل پیشبینی کند.
فرض کنید یک مجموعه داده پرواز با ستونهای زیر دارید:

اگر بخواهید هزینه بلیط هواپیما را پیشبینی کنید، از رگرسیون استفاده میکنید یا طبقهبندی؟
رگرسیون
A regression model's output is a numeric value.
طبقهبندی
خروجی یک مدل طبقهبندی یک مقدار گسسته، معمولاً یک کلمه است. در این مورد، هزینه بلیط هواپیما یک مقدار عددی است.
بر اساس مجموعه دادهها، آیا میتوانید یک مدل طبقهبندی آموزش دهید تا هزینه بلیط هواپیما را به صورت «بالا»، «متوسط» یا «پایین» طبقهبندی کند؟
بله، اما ابتدا باید مقادیر عددی موجود در ستون airplane_ticket_cost را به مقادیر دستهبندیشده تبدیل کنیم.
ایجاد یک مدل طبقهبندی از مجموعه دادهها امکانپذیر است. برای این کار باید کاری شبیه به موارد زیر انجام دهید:
- میانگین هزینه بلیط از فرودگاه مبدا تا فرودگاه مقصد را بیابید.
- آستانههایی را که «بالا»، «متوسط» و «پایین» را تشکیل میدهند، تعیین کنید.
- هزینه پیشبینیشده را با آستانهها مقایسه کنید و دستهبندیای که مقدار در آن قرار میگیرد را به عنوان خروجی ارائه دهید.
خیر. ایجاد مدل طبقهبندی امکانپذیر نیست. مقادیر airplane_ticket_cost عددی هستند، نه دستهبندیشده.
با کمی تلاش، میتوانید یک مدل طبقهبندی ایجاد کنید.
خیر. مدلهای طبقهبندی فقط دو دسته، مانند spam یا not_spam را پیشبینی میکنند. این مدل باید سه دسته را پیشبینی کند.
مدلهای طبقهبندی میتوانند چندین دسته را پیشبینی کنند. به آنها مدلهای طبقهبندی چندکلاسه میگویند.
Training and evaluating
پس از آموزش یک مدل، آن را با استفاده از یک مجموعه داده با نمونههای برچسبگذاری شده ارزیابی میکنیم و مقدار پیشبینیشده مدل را با مقدار واقعی برچسب مقایسه میکنیم.
Select the two best answers for the question.
اگر پیشبینیهای مدل خیلی دور از واقعیت باشند، برای بهبود آنها چه کاری میتوانید انجام دهید؟
مدل را دوباره آموزش دهید، اما فقط از ویژگیهایی استفاده کنید که به نظر شما قویترین قدرت پیشبینی را برای برچسب دارند.
آموزش مجدد مدل با ویژگیهای کمتر، اما با قدرت پیشبینی بیشتر، میتواند مدلی تولید کند که پیشبینیهای بهتری انجام میدهد.
شما نمیتوانید مدلی را که پیشبینیهایش بسیار دور از واقعیت است، اصلاح کنید.
میتوان مدلی را که پیشبینیهایش درست نیست، اصلاح کرد. اکثر مدلها تا زمانی که پیشبینیهای مفیدی ارائه دهند، به چندین دور آموزش نیاز دارند.
مدل را با استفاده از یک مجموعه داده بزرگتر و متنوعتر، مجدداً آموزش دهید.
مدلهایی که روی مجموعه دادههایی با نمونههای بیشتر و طیف وسیعتری از مقادیر آموزش داده میشوند، میتوانند پیشبینیهای بهتری ارائه دهند، زیرا مدل، راهحل تعمیمیافته بهتری برای رابطه بین ویژگیها و برچسب دارد.
یک رویکرد آموزشی متفاوت را امتحان کنید. برای مثال، اگر از یک رویکرد تحت نظارت استفاده کردهاید، یک رویکرد بدون نظارت را امتحان کنید.
یک رویکرد آموزشی متفاوت، پیشبینیهای بهتری ایجاد نمیکند.
اکنون آمادهاید تا قدم بعدی را در سفر یادگیری ماشینی خود بردارید: