درک خود را آزمایش کنید

سوالات زیر به شما کمک می‌کنند تا درک خود را از مفاهیم اصلی یادگیری ماشینی تقویت کنید.

Predictive power

مدل‌های یادگیری ماشینی تحت نظارت با استفاده از مجموعه داده‌هایی با نمونه‌های برچسب‌گذاری شده آموزش داده می‌شوند. مدل یاد می‌گیرد که چگونه برچسب را از ویژگی‌ها پیش‌بینی کند. با این حال، هر ویژگی در یک مجموعه داده قدرت پیش‌بینی ندارد. در برخی موارد، تنها چند ویژگی به عنوان پیش‌بینی‌کننده‌های برچسب عمل می‌کنند. در مجموعه داده‌های زیر، از قیمت به عنوان برچسب و ستون‌های باقی‌مانده به عنوان ویژگی‌ها استفاده کنید.

An labeled example of automobile attributes.

به نظر شما کدام سه ویژگی احتمالاً بهترین پیش‌بینی‌کننده‌های قیمت خودرو هستند؟
Make_model, year, miles.
مدل/ساخت خودرو، سال ساخت و کیلومتر کارکرد احتمالاً از قوی‌ترین عوامل پیش‌بینی‌کننده قیمت آن هستند.
Color, height, make_model.
ارتفاع و رنگ یک ماشین، پیش‌بینی‌کننده‌های قوی برای قیمت آن نیستند.
Miles, gearbox, make_model.
The gearbox isn't a main predictor of price.
Tire_size, wheel_base, year.
اندازه تایر و فاصله بین دو محور، پیش‌بینی‌کننده‌های قوی برای قیمت خودرو نیستند.

Supervised and unsupervised learning

بسته به مسئله، شما از رویکرد نظارت‌شده یا بدون نظارت استفاده خواهید کرد. برای مثال، اگر از قبل مقدار یا دسته‌بندی مورد نظر برای پیش‌بینی را می‌دانید، از یادگیری نظارت‌شده استفاده خواهید کرد. با این حال، اگر می‌خواهید بدانید که آیا مجموعه داده‌های شما شامل تقسیم‌بندی یا گروه‌بندی از نمونه‌های مرتبط است یا خیر، از یادگیری بدون نظارت استفاده خواهید کرد.

فرض کنید مجموعه داده‌ای از کاربران یک وب‌سایت خرید آنلاین دارید و شامل ستون‌های زیر است:

An image of an row of customer attributes.

اگر می‌خواستید انواع کاربرانی که از سایت بازدید می‌کنند را بشناسید، از یادگیری نظارت‌شده استفاده می‌کردید یا بدون نظارت؟
Unsupervised learning.
از آنجا که می‌خواهیم مدل، گروه‌های مشتریان مرتبط را خوشه‌بندی کند، از یادگیری بدون نظارت استفاده خواهیم کرد. پس از اینکه مدل، کاربران را خوشه‌بندی کرد، برای هر خوشه نام‌های خودمان را ایجاد می‌کنیم، برای مثال، «تخفیفان»، «شکارچیان معامله»، «موج‌سواران»، «وفاداران» و «سرگردانان».
یادگیری نظارت‌شده، چون من سعی دارم پیش‌بینی کنم که یک کاربر به کدام کلاس تعلق دارد.
در یادگیری نظارت‌شده، مجموعه داده‌ها باید حاوی برچسبی باشد که می‌خواهید پیش‌بینی کنید. در مجموعه داده‌ها، هیچ برچسبی وجود ندارد که به یک دسته از کاربران اشاره کند.

فرض کنید یک مجموعه داده مصرف انرژی برای خانه‌ها با ستون‌های زیر دارید:

An image of a row of home attributes.

برای پیش‌بینی کیلووات ساعت مصرفی سالانه یک خانه نوساز، از چه نوع یادگیری ماشینی استفاده می‌کنید؟
Supervised learning.
یادگیری نظارت‌شده روی نمونه‌های برچسب‌گذاری‌شده آموزش می‌دهد. در این مجموعه داده، برچسب «کیلووات ساعت مصرفی در سال» خواهد بود، زیرا این مقداری است که می‌خواهید مدل پیش‌بینی کند. ویژگی‌ها عبارتند از «متر مربع»، «موقعیت مکانی» و «سال ساخت».
Unsupervised learning.
یادگیری بدون نظارت از مثال‌های بدون برچسب استفاده می‌کند. در این مثال، «کیلووات ساعت مصرفی در سال» برچسب خواهد بود زیرا این مقداری است که می‌خواهید مدل پیش‌بینی کند.

فرض کنید یک مجموعه داده پرواز با ستون‌های زیر دارید:

An image of a row of flight data.

اگر بخواهید هزینه بلیط هواپیما را پیش‌بینی کنید، از رگرسیون استفاده می‌کنید یا طبقه‌بندی؟
رگرسیون
A regression model's output is a numeric value.
طبقه‌بندی
خروجی یک مدل طبقه‌بندی یک مقدار گسسته، معمولاً یک کلمه است. در این مورد، هزینه بلیط هواپیما یک مقدار عددی است.
بر اساس مجموعه داده‌ها، آیا می‌توانید یک مدل طبقه‌بندی آموزش دهید تا هزینه بلیط هواپیما را به صورت «بالا»، «متوسط» یا «پایین» طبقه‌بندی کند؟
بله، اما ابتدا باید مقادیر عددی موجود در ستون airplane_ticket_cost را به مقادیر دسته‌بندی‌شده تبدیل کنیم.
ایجاد یک مدل طبقه‌بندی از مجموعه داده‌ها امکان‌پذیر است. برای این کار باید کاری شبیه به موارد زیر انجام دهید:
  1. میانگین هزینه بلیط از فرودگاه مبدا تا فرودگاه مقصد را بیابید.
  2. آستانه‌هایی را که «بالا»، «متوسط» و «پایین» را تشکیل می‌دهند، تعیین کنید.
  3. هزینه پیش‌بینی‌شده را با آستانه‌ها مقایسه کنید و دسته‌بندی‌ای که مقدار در آن قرار می‌گیرد را به عنوان خروجی ارائه دهید.
خیر. ایجاد مدل طبقه‌بندی امکان‌پذیر نیست. مقادیر airplane_ticket_cost عددی هستند، نه دسته‌بندی‌شده.
با کمی تلاش، می‌توانید یک مدل طبقه‌بندی ایجاد کنید.
خیر. مدل‌های طبقه‌بندی فقط دو دسته، مانند spam یا not_spam را پیش‌بینی می‌کنند. این مدل باید سه دسته را پیش‌بینی کند.
مدل‌های طبقه‌بندی می‌توانند چندین دسته را پیش‌بینی کنند. به آنها مدل‌های طبقه‌بندی چندکلاسه می‌گویند.

Training and evaluating

پس از آموزش یک مدل، آن را با استفاده از یک مجموعه داده با نمونه‌های برچسب‌گذاری شده ارزیابی می‌کنیم و مقدار پیش‌بینی‌شده مدل را با مقدار واقعی برچسب مقایسه می‌کنیم.

Select the two best answers for the question.

اگر پیش‌بینی‌های مدل خیلی دور از واقعیت باشند، برای بهبود آنها چه کاری می‌توانید انجام دهید؟
مدل را دوباره آموزش دهید، اما فقط از ویژگی‌هایی استفاده کنید که به نظر شما قوی‌ترین قدرت پیش‌بینی را برای برچسب دارند.
آموزش مجدد مدل با ویژگی‌های کمتر، اما با قدرت پیش‌بینی بیشتر، می‌تواند مدلی تولید کند که پیش‌بینی‌های بهتری انجام می‌دهد.
شما نمی‌توانید مدلی را که پیش‌بینی‌هایش بسیار دور از واقعیت است، اصلاح کنید.
می‌توان مدلی را که پیش‌بینی‌هایش درست نیست، اصلاح کرد. اکثر مدل‌ها تا زمانی که پیش‌بینی‌های مفیدی ارائه دهند، به چندین دور آموزش نیاز دارند.
مدل را با استفاده از یک مجموعه داده بزرگتر و متنوع‌تر، مجدداً آموزش دهید.
مدل‌هایی که روی مجموعه داده‌هایی با نمونه‌های بیشتر و طیف وسیع‌تری از مقادیر آموزش داده می‌شوند، می‌توانند پیش‌بینی‌های بهتری ارائه دهند، زیرا مدل، راه‌حل تعمیم‌یافته بهتری برای رابطه بین ویژگی‌ها و برچسب دارد.
یک رویکرد آموزشی متفاوت را امتحان کنید. برای مثال، اگر از یک رویکرد تحت نظارت استفاده کرده‌اید، یک رویکرد بدون نظارت را امتحان کنید.
یک رویکرد آموزشی متفاوت، پیش‌بینی‌های بهتری ایجاد نمی‌کند.

اکنون آماده‌اید تا قدم بعدی را در سفر یادگیری ماشینی خود بردارید: