درک خود را آزمایش کنید

سوالات زیر به شما کمک می کند تا درک خود را از مفاهیم اصلی ML تقویت کنید.

قدرت پیش بینی

مدل‌های ML نظارت شده با استفاده از مجموعه‌های داده با نمونه‌های برچسب‌گذاری شده آموزش داده می‌شوند. مدل یاد می گیرد که چگونه برچسب را از روی ویژگی ها پیش بینی کند. با این حال، هر ویژگی در یک مجموعه داده قدرت پیش بینی ندارد. در برخی موارد، تنها چند ویژگی به عنوان پیش‌بینی‌کننده برچسب عمل می‌کنند. در مجموعه داده زیر، از قیمت به عنوان برچسب و از ستون های باقی مانده به عنوان ویژگی استفاده کنید.

یک نمونه برچسب‌دار از ویژگی‌های خودرو.

به نظر شما کدام سه ویژگی احتمالاً بهترین پیش بینی کننده برای قیمت خودرو هستند؟
Make_model، سال، مایل.
ساخت/مدل خودرو، سال و مایل‌ها احتمالاً از قوی‌ترین پیش‌بینی‌کننده‌ها برای قیمت آن هستند.
رنگ، قد، ساخت_مدل.
ارتفاع و رنگ یک خودرو پیش بینی کننده قوی برای قیمت خودرو نیست.
میل گیربکس make_model.
گیربکس پیش بینی کننده اصلی قیمت نیست.
سایز لاستیک، فاصله محور، سال.
اندازه لاستیک و پایه چرخ ها پیش بینی کننده قوی برای قیمت خودرو نیستند.

یادگیری تحت نظارت و بدون نظارت

بر اساس مشکل، از یک رویکرد نظارت شده یا بدون نظارت استفاده خواهید کرد. برای مثال، اگر از قبل مقدار یا دسته‌ای را که می‌خواهید پیش‌بینی کنید، می‌دانید، از یادگیری نظارت شده استفاده می‌کنید. با این حال، اگر می‌خواهید بدانید که آیا مجموعه داده شما حاوی هر گونه بخش‌بندی یا گروه‌بندی نمونه‌های مرتبط است، از یادگیری بدون نظارت استفاده می‌کنید.

فرض کنید مجموعه داده ای از کاربران برای یک وب سایت خرید آنلاین دارید و شامل ستون های زیر است:

تصویری از یک ردیف از ویژگی های مشتری.

اگر بخواهید انواع کاربرانی که از سایت بازدید می کنند را درک کنید، آیا از یادگیری نظارت شده یا بدون نظارت استفاده می کنید؟
یادگیری بدون نظارت
از آنجایی که می‌خواهیم مدل گروه‌هایی از مشتریان مرتبط را خوشه‌بندی کند، از یادگیری بدون نظارت استفاده می‌کنیم. پس از اینکه مدل کاربران را خوشه‌بندی کرد، نام‌های خود را برای هر خوشه ایجاد می‌کنیم، به‌عنوان مثال، «جویندگان تخفیف»، «شکارچیان معامله»، «موج‌گردها»، «وفادار» و «سرگردان».
یادگیری تحت نظارت زیرا من سعی می کنم پیش بینی کنم که یک کاربر به کدام کلاس تعلق دارد.
در یادگیری تحت نظارت، مجموعه داده باید حاوی برچسبی باشد که می‌خواهید پیش‌بینی کنید. در مجموعه داده، هیچ برچسبی وجود ندارد که به دسته ای از کاربران اشاره کند.

فرض کنید یک مجموعه داده مصرف انرژی برای خانه ها با ستون های زیر دارید:

تصویری از یک ردیف ویژگی های خانه.

از چه نوع ML برای پیش بینی کیلووات ساعت مصرف شده در سال برای یک خانه تازه ساخته استفاده می کنید؟
یادگیری تحت نظارت
آموزش های تحت نظارت بر روی نمونه های برچسب گذاری شده. در این مجموعه داده "کیلووات ساعت استفاده شده در سال" برچسب خواهد بود زیرا این مقداری است که شما می خواهید مدل پیش بینی کند. ویژگی ها "فیلم مربعی"، "مکان" و "سال ساخت" خواهد بود.
یادگیری بدون نظارت
یادگیری بدون نظارت از نمونه های بدون برچسب استفاده می کند. در این مثال، "کیلووات ساعت مصرف شده در سال" برچسب خواهد بود زیرا این مقداری است که شما می خواهید مدل پیش بینی کند.

فرض کنید یک مجموعه داده پرواز با ستون های زیر دارید:

تصویری از یک ردیف از داده های پرواز.

اگر بخواهید هزینه بلیط مربی را پیش بینی کنید، از رگرسیون یا طبقه بندی استفاده می کنید؟
رگرسیون
خروجی یک مدل رگرسیون یک مقدار عددی است.
طبقه بندی
خروجی یک مدل طبقه بندی یک مقدار گسسته است، معمولاً یک کلمه. در این حالت هزینه بلیط مربی یک مقدار عددی است.
بر اساس مجموعه داده‌ها، آیا می‌توانید یک مدل طبقه‌بندی برای طبقه‌بندی هزینه بلیط اتوبوس به عنوان «بالا»، «متوسط» یا «کم» آموزش دهید؟
بله، اما ابتدا باید مقادیر عددی در ستون coach_ticket_cost را به مقادیر طبقه‌ای تبدیل کنیم.
امکان ایجاد یک مدل طبقه بندی از مجموعه داده وجود دارد. شما کاری شبیه به زیر انجام می دهید:
  1. میانگین هزینه بلیط از فرودگاه مبدا تا فرودگاه مقصد را بیابید.
  2. آستانه هایی را تعیین کنید که «بالا»، «متوسط» و «کم» را تشکیل می دهند.
  3. هزینه پیش‌بینی‌شده را با آستانه‌ها مقایسه کنید و دسته‌ای را که ارزش در آن قرار می‌گیرد تولید کنید.
خیر. امکان ایجاد مدل طبقه بندی وجود ندارد. مقادیر coach_ticket_cost عددی هستند نه دسته بندی.
با کمی کار، می توانید یک مدل طبقه بندی ایجاد کنید.
خیر. مدل‌های طبقه‌بندی فقط دو دسته را پیش‌بینی می‌کنند، مانند spam یا not_spam . این مدل نیاز به پیش‌بینی سه دسته دارد.
مدل های طبقه بندی می توانند چندین دسته را پیش بینی کنند. به آنها مدل های طبقه بندی چند کلاسه می گویند.

آموزش و ارزیابی

پس از آموزش یک مدل، آن را با استفاده از یک مجموعه داده با نمونه های برچسب دار ارزیابی می کنیم و مقدار پیش بینی شده مدل را با مقدار واقعی برچسب مقایسه می کنیم.

دو بهترین پاسخ را برای سوال انتخاب کنید.

اگر پیش‌بینی‌های مدل دور از دسترس هستند، برای بهتر کردن آنها چه کاری می‌توانید انجام دهید؟
مدل را مجدداً آموزش دهید، اما فقط از ویژگی هایی استفاده کنید که معتقدید قوی ترین قدرت پیش بینی را برای برچسب دارند.
بازآموزی مدل با ویژگی های کمتر، اما دارای قدرت پیش بینی بیشتر، می تواند مدلی تولید کند که پیش بینی های بهتری انجام دهد.
شما نمی توانید مدلی را که پیش بینی هایش دور از ذهن است درست کنید.
اصلاح مدلی که پیش‌بینی‌های آن غیرفعال است، امکان‌پذیر است. بیشتر مدل ها به چندین دوره آموزشی نیاز دارند تا زمانی که پیش بینی های مفیدی انجام دهند.
مدل را با استفاده از مجموعه داده های بزرگتر و متنوع تر آموزش دهید.
مدل‌هایی که بر روی مجموعه داده‌ها با مثال‌های بیشتر و طیف وسیع‌تری از مقادیر آموزش داده شده‌اند، می‌توانند پیش‌بینی‌های بهتری ایجاد کنند، زیرا مدل راه‌حل تعمیم‌یافته‌تری برای رابطه بین ویژگی‌ها و برچسب دارد.
یک رویکرد آموزشی متفاوت را امتحان کنید. به عنوان مثال، اگر از یک رویکرد نظارت شده استفاده می کنید، یک رویکرد بدون نظارت را امتحان کنید.
یک رویکرد آموزشی متفاوت، پیش‌بینی‌های بهتری ایجاد نمی‌کند.

اکنون برای برداشتن گام بعدی در سفر ML خود آماده هستید:

  • کتاب راهنمای افراد + هوش مصنوعی . اگر به دنبال مجموعه‌ای از روش‌ها، بهترین شیوه‌ها و مثال‌های ارائه‌شده توسط کارمندان Google، کارشناسان صنعت، و تحقیقات دانشگاهی برای استفاده از ML هستید.

  • قاب بندی مشکل . اگر به دنبال یک روش آزمایش شده در زمینه برای ایجاد مدل های ML و اجتناب از مشکلات رایج در طول مسیر هستید.

  • دوره تصادف یادگیری ماشین اگر برای یک رویکرد عمیق و عملی برای یادگیری بیشتر در مورد ML آماده هستید.