سوالات زیر به شما کمک می کند تا درک خود را از مفاهیم اصلی ML تقویت کنید.
قدرت پیش بینی
مدلهای ML نظارت شده با استفاده از مجموعههای داده با نمونههای برچسبگذاری شده آموزش داده میشوند. مدل یاد می گیرد که چگونه برچسب را از روی ویژگی ها پیش بینی کند. با این حال، هر ویژگی در یک مجموعه داده قدرت پیش بینی ندارد. در برخی موارد، تنها چند ویژگی به عنوان پیشبینیکننده برچسب عمل میکنند. در مجموعه داده زیر، از قیمت به عنوان برچسب و از ستون های باقی مانده به عنوان ویژگی استفاده کنید.
به نظر شما کدام سه ویژگی احتمالاً بهترین پیش بینی کننده برای قیمت خودرو هستند؟
Make_model، سال، مایل.
ساخت/مدل خودرو، سال و مایلها احتمالاً از قویترین پیشبینیکنندهها برای قیمت آن هستند.
رنگ، قد، ساخت_مدل.
ارتفاع و رنگ یک خودرو پیش بینی کننده قوی برای قیمت خودرو نیست.
میل گیربکس make_model.
گیربکس پیش بینی کننده اصلی قیمت نیست.
سایز لاستیک، فاصله محور، سال.
اندازه لاستیک و پایه چرخ ها پیش بینی کننده قوی برای قیمت خودرو نیستند.
یادگیری تحت نظارت و بدون نظارت
بر اساس مشکل، از یک رویکرد نظارت شده یا بدون نظارت استفاده خواهید کرد. برای مثال، اگر از قبل مقدار یا دستهای را که میخواهید پیشبینی کنید، میدانید، از یادگیری نظارت شده استفاده میکنید. با این حال، اگر میخواهید بدانید که آیا مجموعه داده شما حاوی هر گونه بخشبندی یا گروهبندی نمونههای مرتبط است، از یادگیری بدون نظارت استفاده میکنید.
فرض کنید مجموعه داده ای از کاربران برای یک وب سایت خرید آنلاین دارید و شامل ستون های زیر است:
اگر بخواهید انواع کاربرانی که از سایت بازدید می کنند را درک کنید، آیا از یادگیری نظارت شده یا بدون نظارت استفاده می کنید؟
یادگیری بدون نظارت
از آنجایی که میخواهیم مدل گروههایی از مشتریان مرتبط را خوشهبندی کند، از یادگیری بدون نظارت استفاده میکنیم. پس از اینکه مدل کاربران را خوشهبندی کرد، نامهای خود را برای هر خوشه ایجاد میکنیم، بهعنوان مثال، «جویندگان تخفیف»، «شکارچیان معامله»، «موجگردها»، «وفادار» و «سرگردان».
یادگیری تحت نظارت زیرا من سعی می کنم پیش بینی کنم که یک کاربر به کدام کلاس تعلق دارد.
در یادگیری تحت نظارت، مجموعه داده باید حاوی برچسبی باشد که میخواهید پیشبینی کنید. در مجموعه داده، هیچ برچسبی وجود ندارد که به دسته ای از کاربران اشاره کند.
فرض کنید یک مجموعه داده مصرف انرژی برای خانه ها با ستون های زیر دارید:
از چه نوع ML برای پیش بینی کیلووات ساعت مصرف شده در سال برای یک خانه تازه ساخته استفاده می کنید؟
یادگیری تحت نظارت
آموزش های تحت نظارت بر روی نمونه های برچسب گذاری شده. در این مجموعه داده "کیلووات ساعت استفاده شده در سال" برچسب خواهد بود زیرا این مقداری است که شما می خواهید مدل پیش بینی کند. ویژگی ها "فیلم مربعی"، "مکان" و "سال ساخت" خواهد بود.
یادگیری بدون نظارت
یادگیری بدون نظارت از نمونه های بدون برچسب استفاده می کند. در این مثال، "کیلووات ساعت مصرف شده در سال" برچسب خواهد بود زیرا این مقداری است که شما می خواهید مدل پیش بینی کند.
فرض کنید یک مجموعه داده پرواز با ستون های زیر دارید:
اگر بخواهید هزینه بلیط مربی را پیش بینی کنید، از رگرسیون یا طبقه بندی استفاده می کنید؟
رگرسیون
خروجی یک مدل رگرسیون یک مقدار عددی است.
طبقه بندی
خروجی یک مدل طبقه بندی یک مقدار گسسته است، معمولاً یک کلمه. در این حالت هزینه بلیط مربی یک مقدار عددی است.
بر اساس مجموعه دادهها، آیا میتوانید یک مدل طبقهبندی برای طبقهبندی هزینه بلیط اتوبوس به عنوان «بالا»، «متوسط» یا «کم» آموزش دهید؟
بله، اما ابتدا باید مقادیر عددی در ستون coach_ticket_cost
را به مقادیر طبقهای تبدیل کنیم.
امکان ایجاد یک مدل طبقه بندی از مجموعه داده وجود دارد. شما کاری شبیه به زیر انجام می دهید:
- میانگین هزینه بلیط از فرودگاه مبدا تا فرودگاه مقصد را بیابید.
- آستانه هایی را تعیین کنید که «بالا»، «متوسط» و «کم» را تشکیل می دهند.
- هزینه پیشبینیشده را با آستانهها مقایسه کنید و دستهای را که ارزش در آن قرار میگیرد تولید کنید.
خیر. امکان ایجاد مدل طبقه بندی وجود ندارد. مقادیر coach_ticket_cost
عددی هستند نه دسته بندی.
با کمی کار، می توانید یک مدل طبقه بندی ایجاد کنید.
خیر. مدلهای طبقهبندی فقط دو دسته را پیشبینی میکنند، مانند spam
یا not_spam
. این مدل نیاز به پیشبینی سه دسته دارد.
مدل های طبقه بندی می توانند چندین دسته را پیش بینی کنند. به آنها مدل های طبقه بندی چند کلاسه می گویند.
آموزش و ارزیابی
پس از آموزش یک مدل، آن را با استفاده از یک مجموعه داده با نمونه های برچسب دار ارزیابی می کنیم و مقدار پیش بینی شده مدل را با مقدار واقعی برچسب مقایسه می کنیم.
دو بهترین پاسخ را برای سوال انتخاب کنید.
اگر پیشبینیهای مدل دور از دسترس هستند، برای بهتر کردن آنها چه کاری میتوانید انجام دهید؟
مدل را مجدداً آموزش دهید، اما فقط از ویژگی هایی استفاده کنید که معتقدید قوی ترین قدرت پیش بینی را برای برچسب دارند.
بازآموزی مدل با ویژگی های کمتر، اما دارای قدرت پیش بینی بیشتر، می تواند مدلی تولید کند که پیش بینی های بهتری انجام دهد.
شما نمی توانید مدلی را که پیش بینی هایش دور از ذهن است درست کنید.
اصلاح مدلی که پیشبینیهای آن غیرفعال است، امکانپذیر است. بیشتر مدل ها به چندین دوره آموزشی نیاز دارند تا زمانی که پیش بینی های مفیدی انجام دهند.
مدل را با استفاده از مجموعه داده های بزرگتر و متنوع تر آموزش دهید.
مدلهایی که بر روی مجموعه دادهها با مثالهای بیشتر و طیف وسیعتری از مقادیر آموزش داده شدهاند، میتوانند پیشبینیهای بهتری ایجاد کنند، زیرا مدل راهحل تعمیمیافتهتری برای رابطه بین ویژگیها و برچسب دارد.
یک رویکرد آموزشی متفاوت را امتحان کنید. به عنوان مثال، اگر از یک رویکرد نظارت شده استفاده می کنید، یک رویکرد بدون نظارت را امتحان کنید.
یک رویکرد آموزشی متفاوت، پیشبینیهای بهتری ایجاد نمیکند.
اکنون برای برداشتن گام بعدی در سفر ML خود آماده هستید:
کتاب راهنمای افراد + هوش مصنوعی . اگر به دنبال مجموعهای از روشها، بهترین شیوهها و مثالهای ارائهشده توسط کارمندان Google، کارشناسان صنعت، و تحقیقات دانشگاهی برای استفاده از ML هستید.
قاب بندی مشکل . اگر به دنبال یک روش آزمایش شده در زمینه برای ایجاد مدل های ML و اجتناب از مشکلات رایج در طول مسیر هستید.
دوره تصادف یادگیری ماشین اگر برای یک رویکرد عمیق و عملی برای یادگیری بیشتر در مورد ML آماده هستید.