مجموعه های آموزشی و مجموعه های تست
ما به زمین بازی برمی گردیم تا مجموعه های آموزشی و مجموعه های تست را آزمایش کنیم.
برای یادآوری معنی نقاط نارنجی و آبی روی نماد مثبت کلیک کنید.
در تجسم:
- هر نقطه آبی نشان دهنده یک مثال از یک دسته داده (مثلاً هرزنامه) است.
- هر نقطه نارنجی نشان دهنده یک نمونه از دسته دیگری از داده ها است (به عنوان مثال، هرزنامه نیست).
- رنگ پس زمینه نشان دهنده پیش بینی مدل از جایی است که نمونه هایی از آن رنگ باید پیدا شود. پس زمینه آبی اطراف یک نقطه آبی به این معنی است که مدل به درستی آن مثال را پیش بینی می کند. برعکس، یک پسزمینه نارنجی در اطراف یک نقطه آبی به این معنی است که مدل پیشبینی نادرستی برای آن مثال انجام میدهد.
این تمرین هم یک مجموعه تست و هم یک مجموعه آموزشی را ارائه می دهد که هر دو از یک مجموعه داده گرفته شده اند. به طور پیش فرض، تجسم فقط مجموعه آموزشی را نشان می دهد. اگر میخواهید مجموعه آزمایشی را نیز ببینید، روی کادر تأیید نمایش دادههای آزمایشی درست در زیر تصویرسازی کلیک کنید. در تجسم، به تمایز زیر توجه کنید:
- نمونه های آموزشی دارای یک طرح کلی سفید هستند.
- نمونه های تست دارای یک طرح کلی سیاه هستند.
وظیفه 1: Playground را با تنظیمات داده شده با انجام موارد زیر اجرا کنید:
- روی دکمه Run/Pause کلیک کنید:
- شاهد تغییر ارزشهای ضرر تست و از دست دادن آموزش باشید.
- هنگامی که مقادیر از دست دادن تست و از دست دادن آموزش متوقف شد یا هر چند وقت یکبار تغییر کرد، دکمه Run/Pause را دوباره فشار دهید تا Playground متوقف شود.
به دلتای بین ضرر تست و از دست دادن آموزش توجه کنید. ما سعی خواهیم کرد این دلتا را در کارهای زیر کاهش دهیم.
وظیفه 2: کارهای زیر را انجام دهید:
- دکمه Reset را فشار دهید.
- نرخ یادگیری را تغییر دهید.
- دکمه Run/Pause را فشار دهید:
- اجازه دهید Playground حداقل 150 دوره اجرا شود.
آیا دلتای بین از دست دادن تست و از دست دادن آموزش با این نرخ یادگیری جدید کمتر است یا بیشتر؟ اگر میزان یادگیری و اندازه دسته ای را تغییر دهید چه اتفاقی می افتد؟
کار اختیاری 3: یک نوار لغزنده با برچسب درصد داده های آموزشی به شما امکان می دهد نسبت داده های آموزشی به داده های آزمایشی را کنترل کنید. به عنوان مثال، وقتی روی 90٪ تنظیم می شود، 90٪ از داده ها برای مجموعه آموزشی و 10٪ باقی مانده برای مجموعه تست استفاده می شود.
موارد زیر را انجام دهید:
- "درصد داده های آموزشی" را از 50% به 10% کاهش دهید.
- با نرخ یادگیری و اندازه دسته ای آزمایش کنید و از یافته های خود یادداشت برداری کنید.
آیا تغییر درصد داده های آموزشی تنظیمات بهینه یادگیری را که در کار 2 کشف کردید تغییر می دهد؟ اگر چنین است، چرا؟
برای پاسخ به وظیفه 1 روی نماد مثبت کلیک کنید.
با تنظیم نرخ یادگیری بر روی 3 (تنظیم اولیه)، از دست دادن آزمون به طور قابل توجهی بیشتر از کاهش آموزش است.
برای پاسخ به Task 2 روی نماد مثبت کلیک کنید.
با کاهش نرخ یادگیری (به عنوان مثال، به 0.001 )، از دست دادن آزمون به مقدار بسیار نزدیک به از دست دادن آموزش کاهش می یابد. در اکثر اجراها، افزایش اندازه Batch تاثیر قابل توجهی بر از دست دادن آموزش یا از دست دادن تست ندارد. با این حال، در درصد کمی از اجراها، افزایش اندازه Batch به 20 یا بیشتر باعث میشود ضرر تست کمی کمتر از میزان کاهش آموزش کاهش یابد.
مجموعه داده های زمین بازی به صورت تصادفی تولید می شوند. در نتیجه، پاسخ های ما ممکن است همیشه دقیقاً با پاسخ شما مطابقت نداشته باشد.
برای پاسخ به وظیفه 3 روی نماد مثبت کلیک کنید.
کاهش درصد داده های آموزشی از 50٪ به 10٪ به طور چشمگیری تعداد نقاط داده در مجموعه آموزشی را کاهش می دهد. با دادههای بسیار کم، اندازه دستهای بالا و نرخ یادگیری بالا باعث میشود مدل آموزشی بهطور آشفته به اطراف بپرد (پرش مکرر از حداقل نقطه).