পূর্ববর্তী মডিউলটি একটি প্রশিক্ষণ সেট এবং একটি পরীক্ষা সেটে একটি ডেটা সেট বিভাজন প্রবর্তন করেছিল। এই বিভাজন আপনাকে উদাহরণগুলির একটি সেটে প্রশিক্ষণ দিতে এবং তারপরে মডেলটিকে ভিন্ন উদাহরণগুলির সাথে পরীক্ষা করতে সক্ষম করে। দুটি পার্টিশনের সাথে, কর্মপ্রবাহটি নিম্নরূপ দেখতে পারে:
চিত্র 1. একটি সম্ভাব্য কর্মপ্রবাহ?
চিত্রে, "টুইক মডেল" মানে আপনি যে মডেলের স্বপ্ন দেখতে পারেন সে সম্পর্কে কিছু সামঞ্জস্য করা—শিক্ষার হার পরিবর্তন করা, বৈশিষ্ট্য যোগ করা বা অপসারণ করা থেকে শুরু করে সম্পূর্ণ নতুন মডেল ডিজাইন করা। এই কর্মপ্রবাহের শেষে, আপনি সেই মডেলটি বেছে নিন যা পরীক্ষা সেটে সবচেয়ে ভালো করে।
ডেটা সেটটিকে দুটি সেটে বিভক্ত করা একটি ভাল ধারণা, তবে একটি প্রতিষেধক নয়। নিচের চিত্রে দেখানো তিনটি উপসেটে ডেটা সেটকে বিভাজন করে আপনি ওভারফিটিং হওয়ার সম্ভাবনা অনেকাংশে কমাতে পারেন:
চিত্র 2. তিনটি উপসেটে একটি একক ডেটা সেট করা।
প্রশিক্ষণ সেট থেকে ফলাফল মূল্যায়ন করতে বৈধতা সেট ব্যবহার করুন. তারপরে, মডেলটি যাচাইকরণ সেটটি "পাস" করার পরে আপনার মূল্যায়ন দুবার পরীক্ষা করতে পরীক্ষা সেটটি ব্যবহার করুন। নিম্নলিখিত চিত্র এই নতুন কর্মপ্রবাহ দেখায়:
চিত্র 3. একটি ভাল কর্মপ্রবাহ।
এই উন্নত কর্মপ্রবাহে:
- মডেল বাছুন যা বৈধকরণ সেটে সবচেয়ে ভালো করে।
- পরীক্ষার সেটের বিপরীতে সেই মডেলটিকে দুবার চেক করুন।
এটি একটি ভাল কর্মপ্রবাহ কারণ এটি পরীক্ষার সেটে কম এক্সপোজার তৈরি করে।