সমস্ত ভাল সফ্টওয়্যার ইঞ্জিনিয়ারিং প্রকল্পগুলি তাদের অ্যাপগুলি পরীক্ষা করার জন্য যথেষ্ট শক্তি ব্যয় করে। একইভাবে, আমরা দৃঢ়ভাবে আপনার ML মডেলের ভবিষ্যদ্বাণীর সঠিকতা নির্ধারণের জন্য পরীক্ষা করার পরামর্শ দিই।
প্রশিক্ষণ, বৈধতা, এবং পরীক্ষার সেট
আপনার মডেলকে প্রশিক্ষণের জন্য ব্যবহৃত উদাহরণগুলির চেয়ে ভিন্ন উদাহরণের সাথে একটি মডেল পরীক্ষা করা উচিত। যেমন আপনি একটু পরে শিখবেন, বিভিন্ন উদাহরণের উপর পরীক্ষা করা আপনার মডেলের ফিটনেসের একই উদাহরণের সেটে পরীক্ষার চেয়ে শক্তিশালী প্রমাণ। আপনি এই বিভিন্ন উদাহরণ কোথায় পাবেন? প্রথাগতভাবে মেশিন লার্নিংয়ে, আপনি মূল ডেটাসেট বিভক্ত করে সেই ভিন্ন উদাহরণগুলি পান। অতএব, আপনি অনুমান করতে পারেন যে আপনার মূল ডেটাসেটটিকে দুটি উপসেটে বিভক্ত করা উচিত:
প্রশিক্ষিত মডেলের মূল্যায়নের জন্য একটি পরীক্ষা সেট ।
ব্যায়াম: আপনার অন্তর্দৃষ্টি পরীক্ষা করুন
ধরুন আপনি ট্রেনিং সেটে ট্রেনিং করেন এবং একাধিক রাউন্ডে পরীক্ষা সেটে মূল্যায়ন করেন। প্রতিটি রাউন্ডে, হাইপারপ্যারামিটার এবং বৈশিষ্ট্য সেট আপডেট করার জন্য আপনি পরীক্ষা সেটের ফলাফলগুলি ব্যবহার করেন। আপনি এই পদ্ধতির সাথে কিছু ভুল দেখতে পারেন? শুধুমাত্র একটি উত্তর চয়ন করুন.
এই পদ্ধতির অনেক রাউন্ড করার ফলে মডেলটি পরীক্ষার সেটের বিশেষত্বের সাথে অস্পষ্টভাবে ফিট হতে পারে।
হ্যাঁ! আপনি যতবার একই পরীক্ষা সেট ব্যবহার করবেন, মডেলটি পরীক্ষা সেটের সাথে ঘনিষ্ঠভাবে ফিট হওয়ার সম্ভাবনা তত বেশি। একজন শিক্ষকের মতো "পরীক্ষায় শেখানো" মডেলটি অসাবধানতাবশত পরীক্ষার সেটের সাথে খাপ খায়, যা মডেলটির জন্য বাস্তব-বিশ্বের ডেটা ফিট করা কঠিন করে তুলতে পারে।
এই পদ্ধতি ভাল. সর্বোপরি, আপনি প্রশিক্ষণ সেটে প্রশিক্ষণ নিচ্ছেন এবং একটি পৃথক পরীক্ষা সেটে মূল্যায়ন করছেন।
আসলে, এখানে একটি সূক্ষ্ম সমস্যা আছে. ধীরে ধীরে কি ভুল হতে পারে তা নিয়ে ভাবুন।
এই পদ্ধতিটি গণনাগতভাবে অদক্ষ। প্রতিটি রাউন্ড পরীক্ষার পরে হাইপারপ্যারামিটার বা বৈশিষ্ট্য সেট পরিবর্তন করবেন না।
ঘন ঘন পরীক্ষা ব্যয়বহুল কিন্তু সমালোচনামূলক। যাইহোক, অতিরিক্ত প্রশিক্ষণের তুলনায় ঘন ঘন পরীক্ষা অনেক কম ব্যয়বহুল। হাইপারপ্যারামিটার এবং বৈশিষ্ট্য সেট অপ্টিমাইজ করা মডেলের গুণমানকে নাটকীয়ভাবে উন্নত করতে পারে, তাই সবসময় বাজেট সময় এবং কম্পিউটেশনাল রিসোর্স এগুলোর উপর কাজ করতে পারে।
ডেটাসেটটিকে দুটি সেটে ভাগ করা একটি শালীন ধারণা, তবে একটি ভাল পদ্ধতি হল ডেটাসেটটিকে তিনটি উপসেটে ভাগ করা। প্রশিক্ষণ সেট এবং পরীক্ষার সেট ছাড়াও, তৃতীয় উপসেট হল:
একটি বৈধতা সেট মডেলটির প্রাথমিক পরীক্ষা সম্পাদন করে কারণ এটিকে প্রশিক্ষণ দেওয়া হচ্ছে।
প্রশিক্ষণ সেট থেকে ফলাফল মূল্যায়ন করতে বৈধতা সেট ব্যবহার করুন. যাচাইকরণ সেটের বারবার ব্যবহারের পরে আপনার মডেলটি ভাল ভবিষ্যদ্বাণী করছে বলে পরামর্শ দেয়, আপনার মডেলটি দুবার পরীক্ষা করতে পরীক্ষা সেটটি ব্যবহার করুন।
নিম্নলিখিত চিত্র এই কর্মপ্রবাহ প্রস্তাব. চিত্রে, "টুইক মডেল" মানে মডেল সম্পর্কে কিছু সামঞ্জস্য করা — শেখার হার পরিবর্তন করা থেকে শুরু করে বৈশিষ্ট্য যোগ করা বা অপসারণ করা, স্ক্র্যাচ থেকে সম্পূর্ণ নতুন মডেল ডিজাইন করা। এই কর্মপ্রবাহের শেষে, আপনি সেই মডেলটি বেছে নিন যা পরীক্ষা সেটে সবচেয়ে ভালো করে।
চিত্র 10-এ দেখানো কর্মপ্রবাহটি সর্বোত্তম, কিন্তু সেই কর্মপ্রবাহের সাথেও, পরীক্ষার সেট এবং যাচাইকরণ সেটগুলি বারবার ব্যবহারে এখনও "জীর্ণ হয়ে যায়"৷ অর্থাৎ, হাইপারপ্যারামিটার সেটিংস বা অন্যান্য মডেলের উন্নতির বিষয়ে সিদ্ধান্ত নিতে আপনি যত বেশি একই ডেটা ব্যবহার করবেন, মডেলটি নতুন ডেটা সম্পর্কে ভাল ভবিষ্যদ্বাণী করবে তার আস্থা তত কম। এই কারণে, পরীক্ষার সেট এবং বৈধতা সেট "রিফ্রেশ" করতে আরও ডেটা সংগ্রহ করা একটি ভাল ধারণা৷ নতুন করে শুরু করা একটি দুর্দান্ত রিসেট।
ব্যায়াম: আপনার অন্তর্দৃষ্টি পরীক্ষা করুন
আপনি ডেটাসেটের সমস্ত উদাহরণ এলোমেলো করেছেন এবং শাফেল করা উদাহরণগুলিকে প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলিতে ভাগ করেছেন৷ যাইহোক, আপনার পরীক্ষার সেটে ক্ষতির মান এতটাই কম যে আপনি একটি ভুল সন্দেহ করছেন। কি ভুল হয়ে গেছে?
হ্যাঁ। অনেক অপ্রয়োজনীয় উদাহরণ সহ একটি ডেটাসেটে এটি একটি সমস্যা হতে পারে। আমরা দৃঢ়ভাবে পরীক্ষার আগে পরীক্ষার সেট থেকে নকল উদাহরণ মুছে ফেলার সুপারিশ করি।
প্রশিক্ষণ এবং পরীক্ষা অনির্ধারক। কখনও কখনও, দৈবক্রমে, আপনার পরীক্ষার ক্ষতি অবিশ্বাস্যভাবে কম হয়। ফলাফল নিশ্চিত করতে পরীক্ষা পুনরায় চালান।
যদিও প্রতিটি দৌড়ে ক্ষতির কিছুটা তারতম্য হয়, তবে এটি এতটা পরিবর্তিত হওয়া উচিত নয় যে আপনি মনে করেন আপনি মেশিন লার্নিং লটারি জিতেছেন।
দৈবক্রমে, পরীক্ষার সেটে এমন উদাহরণ রয়েছে যা মডেলটি ভাল পারফর্ম করেছে।
উদাহরণগুলি ভালভাবে এলোমেলো করা হয়েছিল, তাই এটি অত্যন্ত অসম্ভাব্য।
পরীক্ষার সেটের সাথে অতিরিক্ত সমস্যা
পূর্ববর্তী প্রশ্ন যেমন ব্যাখ্যা করে, সদৃশ উদাহরণগুলি মডেল মূল্যায়নকে প্রভাবিত করতে পারে। একটি ডেটাসেটকে প্রশিক্ষণ, বৈধতা এবং পরীক্ষা সেটে বিভক্ত করার পরে, যাচাইকরণ সেট বা পরীক্ষা সেটের যেকোন উদাহরণ মুছে ফেলুন যা প্রশিক্ষণ সেটের উদাহরণগুলির নকল। একটি মডেলের একমাত্র ন্যায্য পরীক্ষা নতুন উদাহরণের বিরুদ্ধে, সদৃশ নয়।
উদাহরণস্বরূপ, একটি মডেল বিবেচনা করুন যা ভবিষ্যদ্বাণী করে যে একটি ইমেল স্প্যাম কিনা, বিষয় লাইন, ইমেলের মূল অংশ এবং প্রেরকের ইমেল ঠিকানা বৈশিষ্ট্য হিসাবে ব্যবহার করে৷ ধরুন আপনি 80-20 বিভক্ত সহ প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে ডেটা ভাগ করেছেন। প্রশিক্ষণের পরে, মডেলটি প্রশিক্ষণ সেট এবং পরীক্ষা সেট উভয়ের ক্ষেত্রেই 99% নির্ভুলতা অর্জন করে। আপনি সম্ভবত পরীক্ষা সেটে একটি কম নির্ভুলতা আশা করতে পারেন, তাই আপনি ডেটার দিকে আরেকটা নজর দেন এবং আবিষ্কার করেন যে পরীক্ষার সেটের অনেক উদাহরণ প্রশিক্ষণ সেটের উদাহরণগুলির অনুলিপি। সমস্যা হল যে আপনি ডেটা বিভক্ত করার আগে আপনার ইনপুট ডাটাবেস থেকে একই স্প্যাম ইমেলের জন্য ডুপ্লিকেট এন্ট্রিগুলি স্ক্রাব করতে অবহেলা করেছেন৷ আপনি অসাবধানতাবশত আপনার কিছু পরীক্ষার ডেটাতে প্রশিক্ষণ নিয়েছেন।
সংক্ষেপে, একটি ভাল পরীক্ষা সেট বা বৈধতা সেট নিম্নলিখিত সমস্ত মানদণ্ড পূরণ করে:
পরিসংখ্যানগতভাবে উল্লেখযোগ্য পরীক্ষার ফলাফল দেওয়ার জন্য যথেষ্ট বড়।
সামগ্রিকভাবে ডেটাসেটের প্রতিনিধি। অন্য কথায়, প্রশিক্ষণ সেটের চেয়ে ভিন্ন বৈশিষ্ট্য সহ একটি পরীক্ষা সেট বাছাই করবেন না।
বাস্তব-বিশ্বের ডেটার প্রতিনিধি যা মডেলটি তার ব্যবসায়িক উদ্দেশ্যের অংশ হিসাবে সম্মুখীন হবে।
প্রশিক্ষণ সেটে নকল করা শূন্য উদাহরণ।
ব্যায়াম: আপনার উপলব্ধি পরীক্ষা করুন
নির্দিষ্ট সংখ্যক উদাহরণ সহ একটি একক ডেটাসেট দেওয়া হল, নিচের কোন বিবৃতিটি সত্য?
মডেল পরীক্ষা করার জন্য ব্যবহৃত প্রতিটি উদাহরণ মডেল প্রশিক্ষণে ব্যবহৃত একটি কম উদাহরণ।
উদাহরণগুলিকে ট্রেন/পরীক্ষা/বৈধকরণ সেটে ভাগ করা একটি শূন্য-সমষ্টির খেলা। এটি কেন্দ্রীয় বাণিজ্য বন্ধ।
পরীক্ষার সেটে উদাহরণের সংখ্যা অবশ্যই যাচাইকরণ সেটের উদাহরণের সংখ্যার চেয়ে বেশি হতে হবে।
তাত্ত্বিকভাবে, বৈধতা সেট এবং পরীক্ষা পরীক্ষায় একই সংখ্যক উদাহরণ থাকতে হবে বা প্রায় তার মতো।
পরীক্ষার সেটে উদাহরণের সংখ্যা অবশ্যই যাচাইকরণ সেট বা প্রশিক্ষণ সেটের উদাহরণের সংখ্যার চেয়ে বেশি হতে হবে।
প্রশিক্ষণ সেটে উদাহরণের সংখ্যা সাধারণত বৈধকরণ সেট বা পরীক্ষার সেটের উদাহরণের সংখ্যার চেয়ে বেশি হয়; যাইহোক, বিভিন্ন সেটের জন্য কোন শতাংশের প্রয়োজনীয়তা নেই।
ধরুন আপনার পরীক্ষার সেটে পরিসংখ্যানগতভাবে উল্লেখযোগ্য পরীক্ষা করার জন্য যথেষ্ট উদাহরণ রয়েছে। অধিকন্তু, টেস্ট সেটের বিপরীতে পরীক্ষা করলে কম ক্ষতি হয়। যাইহোক, মডেলটি বাস্তব বিশ্বে খারাপভাবে পারফর্ম করেছে। আপনার কি করা উচিত?
আসল ডেটাসেট বাস্তব-জীবনের ডেটা থেকে কীভাবে আলাদা তা নির্ধারণ করুন।
হ্যাঁ। এমনকি সেরা ডেটাসেটগুলি বাস্তব জীবনের ডেটার স্ন্যাপশট মাত্র; অন্তর্নিহিত স্থল সত্য সময়ের সাথে পরিবর্তিত হতে থাকে। যদিও আপনার পরীক্ষার সেটটি আপনার প্রশিক্ষণ সেটের সাথে ভাল মডেলের মানের পরামর্শ দেওয়ার জন্য যথেষ্ট ভাল, আপনার ডেটাসেট সম্ভবত বাস্তব-বিশ্বের ডেটার সাথে পর্যাপ্তভাবে মেলে না। আপনাকে পুনরায় প্রশিক্ষণ দিতে হবে এবং একটি নতুন ডেটাসেটের বিরুদ্ধে পুনরায় পরীক্ষা করতে হতে পারে।
একই টেস্ট সেটে পুনরায় পরীক্ষা করুন। পরীক্ষার ফলাফল একটি অসঙ্গতি হতে পারে.
যদিও পুনঃপরীক্ষা কিছুটা ভিন্ন ফলাফল আনতে পারে, এই কৌশলটি সম্ভবত খুব সহায়ক নয়।
পরীক্ষার সেটে কয়টি উদাহরণ থাকা উচিত?
পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ পরীক্ষা দেওয়ার জন্য যথেষ্ট উদাহরণ।
[null,null,["2024-11-07 UTC-তে শেষবার আপডেট করা হয়েছে।"],[[["Machine learning models should be tested against a separate dataset, called the test set, to ensure accurate predictions on unseen data."],["It's recommended to split the dataset into three subsets: training, validation, and test sets, with the validation set used for initial testing during training and the test set used for final evaluation."],["The validation and test sets can \"wear out\" with repeated use, requiring fresh data to maintain reliable evaluation results."],["A good test set is statistically significant, representative of the dataset and real-world data, and contains no duplicates from the training set."],["It's crucial to address discrepancies between the dataset used for training and testing and the real-world data the model will encounter to achieve satisfactory real-world performance."]]],[]]