ক্ষতি হল একটি সংখ্যাসূচক মেট্রিক যা বর্ণনা করে যে একটি মডেলের ভবিষ্যদ্বাণী কতটা ভুল। ক্ষতি মডেলের ভবিষ্যদ্বাণী এবং প্রকৃত লেবেলের মধ্যে দূরত্ব পরিমাপ করে। একটি মডেলকে প্রশিক্ষণের লক্ষ্য হল ক্ষতি কমিয়ে আনা, এটিকে তার সম্ভাব্য সর্বনিম্ন মূল্যে হ্রাস করা।
নিম্নলিখিত চিত্রে, আপনি ডেটা পয়েন্ট থেকে মডেলে আঁকা তীর হিসাবে ক্ষতি কল্পনা করতে পারেন। তীরগুলি দেখায় যে মডেলের ভবিষ্যদ্বাণী প্রকৃত মান থেকে কতটা দূরে।
চিত্র 9 । ক্ষতি প্রকৃত মান থেকে পূর্বাভাসিত মান পর্যন্ত পরিমাপ করা হয়।
ক্ষতির দূরত্ব
পরিসংখ্যান এবং মেশিন লার্নিংয়ে, ক্ষতি পূর্বাভাসিত এবং প্রকৃত মানের মধ্যে পার্থক্য পরিমাপ করে। ক্ষতি মানগুলির মধ্যে দূরত্বের উপর ফোকাস করে, দিক নয়। উদাহরণস্বরূপ, যদি একটি মডেল 2 ভবিষ্যদ্বাণী করে, কিন্তু প্রকৃত মান 5 হয়, তাহলে ক্ষতিটি ঋণাত্মক $ -3 $ ($ 2-5=-3 $) হলে আমরা চিন্তা করি না। পরিবর্তে, আমরা যত্ন করি যে মানগুলির মধ্যে দূরত্ব হল $3 $৷ এইভাবে, ক্ষতি গণনা করার জন্য সমস্ত পদ্ধতি চিহ্নটি সরিয়ে দেয়।
চিহ্নটি অপসারণের দুটি সবচেয়ে সাধারণ পদ্ধতি হল:
- প্রকৃত মান এবং ভবিষ্যদ্বাণীর মধ্যে পার্থক্যের পরম মান নিন।
- প্রকৃত মান এবং পূর্বাভাসের মধ্যে পার্থক্য বর্গ করুন।
ক্ষতির ধরন
রৈখিক রিগ্রেশনে, চারটি প্রধান ধরণের ক্ষতি রয়েছে, যা নিম্নলিখিত সারণীতে বর্ণিত হয়েছে।
ক্ষতির ধরন | সংজ্ঞা | সমীকরণ |
---|---|---|
L 1 ক্ষতি | পূর্বাভাসিত মান এবং প্রকৃত মানের মধ্যে পার্থক্যের পরম মানের সমষ্টি। | $ ∑ | প্রকৃত\ মান - পূর্বাভাসিত\ মান | $ |
গড় পরম ত্রুটি (MAE) | উদাহরণের একটি সেট জুড়ে L 1 হারের গড়। | $ frac{1}{N} ∑ | প্রকৃত\ মান - পূর্বাভাসিত\ মান | $ |
L 2 ক্ষতি | পূর্বাভাসিত মান এবং প্রকৃত মানের মধ্যে বর্গ পার্থক্যের যোগফল। | $ ∑(প্রকৃত\ মান - পূর্বাভাসিত\ মান)^2 $ |
গড় বর্গক্ষেত্র ত্রুটি (MSE) | উদাহরণের একটি সেট জুড়ে L 2 ক্ষতির গড়। | $ \frac{1}{N} ∑ (প্রকৃত\ মান - পূর্বাভাস\ মান)^2 $ |
L 1 ক্ষতি এবং L 2 ক্ষতির মধ্যে কার্যকরী পার্থক্য (বা MAE এবং MSE এর মধ্যে) স্কোয়ারিং। যখন ভবিষ্যদ্বাণী এবং লেবেলের মধ্যে পার্থক্য বড় হয়, তখন স্কোয়ারিং ক্ষতিকে আরও বড় করে তোলে। যখন পার্থক্য ছোট হয় (1 এর কম), স্কোয়ারিং ক্ষতিকে আরও ছোট করে।
একবারে একাধিক উদাহরণ প্রক্রিয়া করার সময়, আমরা MAE বা MSE ব্যবহার করে, সমস্ত উদাহরণ জুড়ে ক্ষতির গড় করার সুপারিশ করি।
গণনা ক্ষতি উদাহরণ
পূর্ববর্তী সেরা ফিট লাইন ব্যবহার করে, আমরা একটি একক উদাহরণের জন্য L 2 ক্ষতি গণনা করব। সেরা ফিট লাইন থেকে, ওজন এবং পক্ষপাতের জন্য আমাদের নিম্নলিখিত মানগুলি ছিল:
- $ \small{ওজন: -3.6} $
- $ \small{বায়াস: 30} $
যদি মডেলটি ভবিষ্যদ্বাণী করে যে একটি 2,370-পাউন্ড গাড়ি প্রতি গ্যালনে 21.5 মাইল পায়, কিন্তু এটি আসলে প্রতি গ্যালনে 24 মাইল পায়, আমরা নিম্নরূপ L 2 ক্ষতি গণনা করব:
মান | সমীকরণ | ফলাফল |
---|---|---|
ভবিষ্যদ্বাণী | $\small{bias + (ওজন * বৈশিষ্ট্য\ মান)}$ $\small{30 + (-3.6*2.37)}$ | $\ছোট{21.5}$ |
প্রকৃত মান | $ \small{ লেবেল } $ | $ \small{ 24 } $ |
L 2 ক্ষতি | $ \small{ (প্রকৃত\ মান - পূর্বাভাসিত\ মান)^2 } $ $\small{ (24 - 21.5)^2 }$ | $\ছোট{6.25}$ |
এই উদাহরণে, সেই একক ডেটা পয়েন্টের জন্য L 2 ক্ষতি হল 6.25৷
একটি ক্ষতি নির্বাচন
MAE বা MSE ব্যবহার করবেন কিনা তা নির্ধারণ করা ডেটাসেট এবং আপনি যেভাবে নির্দিষ্ট ভবিষ্যদ্বাণীগুলি পরিচালনা করতে চান তার উপর নির্ভর করতে পারে। একটি ডেটাসেটের বেশিরভাগ বৈশিষ্ট্যের মান সাধারণত একটি স্বতন্ত্র পরিসরের মধ্যে পড়ে। উদাহরণস্বরূপ, গাড়িগুলি সাধারণত 2000 থেকে 5000 পাউন্ডের মধ্যে হয় এবং প্রতি গ্যালন থেকে 8 থেকে 50 মাইল পাওয়া যায়। একটি 8,000-পাউন্ড গাড়ি, বা একটি গাড়ি যা প্রতি গ্যালন 100 মাইল পায়, এটি সাধারণ পরিসরের বাইরে এবং এটি একটি আউটলায়ার হিসাবে বিবেচিত হবে৷
একজন আউটলায়ারও উল্লেখ করতে পারে যে মডেলের ভবিষ্যদ্বাণী বাস্তব মান থেকে কতটা দূরে। উদাহরণস্বরূপ, 3,000 পাউন্ড সাধারণ গাড়ি-ওজন সীমার মধ্যে, এবং 40 মাইল প্রতি গ্যালন সাধারণ জ্বালানী-দক্ষতা সীমার মধ্যে। যাইহোক, একটি 3,000-পাউন্ড গাড়ি যা প্রতি গ্যালনে 40 মাইল পায় তা মডেলের ভবিষ্যদ্বাণীর পরিপ্রেক্ষিতে একটি আউটলায়ার হবে কারণ মডেলটি ভবিষ্যদ্বাণী করবে যে একটি 3,000-পাউন্ড গাড়ি প্রতি গ্যালন 18 থেকে 20 মাইলের মধ্যে পাবে।
সর্বোত্তম ক্ষতির ফাংশন নির্বাচন করার সময়, আপনি মডেলটিকে আউটলারদের সাথে কীভাবে আচরণ করতে চান তা বিবেচনা করুন। উদাহরণ স্বরূপ, MSE মডেলটিকে আউটলিয়ারের দিকে আরও বেশি করে নিয়ে যায়, যখন MAE করে না। L 2 ক্ষতি L 1 ক্ষতির চেয়ে বাইরের জন্য অনেক বেশি জরিমানা বহন করে। উদাহরণস্বরূপ, নিম্নলিখিত চিত্রগুলি MAE ব্যবহার করে প্রশিক্ষিত একটি মডেল এবং MSE ব্যবহার করে প্রশিক্ষিত একটি মডেল দেখায়৷ লাল রেখাটি একটি সম্পূর্ণ প্রশিক্ষিত মডেলের প্রতিনিধিত্ব করে যা ভবিষ্যদ্বাণী করতে ব্যবহার করা হবে। বহিরাগতরা MAE-এর সাথে প্রশিক্ষিত মডেলের চেয়ে MSE-তে প্রশিক্ষিত মডেলের কাছাকাছি।
চিত্র 10 । MSE এর সাথে প্রশিক্ষিত একটি মডেল মডেলটিকে আউটলারের কাছাকাছি নিয়ে যায়।
চিত্র 11 । MAE এর সাথে প্রশিক্ষিত একটি মডেল বহিরাগতদের থেকে অনেক দূরে।
মডেল এবং ডেটার মধ্যে সম্পর্ক নোট করুন:
MSE । মডেলটি আউটলারের কাছাকাছি কিন্তু অন্যান্য ডেটা পয়েন্ট থেকে আরও দূরে।
MAE মডেলটি আউটলিয়ার থেকে আরও দূরে কিন্তু অন্যান্য ডেটা পয়েন্টের কাছাকাছি।
আপনার বোঝার পরীক্ষা করুন
নিম্নলিখিত দুটি প্লট বিবেচনা করুন: