L 2 নিয়মিতকরণ একটি জনপ্রিয় নিয়মিতকরণ মেট্রিক, যা নিম্নলিখিত সূত্র ব্যবহার করে:
উদাহরণস্বরূপ, নিম্নলিখিত টেবিলটি ছয় ওজন সহ একটি মডেলের জন্য L 2 নিয়মিতকরণের গণনা দেখায়:
মান | বর্গাকার মান | |
---|---|---|
w 1 | 0.2 | 0.04 |
w 2 | -0.5 | 0.25 |
w 3 | 5.0 | ২৫.০ |
w 4 | -1.2 | 1.44 |
w 5 | 0.3 | 0.09 |
w 6 | -0.1 | 0.01 |
26.83 = মোট |
লক্ষ্য করুন যে শূন্যের কাছাকাছি ওজন L 2 নিয়মিতকরণকে খুব বেশি প্রভাবিত করে না, তবে বড় ওজন একটি বিশাল প্রভাব ফেলতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী গণনায়:
- একটি একক ওজন (w 3 ) মোট জটিলতার প্রায় 93% অবদান রাখে।
- অন্য পাঁচটি ওজন সম্মিলিতভাবে মোট জটিলতার প্রায় 7% অবদান রাখে।
L 2 নিয়মিতকরণ ওজনকে 0 এর দিকে উৎসাহিত করে, কিন্তু কখনই ওজনকে শূন্যের দিকে ঠেলে দেয় না।
ব্যায়াম: আপনার উপলব্ধি পরীক্ষা করুন
নিয়মিতকরণের হার (ল্যাম্বডা)
যেমন উল্লেখ করা হয়েছে, প্রশিক্ষণ কিছু ক্ষতি এবং জটিলতার সমন্বয় কমানোর চেষ্টা করে:
মডেল ডেভেলপাররা নিয়মিতকরণ হার নামক একটি স্কেলার দ্বারা এর মানকে গুণ করে মডেল প্রশিক্ষণে জটিলতার সামগ্রিক প্রভাবের সুর করে। গ্রীক অক্ষর ল্যাম্বদা সাধারণত নিয়মিতকরণ হারের প্রতীক।
অর্থাৎ, মডেল ডেভেলপাররা নিম্নলিখিতগুলি করার লক্ষ্য রাখে:
একটি উচ্চ নিয়মিতকরণ হার:
- নিয়মিতকরণের প্রভাবকে শক্তিশালী করে, যার ফলে ওভারফিটিং হওয়ার সম্ভাবনা হ্রাস পায়।
- নিম্নলিখিত বৈশিষ্ট্য সহ মডেল ওজনের একটি হিস্টোগ্রাম তৈরি করতে থাকে:
- একটি স্বাভাবিক বিতরণ
- গড় ওজন 0।
একটি কম নিয়মিতকরণ হার:
- নিয়মিতকরণের প্রভাব হ্রাস করে, যার ফলে ওভারফিটিং হওয়ার সম্ভাবনা বৃদ্ধি পায়।
- একটি সমতল বন্টন সহ মডেল ওজনের একটি হিস্টোগ্রাম তৈরি করতে থাকে।
উদাহরণস্বরূপ, একটি উচ্চ নিয়মিতকরণ হারের জন্য মডেল ওজনের হিস্টোগ্রাম চিত্র 18-এ দেখানো হিসাবে দেখাতে পারে।
বিপরীতে, একটি কম নিয়মিতকরণের হার একটি ফ্ল্যাটার হিস্টোগ্রাম প্রদান করে, যেমন চিত্র 19 এ দেখানো হয়েছে।
নিয়মিতকরণ হার বাছাই
আদর্শ নিয়মিতকরণের হার এমন একটি মডেল তৈরি করে যা নতুন, পূর্বে অদেখা তথ্যের জন্য ভালোভাবে সাধারণীকরণ করে। দুর্ভাগ্যবশত, সেই আদর্শ মানটি ডেটা-নির্ভর, তাই আপনাকে অবশ্যই কিছু করতে হবেটিউনিং
প্রাথমিক স্টপিং: জটিলতা-ভিত্তিক নিয়মিতকরণের বিকল্প
প্রারম্ভিক স্টপিং একটি নিয়মিতকরণ পদ্ধতি যা জটিলতার একটি গণনা জড়িত করে না। পরিবর্তে, প্রাথমিকভাবে থামার অর্থ হল মডেলটি সম্পূর্ণরূপে একত্রিত হওয়ার আগে প্রশিক্ষণ শেষ করা। উদাহরণস্বরূপ, আপনি প্রশিক্ষণ শেষ করেন যখন বৈধতা সেটের ক্ষতির বক্ররেখা বাড়তে থাকে (ঢাল ইতিবাচক হয়ে যায়)।
যদিও তাড়াতাড়ি বন্ধ করা সাধারণত প্রশিক্ষণের ক্ষতি বাড়ায়, তবে এটি পরীক্ষার ক্ষতি কমাতে পারে।
তাড়াতাড়ি থামানো একটি দ্রুত, কিন্তু খুব কমই সর্বোত্তম, নিয়মিতকরণের ফর্ম। আদর্শ নিয়মিতকরণের হারে পুঙ্খানুপুঙ্খভাবে প্রশিক্ষিত একটি মডেলের মতো ফলাফলের মডেলটি খুব ভালো হওয়ার সম্ভাবনা কম।
শেখার হার এবং নিয়মিতকরণের হারের মধ্যে ভারসাম্য খোঁজা
শেখার হার এবং নিয়মিতকরণের হার বিপরীত দিকে ওজন টানতে থাকে। উচ্চ শিক্ষার হার প্রায়শই ওজনকে শূন্য থেকে দূরে সরিয়ে দেয়; একটি উচ্চ নিয়মিতকরণের হার ওজনকে শূন্যের দিকে টানে।
শেখার হারের সাপেক্ষে যদি নিয়মিতকরণের হার বেশি হয়, তবে দুর্বল ওজনগুলি এমন একটি মডেল তৈরি করে যা খারাপ ভবিষ্যদ্বাণী করে। বিপরীতভাবে, নিয়মিতকরণের হারের সাপেক্ষে শেখার হার বেশি হলে, শক্তিশালী ওজন একটি ওভারফিট মডেল তৈরি করে।
আপনার লক্ষ্য হল শেখার হার এবং নিয়মিতকরণের হারের মধ্যে ভারসাম্য খুঁজে বের করা। এই চ্যালেঞ্জিং হতে পারে. সবচেয়ে খারাপ, একবার আপনি সেই অধরা ভারসাম্য খুঁজে পেলে, আপনাকে শেষ পর্যন্ত শেখার হার পরিবর্তন করতে হতে পারে। এবং, যখন আপনি শেখার হার পরিবর্তন করবেন, আপনাকে আবার আদর্শ নিয়মিতকরণের হার খুঁজে বের করতে হবে।