ওভারফিটিং: L2 নিয়মিতকরণ

L 2 নিয়মিতকরণ একটি জনপ্রিয় নিয়মিতকরণ মেট্রিক, যা নিম্নলিখিত সূত্র ব্যবহার করে:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

উদাহরণস্বরূপ, নিম্নলিখিত টেবিলটি ছয় ওজন সহ একটি মডেলের জন্য L 2 নিয়মিতকরণের গণনা দেখায়:

মান বর্গাকার মান
w 1 0.2 0.04
w 2 -0.5 0.25
w 3 5.0 ২৫.০
w 4 -1.2 1.44
w 5 0.3 0.09
w 6 -0.1 0.01
26.83 = মোট

লক্ষ্য করুন যে শূন্যের কাছাকাছি ওজন L 2 নিয়মিতকরণকে খুব বেশি প্রভাবিত করে না, তবে বড় ওজন একটি বিশাল প্রভাব ফেলতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী গণনায়:

  • একটি একক ওজন (w 3 ) মোট জটিলতার প্রায় 93% অবদান রাখে।
  • অন্য পাঁচটি ওজন সম্মিলিতভাবে মোট জটিলতার প্রায় 7% অবদান রাখে।

L 2 নিয়মিতকরণ ওজনকে 0 এর দিকে উৎসাহিত করে, কিন্তু কখনই ওজনকে শূন্যের দিকে ঠেলে দেয় না।

ব্যায়াম: আপনার উপলব্ধি পরীক্ষা করুন

আপনি যদি একটি মডেল প্রশিক্ষণের সময় L 2 নিয়মিতকরণ ব্যবহার করেন, তাহলে মডেলটির সামগ্রিক জটিলতার ক্ষেত্রে সাধারণত কী ঘটবে?
সিস্টেমের সামগ্রিক জটিলতা সম্ভবত ড্রপ হবে.
যেহেতু L 2 নিয়মিতকরণ 0 এর দিকে ওজনকে উত্সাহিত করে, সামগ্রিক জটিলতা সম্ভবত হ্রাস পাবে।
মডেলের সামগ্রিক জটিলতা সম্ভবত স্থির থাকবে।
এটা খুবই অসম্ভাব্য।
মডেলের সামগ্রিক জটিলতা সম্ভবত বৃদ্ধি পাবে।
এটি অসম্ভাব্য। মনে রাখবেন যে L 2 নিয়মিতকরণ ওজনকে 0 এর দিকে উৎসাহিত করে।
আপনি যদি একটি মডেল প্রশিক্ষণের সময় L 2 নিয়মিতকরণ ব্যবহার করেন, তাহলে মডেল থেকে কিছু বৈশিষ্ট্য সরানো হবে।
সত্য
যদিও L 2 নিয়মিতকরণ কিছু ওজনকে খুব ছোট করে তুলতে পারে, এটি কখনই কোনো ওজনকে শূন্যের দিকে ঠেলে দেবে না। ফলস্বরূপ, সমস্ত বৈশিষ্ট্য এখনও মডেলটিতে কিছু অবদান রাখবে।
মিথ্যা
L 2 নিয়মিতকরণ কখনই ওজনকে শূন্যের দিকে ঠেলে দেয় না।

নিয়মিতকরণের হার (ল্যাম্বডা)

যেমন উল্লেখ করা হয়েছে, প্রশিক্ষণ কিছু ক্ষতি এবং জটিলতার সমন্বয় কমানোর চেষ্টা করে:

$$\text{minimize(loss} + \text{ complexity)}$$

মডেল ডেভেলপাররা নিয়মিতকরণ হার নামক একটি স্কেলার দ্বারা এর মানকে গুণ করে মডেল প্রশিক্ষণে জটিলতার সামগ্রিক প্রভাবের সুর করে। গ্রীক অক্ষর ল্যাম্বদা সাধারণত নিয়মিতকরণ হারের প্রতীক।

অর্থাৎ, মডেল ডেভেলপাররা নিম্নলিখিতগুলি করার লক্ষ্য রাখে:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

একটি উচ্চ নিয়মিতকরণ হার:

  • নিয়মিতকরণের প্রভাবকে শক্তিশালী করে, যার ফলে ওভারফিটিং হওয়ার সম্ভাবনা হ্রাস পায়।
  • নিম্নলিখিত বৈশিষ্ট্য সহ মডেল ওজনের একটি হিস্টোগ্রাম তৈরি করতে থাকে:
    • একটি স্বাভাবিক বিতরণ
    • গড় ওজন 0।

একটি কম নিয়মিতকরণ হার:

  • নিয়মিতকরণের প্রভাব হ্রাস করে, যার ফলে ওভারফিটিং হওয়ার সম্ভাবনা বৃদ্ধি পায়।
  • একটি সমতল বন্টন সহ মডেল ওজনের একটি হিস্টোগ্রাম তৈরি করতে থাকে।

উদাহরণস্বরূপ, একটি উচ্চ নিয়মিতকরণ হারের জন্য মডেল ওজনের হিস্টোগ্রাম চিত্র 18-এ দেখানো হিসাবে দেখাতে পারে।

চিত্র 18. শূন্যের গড় এবং একটি স্বাভাবিক বন্টন সহ একটি মডেলের ওজনের হিস্টোগ্রাম।
চিত্র 18. একটি উচ্চ নিয়মিতকরণ হারের জন্য ওজন হিস্টোগ্রাম। গড় শূন্য। স্বাভাবিক বিতরণ।

বিপরীতে, একটি কম নিয়মিতকরণের হার একটি ফ্ল্যাটার হিস্টোগ্রাম প্রদান করে, যেমন চিত্র 19 এ দেখানো হয়েছে।

চিত্র 19. শূন্যের গড় সহ একটি মডেলের ওজনের হিস্টোগ্রাম যা একটি সমতল বন্টন এবং একটি স্বাভাবিক বিতরণের মধ্যে কোথাও রয়েছে।
চিত্র 19. কম নিয়মিতকরণের হারের জন্য ওজন হিস্টোগ্রাম। গড় শূন্য হতে পারে বা নাও হতে পারে।

নিয়মিতকরণ হার বাছাই

আদর্শ নিয়মিতকরণের হার এমন একটি মডেল তৈরি করে যা নতুন, পূর্বে অদেখা তথ্যের জন্য ভালোভাবে সাধারণীকরণ করে। দুর্ভাগ্যবশত, সেই আদর্শ মানটি ডেটা-নির্ভর, তাই আপনাকে অবশ্যই কিছু করতে হবেটিউনিং

প্রাথমিক স্টপিং: জটিলতা-ভিত্তিক নিয়মিতকরণের বিকল্প

প্রারম্ভিক স্টপিং একটি নিয়মিতকরণ পদ্ধতি যা জটিলতার একটি গণনা জড়িত করে না। পরিবর্তে, প্রাথমিকভাবে থামার অর্থ হল মডেলটি সম্পূর্ণরূপে একত্রিত হওয়ার আগে প্রশিক্ষণ শেষ করা। উদাহরণস্বরূপ, আপনি প্রশিক্ষণ শেষ করেন যখন বৈধতা সেটের ক্ষতির বক্ররেখা বাড়তে থাকে (ঢাল ইতিবাচক হয়ে যায়)।

যদিও তাড়াতাড়ি বন্ধ করা সাধারণত প্রশিক্ষণের ক্ষতি বাড়ায়, তবে এটি পরীক্ষার ক্ষতি কমাতে পারে।

তাড়াতাড়ি থামানো একটি দ্রুত, কিন্তু খুব কমই সর্বোত্তম, নিয়মিতকরণের ফর্ম। আদর্শ নিয়মিতকরণের হারে পুঙ্খানুপুঙ্খভাবে প্রশিক্ষিত একটি মডেলের মতো ফলাফলের মডেলটি খুব ভালো হওয়ার সম্ভাবনা কম।

শেখার হার এবং নিয়মিতকরণের হারের মধ্যে ভারসাম্য খোঁজা

শেখার হার এবং নিয়মিতকরণের হার বিপরীত দিকে ওজন টানতে থাকে। উচ্চ শিক্ষার হার প্রায়শই ওজনকে শূন্য থেকে দূরে সরিয়ে দেয়; একটি উচ্চ নিয়মিতকরণের হার ওজনকে শূন্যের দিকে টানে।

শেখার হারের সাপেক্ষে যদি নিয়মিতকরণের হার বেশি হয়, তবে দুর্বল ওজনগুলি এমন একটি মডেল তৈরি করে যা খারাপ ভবিষ্যদ্বাণী করে। বিপরীতভাবে, নিয়মিতকরণের হারের সাপেক্ষে শেখার হার বেশি হলে, শক্তিশালী ওজন একটি ওভারফিট মডেল তৈরি করে।

আপনার লক্ষ্য হল শেখার হার এবং নিয়মিতকরণের হারের মধ্যে ভারসাম্য খুঁজে বের করা। এই চ্যালেঞ্জিং হতে পারে. সবচেয়ে খারাপ, একবার আপনি সেই অধরা ভারসাম্য খুঁজে পেলে, আপনাকে শেষ পর্যন্ত শেখার হার পরিবর্তন করতে হতে পারে। এবং, যখন আপনি শেখার হার পরিবর্তন করবেন, আপনাকে আবার আদর্শ নিয়মিতকরণের হার খুঁজে বের করতে হবে।