সরলতার জন্য নিয়মিতকরণ

নিয়মিতকরণ মানে ওভারফিটিং কমাতে একটি মডেলের জটিলতাকে শাস্তি দেওয়া।

সরলতার জন্য নিয়মিতকরণ

প্রশিক্ষণ সেটের ক্ষতি ফাংশন ধীরে ধীরে হ্রাস পায়। বিপরীতে, বৈধতা সেটের ক্ষতি ফাংশন হ্রাস পায়, কিন্তু তারপর বাড়তে শুরু করে।
  • আমরা যেখানে সম্ভব মডেল জটিলতা এড়াতে চাই।
  • প্রশিক্ষণের সময় আমরা যে অপ্টিমাইজেশান করি তাতে আমরা এই ধারণাটিকে বেক করতে পারি।
  • অভিজ্ঞতামূলক ঝুঁকি ন্যূনতমকরণ:
    • কম প্রশিক্ষণ ত্রুটি জন্য লক্ষ্য
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • আমরা যেখানে সম্ভব মডেল জটিলতা এড়াতে চাই।
  • প্রশিক্ষণের সময় আমরা যে অপ্টিমাইজেশান করি তাতে আমরা এই ধারণাটিকে বেক করতে পারি।
  • কাঠামোগত ঝুঁকি ন্যূনতমকরণ:
    • কম প্রশিক্ষণ ত্রুটি জন্য লক্ষ্য
    • জটিলতার বিরুদ্ধে ভারসাম্য বজায় রাখার সময়
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • জটিলতা (মডেল) কিভাবে সংজ্ঞায়িত করবেন?
  • জটিলতা (মডেল) কিভাবে সংজ্ঞায়িত করবেন?
  • ছোট ওজন পছন্দ
  • জটিলতা (মডেল) কিভাবে সংজ্ঞায়িত করবেন?
  • ছোট ওজন পছন্দ
  • এটি থেকে বিচ্যুত একটি খরচ বহন করা উচিত
  • L 2 নিয়মিতকরণ (ওরফে রিজ) এর মাধ্যমে এই ধারণাটি এনকোড করতে পারে
    • জটিলতা(মডেল) = ওজনের বর্গের সমষ্টি
    • সত্যিই বড় ওজন শাস্তি
    • রৈখিক মডেলের জন্য: চাটুকার ঢাল পছন্দ করে
    • বায়েসিয়ান আগে:
      • ওজন শূন্যের চারপাশে কেন্দ্রীভূত করা উচিত
      • ওজন স্বাভাবিকভাবে বিতরণ করা উচিত

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\)\(\lambda\text{: Scalar value that controls how weights are balanced}\)\(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)