সরলতার জন্য নিয়মিতকরণ: L₂ নিয়মিতকরণ

নিম্নলিখিত সাধারণীকরণ বক্ররেখাটি বিবেচনা করুন, যা প্রশিক্ষণের পুনরাবৃত্তির সংখ্যার বিপরীতে প্রশিক্ষণ সেট এবং বৈধতা সেট উভয়ের ক্ষতি দেখায়।

প্রশিক্ষণ সেটের ক্ষতি ফাংশন ধীরে ধীরে হ্রাস পায়। বিপরীতে, বৈধতা সেটের ক্ষতি ফাংশন হ্রাস পায়, কিন্তু তারপর বাড়তে শুরু করে।

চিত্র 1. প্রশিক্ষণ সেট এবং বৈধতা সেটের ক্ষতি।

চিত্র 1 এমন একটি মডেল দেখায় যেখানে প্রশিক্ষণের ক্ষতি ধীরে ধীরে হ্রাস পায়, কিন্তু বৈধতা ক্ষতি শেষ পর্যন্ত বেড়ে যায়। অন্য কথায়, এই সাধারণীকরণ বক্ররেখা দেখায় যে মডেলটি প্রশিক্ষণ সেটের ডেটার সাথে ওভারফিটিং করছে। আমাদের অভ্যন্তরীণ ওকহ্যাম চ্যানেলিং, সম্ভবত আমরা জটিল মডেলগুলিকে শাস্তি দিয়ে অতিরিক্ত ফিটিং প্রতিরোধ করতে পারি, একটি নীতি যা নিয়মিতকরণ বলে।

অন্য কথায়, কেবলমাত্র ক্ষতি কমানোর লক্ষ্যের পরিবর্তে (অভিজ্ঞতামূলক ঝুঁকি ন্যূনতমকরণ):

$$\text{minimize(Loss(Data|Model))}$$

আমরা এখন ক্ষতি+জটিলতা কমিয়ে আনব, যাকে বলা হয় স্ট্রাকচারাল রিস্ক মিনিমাইজেশন :

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

আমাদের প্রশিক্ষণ অপ্টিমাইজেশান অ্যালগরিদম এখন দুটি পদের একটি ফাংশন: ক্ষতির পদ , যা পরিমাপ করে কতটা মডেল ডেটার সাথে মানানসই, এবং নিয়মিতকরণ শব্দটি , যা মডেল জটিলতা পরিমাপ করে৷

মেশিন লার্নিং ক্র্যাশ কোর্স মডেল জটিলতা সম্পর্কে চিন্তা করার দুটি সাধারণ (এবং কিছুটা সম্পর্কিত) উপায়ে ফোকাস করে:

  • মডেলের সমস্ত বৈশিষ্ট্যের ওজনের ফাংশন হিসাবে মডেল জটিলতা।
  • অশূন্য ওজন সহ বৈশিষ্ট্যের মোট সংখ্যার একটি ফাংশন হিসাবে মডেল জটিলতা। ( পরবর্তী একটি মডিউল এই পদ্ধতির কভার করে।)

যদি মডেল জটিলতা ওজনের একটি ফাংশন হয়, তবে উচ্চ পরম মান সহ একটি বৈশিষ্ট্য ওজন কম পরম মান সহ বৈশিষ্ট্য ওজনের চেয়ে জটিল।

আমরা L 2 নিয়মিতকরণ সূত্র ব্যবহার করে জটিলতা পরিমাপ করতে পারি, যা সমস্ত বৈশিষ্ট্য ওজনের বর্গক্ষেত্রের যোগফল হিসাবে নিয়মিতকরণ শব্দটিকে সংজ্ঞায়িত করে:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

এই সূত্রে, শূন্যের কাছাকাছি ওজনগুলি মডেলের জটিলতার উপর সামান্য প্রভাব ফেলে, যখন বাইরের ওজনগুলি একটি বিশাল প্রভাব ফেলতে পারে।

উদাহরণস্বরূপ, নিম্নলিখিত ওজন সহ একটি রৈখিক মডেল:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

26.915 এর একটি এল 2 নিয়মিতকরণের মেয়াদ রয়েছে:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$$$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$$$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$$$= 26.915$$

কিন্তু \(w_3\) (উপরে বোল্ড করা), 25 এর বর্গ মান সহ, প্রায় সমস্ত জটিলতাকে অবদান রাখে। অন্য পাঁচটি ওজনের বর্গক্ষেত্রের যোগফল L 2 নিয়মিতকরণ পদে মাত্র 1.915 যোগ করে।