গ্রেডিয়েন্ট বুস্টিং (ঐচ্ছিক ইউনিট)

রিগ্রেশন সমস্যায়, ভবিষ্যদ্বাণী এবং লেবেলের মধ্যে পার্থক্য হিসাবে স্বাক্ষরিত ত্রুটিকে সংজ্ঞায়িত করা বোধগম্য। যাইহোক, অন্যান্য ধরনের সমস্যায় এই কৌশলটি প্রায়ই খারাপ ফলাফলের দিকে নিয়ে যায়। গ্রেডিয়েন্ট বুস্টিংয়ে ব্যবহৃত একটি ভাল কৌশল হল:

  • নিউরাল নেটওয়ার্কে ব্যবহৃত ক্ষতি ফাংশনের অনুরূপ একটি ক্ষতি ফাংশন সংজ্ঞায়িত করুন। উদাহরণস্বরূপ, শ্রেণীবিন্যাস সমস্যার জন্য এনট্রপি (লগ লস নামেও পরিচিত)।
  • শক্তিশালী মডেল আউটপুট অনুযায়ী ক্ষতির গ্রেডিয়েন্ট ভবিষ্যদ্বাণী করতে দুর্বল মডেলকে প্রশিক্ষণ দিন।

আনুষ্ঠানিকভাবে, একটি ক্ষতি ফাংশন $L(y,p)$ দেওয়া হয় যেখানে $y$ একটি লেবেল এবং $p$ একটি ভবিষ্যদ্বাণী, ছদ্ম প্রতিক্রিয়া $z_i$ ধাপে $i$ এ দুর্বল মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়:

$$ z_i = \frac {\partial L(y, F_i)} {\partial F_i} $$

কোথায়:

  • $F_i$ হল শক্তিশালী মডেলের পূর্বাভাস।

পূর্ববর্তী উদাহরণ একটি রিগ্রেশন সমস্যা ছিল: উদ্দেশ্য একটি সংখ্যাগত মান ভবিষ্যদ্বাণী করা হয়. রিগ্রেশনের ক্ষেত্রে, বর্গক্ষেত্র ত্রুটি একটি সাধারণ ক্ষতি ফাংশন:

$$ L(y,p) = (y - p)^2 $$

এই ক্ষেত্রে, গ্রেডিয়েন্ট হল:

$$ z = \frac {\partial L(y, F_i)} {\partial F_i} = \frac {\partial(y-p)^2} {\partial p} = 2(y - p) = 2 \ \text{signed error} $$

ক্রমশ শব্দে, গ্রেডিয়েন্ট হল আমাদের উদাহরণ থেকে 2 এর একটি গুণিতক সহ স্বাক্ষরিত ত্রুটি। মনে রাখবেন যে সংকোচনের কারণে ধ্রুবক গুণনীয়কগুলি গুরুত্বপূর্ণ নয়। মনে রাখবেন যে এই সমতা শুধুমাত্র স্কোয়ারড ত্রুটি ক্ষতির সাথে রিগ্রেশন সমস্যার জন্য সত্য। অন্যান্য তত্ত্বাবধানে শেখার সমস্যাগুলির জন্য (উদাহরণস্বরূপ, শ্রেণীবিভাগ, র‌্যাঙ্কিং, পার্সেন্টাইল ক্ষতি সহ রিগ্রেশন), গ্রেডিয়েন্ট এবং একটি স্বাক্ষরিত ত্রুটির মধ্যে কোন সমতা নেই।

নিউটনের পদ্ধতি পদক্ষেপের সাথে পাতা এবং গঠন অপ্টিমাইজেশান

নিউটনের পদ্ধতি গ্রেডিয়েন্ট ডিসেন্টের মতো একটি অপ্টিমাইজেশন পদ্ধতি। যাইহোক, গ্রেডিয়েন্ট ডিসেন্টের বিপরীতে যেটি শুধুমাত্র ফাংশনের গ্রেডিয়েন্ট ব্যবহার করে অপ্টিমাইজ করার জন্য, নিউটনের পদ্ধতিটি অপ্টিমাইজ করার জন্য ফাংশনের গ্রেডিয়েন্ট (প্রথম ডেরিভেটিভ) এবং দ্বিতীয় ডেরিভেটিভ উভয়ই ব্যবহার করে।

গ্রেডিয়েন্ট ডিসেন্টের একটি ধাপ নিম্নরূপ:

$$ x_{i+1} = x_i - \frac {df}{dx}(x_i) = x_i - f'(x_i) $$

এবং নিউটনের পদ্ধতি নিম্নরূপ:

$$ x_{i+1} = x_i - \frac {\frac {df}{dx} (x_i)} {\frac {d^2f}{d^2x} (x_i)} = x_i - \frac{f'(x_i)}{f''(x_i)}$$

ঐচ্ছিকভাবে, নিউটনের পদ্ধতি দুটি উপায়ে গ্রেডিয়েন্ট বুস্টেড গাছের প্রশিক্ষণের সাথে একীভূত করা যেতে পারে:

  1. একবার একটি গাছ প্রশিক্ষিত হলে, প্রতিটি পাতায় নিউটনের একটি ধাপ প্রয়োগ করা হয় এবং এর মানকে অগ্রাহ্য করে। গাছের গঠন অস্পর্শিত; শুধুমাত্র পাতার মান পরিবর্তন হয়।
  2. একটি গাছের বৃদ্ধির সময়, শর্তগুলি একটি স্কোর অনুসারে নির্বাচন করা হয় যাতে নিউটন সূত্রের একটি উপাদান অন্তর্ভুক্ত থাকে। গাছের গঠন প্রভাবিত হয়।
YDF কোড
YDF-এ:
  • YDF সবসময় পাতায় একটি নিউটন ধাপ প্রয়োগ করে (বিকল্প 1)।
  • আপনি use_hessian_gain=True দিয়ে বিকল্প 2 সক্ষম করতে পারেন।