ক্ষতি কমানো: শেখার হার

যেমন উল্লেখ করা হয়েছে, গ্রেডিয়েন্ট ভেক্টরের একটি দিক এবং একটি মাত্রা উভয়ই রয়েছে। গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম পরবর্তী বিন্দু নির্ধারণ করতে শেখার হার (কখনও কখনও স্টেপ সাইজও বলা হয়) নামে পরিচিত একটি স্কেলার দ্বারা গ্রেডিয়েন্টকে গুণ করে। উদাহরণস্বরূপ, যদি গ্রেডিয়েন্টের মাত্রা 2.5 হয় এবং শেখার হার 0.01 হয়, তাহলে গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম পূর্ববর্তী বিন্দু থেকে 0.025 দূরে পরবর্তী পয়েন্ট বেছে নেবে।

হাইপারপ্যারামিটার হল সেই নব যা প্রোগ্রামাররা মেশিন লার্নিং অ্যালগরিদমে পরিবর্তন করে। বেশিরভাগ মেশিন লার্নিং প্রোগ্রামার শেখার হার টিউন করার জন্য মোটামুটি সময় ব্যয় করে। আপনি যদি খুব কম শেখার হার বাছাই করেন, তাহলে শিখতে অনেক বেশি সময় লাগবে:

একই U-আকৃতির বক্ররেখা। প্রচুর পয়েন্ট একে অপরের খুব কাছাকাছি এবং তাদের ট্রেইল U এর নীচের দিকে অত্যন্ত ধীর গতিতে অগ্রগতি করছে।

চিত্র 6. শেখার হার খুবই ছোট।

বিপরীতভাবে, আপনি যদি খুব বড় একটি শেখার হার নির্দিষ্ট করেন, তাহলে পরবর্তী পয়েন্টটি ক্রমাগতভাবে কুয়োর তলদেশে এলোমেলোভাবে বাউন্স করবে যেমন একটি কোয়ান্টাম মেকানিক্স পরীক্ষা ভয়ঙ্করভাবে ভুল হয়ে গেছে:

একই U-আকৃতির বক্ররেখা। এই এক খুব কম পয়েন্ট রয়েছে. পয়েন্টের লেজটি U এর নীচে জুড়ে পরিষ্কার লাফ দেয় এবং তারপরে আবার লাফ দেয়।

চিত্র 7. শেখার হার অনেক বড়।

প্রতিটি রিগ্রেশন সমস্যার জন্য একটি Goldilocks শেখার হার আছে। Goldilocks এর মান ক্ষতির ফাংশন কতটা সমতল তার সাথে সম্পর্কিত। যদি আপনি জানেন যে লস ফাংশনের গ্রেডিয়েন্ট ছোট, তাহলে আপনি নিরাপদে একটি বড় শেখার হার চেষ্টা করতে পারেন, যা ছোট গ্রেডিয়েন্টের জন্য ক্ষতিপূরণ দেয় এবং একটি বড় ধাপের আকারে পরিণত হয়।

একই U-আকৃতির বক্ররেখা। পয়েন্টের লেজটি প্রায় আটটি ধাপে সর্বনিম্ন পয়েন্টে পৌঁছায়।

চিত্র 8. শেখার হার ঠিক।