যেমন উল্লেখ করা হয়েছে, গ্রেডিয়েন্ট ভেক্টরের একটি দিক এবং একটি মাত্রা উভয়ই রয়েছে। গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম পরবর্তী বিন্দু নির্ধারণ করতে শেখার হার (কখনও কখনও স্টেপ সাইজও বলা হয়) নামে পরিচিত একটি স্কেলার দ্বারা গ্রেডিয়েন্টকে গুণ করে। উদাহরণস্বরূপ, যদি গ্রেডিয়েন্টের মাত্রা 2.5 হয় এবং শেখার হার 0.01 হয়, তাহলে গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম পূর্ববর্তী বিন্দু থেকে 0.025 দূরে পরবর্তী পয়েন্ট বেছে নেবে।
হাইপারপ্যারামিটার হল সেই নব যা প্রোগ্রামাররা মেশিন লার্নিং অ্যালগরিদমে পরিবর্তন করে। বেশিরভাগ মেশিন লার্নিং প্রোগ্রামার শেখার হার টিউন করার জন্য মোটামুটি সময় ব্যয় করে। আপনি যদি খুব কম শেখার হার বাছাই করেন, তাহলে শিখতে অনেক বেশি সময় লাগবে:
চিত্র 6. শেখার হার খুবই ছোট।
বিপরীতভাবে, আপনি যদি খুব বড় একটি শেখার হার নির্দিষ্ট করেন, তাহলে পরবর্তী পয়েন্টটি ক্রমাগতভাবে কুয়োর তলদেশে এলোমেলোভাবে বাউন্স করবে যেমন একটি কোয়ান্টাম মেকানিক্স পরীক্ষা ভয়ঙ্করভাবে ভুল হয়ে গেছে:
চিত্র 7. শেখার হার অনেক বড়।
প্রতিটি রিগ্রেশন সমস্যার জন্য একটি Goldilocks শেখার হার আছে। Goldilocks এর মান ক্ষতির ফাংশন কতটা সমতল তার সাথে সম্পর্কিত। যদি আপনি জানেন যে লস ফাংশনের গ্রেডিয়েন্ট ছোট, তাহলে আপনি নিরাপদে একটি বড় শেখার হার চেষ্টা করতে পারেন, যা ছোট গ্রেডিয়েন্টের জন্য ক্ষতিপূরণ দেয় এবং একটি বড় ধাপের আকারে পরিণত হয়।
চিত্র 8. শেখার হার ঠিক।