শেখার হার

এই পরিশিষ্টে শেখার হার সম্পর্কে কিছু অতিরিক্ত বিবরণ রয়েছে।

শেখার হার ক্ষয় সময়সূচী

সেরা শেখার হার ক্ষয় শিডিউল পরিবার একটি খোলা সমস্যা; আত্মবিশ্বাসের সাথে এই প্রশ্নের উত্তর দেওয়ার জন্য কীভাবে কঠোর পরীক্ষার একটি সেট তৈরি করা যায় তা স্পষ্ট নয়। যদিও আমরা সেরা সময়সূচী পরিবার জানি না, আমরা নিম্নলিখিত বিষয়ে আত্মবিশ্বাসী:

  • কিছু (অ-স্থির) সময়সূচী থাকা গুরুত্বপূর্ণ।
  • সেই সময়সূচী টিউন করা গুরুত্বপূর্ণ।

অপ্টিমাইজেশন প্রক্রিয়া চলাকালীন বিভিন্ন সময়ে বিভিন্ন শিক্ষার হার সবচেয়ে ভালো কাজ করে। কিছু ধরণের সময়সূচী থাকার ফলে মডেলটির শেখার হারে আঘাত পাওয়ার সম্ভাবনা বেশি থাকে।

সেরা ডিফল্ট শেখার হার ক্ষয়

আমরা ডিফল্ট হিসাবে নিম্নলিখিত যেকোন একটি শেখার হার ক্ষয়কারী পরিবারগুলির সুপারিশ করি:

  • রৈখিক ক্ষয়
  • কোসাইন ক্ষয়

অনেক অন্যান্য সময়সূচী পরিবার সম্ভবত ভাল, খুব.

কেন কিছু কাগজপত্র জটিল শেখার হার সময়সূচী আছে?

অনেক একাডেমিক কাগজপত্র জটিল টুকরো টুকরো শেখার হার (LR) ক্ষয়ের সময়সূচী ব্যবহার করে। পাঠকরা প্রায়শই আশ্চর্য হন যে লেখকরা কীভাবে এত জটিল সময়সূচীতে পৌঁছেছেন। অনেক জটিল LR ক্ষয় সময়সূচী একটি অ্যাডহক উপায়ে বৈধতা সেট কর্মক্ষমতা একটি ফাংশন হিসাবে সময়সূচী টিউনিং ফলাফল. এটাই:

  1. কিছু সাধারণ LR ক্ষয় (বা একটি ধ্রুবক শেখার হার) সহ একটি একক প্রশিক্ষণ শুরু করুন।
  2. কর্মক্ষমতা স্থবির মনে না হওয়া পর্যন্ত প্রশিক্ষণ চলমান রাখুন। যদি এটি ঘটে তবে প্রশিক্ষণ বিরতি দিন। তারপরে, এই বিন্দু থেকে সম্ভবত একটি খাড়া LR ক্ষয় শিডিউল (বা ছোট ধ্রুবক শেখার হার) দিয়ে এটি পুনরায় শুরু করুন। এই প্রক্রিয়াটি পুনরাবৃত্তি করুন (সম্মেলন বা লঞ্চের সময়সীমা পর্যন্ত)।

ফলাফলের সময়সূচীটি আনন্দের সাথে অনুলিপি করা সাধারণত একটি ভাল ধারণা নয় কারণ সেরা নির্দিষ্ট সময়সূচীটি অন্যান্য হাইপারপ্যারামিটার পছন্দগুলির একটি হোস্টের জন্য সংবেদনশীল। আমরা সেই অ্যালগরিদমটি অনুলিপি করার পরামর্শ দিই যেটি সময়সূচী তৈরি করেছে, যদিও এটি খুব কমই সম্ভব যখন নির্বিচারে মানুষের বিচার সময়সূচী তৈরি করে। এই ধরনের বৈধতা-ত্রুটি-সংবেদনশীল সময়সূচী ব্যবহার করা ভাল যদি এটি সম্পূর্ণরূপে স্বয়ংক্রিয় হতে পারে, তবে মানব-ইন-দ্য-লুপ সময়সূচী যা বৈধকরণ ত্রুটির একটি ফাংশন ভঙ্গুর এবং সহজে পুনরুত্পাদনযোগ্য নয়, তাই আমরা সেগুলি এড়িয়ে যাওয়ার পরামর্শ দিই। এই ধরনের একটি সময়সূচী ব্যবহার করা ফলাফল প্রকাশ করার আগে, এটি সম্পূর্ণরূপে পুনরুত্পাদনযোগ্য করার চেষ্টা করুন।

কিভাবে অ্যাডাম এর হাইপারপ্যারামিটার টিউন করা উচিত?

আদমের সমস্ত হাইপারপ্যারামিটার সমান গুরুত্বপূর্ণ নয়। নিম্নোক্ত নিয়মগুলি একটি গবেষণায় পরীক্ষার সংখ্যার জন্য বিভিন্ন "বাজেট" এর সাথে মিলে যায়।

  • যদি একটি গবেষণায় <10 ট্রায়াল হয়, শুধুমাত্র (বেস) শেখার হার টিউন করুন।
  • যদি একটি গবেষণায় 10-25টি ট্রায়াল হয়, শেখার হার এবং beta_1 টিউন করুন।
  • 25+ ট্রায়াল হলে, শেখার হার, beta_1 এবং epsilon টিউন করুন।
  • যদি উল্লেখযোগ্যভাবে 25 টির বেশি ট্রায়াল হয়, অতিরিক্তভাবে টিউন beta_2 টিউন করুন।

সার্চ স্পেস সম্পর্কে সাধারণ নিয়ম প্রদান করা কতটা কঠিন এবং সার্চ স্পেস থেকে আপনার কতগুলি পয়েন্টের নমুনা দেওয়া উচিত তা বিবেচনা করে, এই বিভাগে বর্ণিত থাম্বের নিয়মগুলিকে মোটামুটি নির্দেশিকা হিসাবে দেখুন।"