میزان یادگیری

این پیوست حاوی چند جزئیات اضافی در مورد میزان یادگیری است.

برنامه کاهش نرخ یادگیری

بهترین خانواده برنامه کاهش نرخ یادگیری یک مشکل باز است. روشن نیست که چگونه می توان مجموعه ای از آزمایش های دقیق را برای پاسخ مطمئن به این سوال ساخت. اگرچه ما بهترین خانواده برنامه را نمی‌شناسیم، اما به موارد زیر اطمینان داریم:

  • داشتن یک برنامه (غیر ثابت) مهم است.
  • تنظیم آن برنامه مهم است.

نرخ های مختلف یادگیری در زمان های مختلف در طول فرآیند بهینه سازی بهترین عملکرد را دارند. داشتن نوعی برنامه زمانبندی باعث می شود که مدل به نرخ یادگیری خوب دست یابد.

بهترین کاهش نرخ یادگیری پیش فرض

ما یکی از خانواده های کاهش نرخ یادگیری زیر را به عنوان پیش فرض توصیه می کنیم:

  • فروپاشی خطی
  • واپاشی کسینوس

بسیاری از خانواده های دیگر نیز احتمالاً خوب هستند.

چرا برخی از مقالات دارای برنامه زمانبندی نرخ یادگیری پیچیده هستند؟

بسیاری از مقالات دانشگاهی از برنامه‌ریزی‌های پیچیده نرخ یادگیری (LR) استفاده می‌کنند. خوانندگان اغلب تعجب می کنند که چگونه نویسندگان به چنین برنامه پیچیده ای رسیده اند. بسیاری از زمان‌بندی‌های پیچیده خرابی LR نتیجه تنظیم زمان‌بندی به‌عنوان تابعی از عملکرد مجموعه اعتبارسنجی به‌صورت موقتی هستند. به این معنا که:

  1. یک حرکت تمرینی را با مقداری فروپاشی LR ساده (یا نرخ یادگیری ثابت) شروع کنید.
  2. تمرین را تا زمانی ادامه دهید که عملکرد راکد به نظر برسد. اگر این اتفاق افتاد، تمرین را متوقف کنید. سپس، از این نقطه، آن را با یک برنامه کاهش LR تندتر (یا نرخ یادگیری ثابت کمتر) از سر بگیرید. این روند را تکرار کنید (تا زمان برگزاری کنفرانس یا مهلت راه اندازی).

کپی کردن کوتاه مدت زمان‌بندی به‌دست‌آمده معمولاً ایده خوبی نیست، زیرا بهترین زمان‌بندی خاص به مجموعه‌ای از گزینه‌های فراپارامتر دیگر حساس است. توصیه می‌کنیم الگوریتمی را کپی کنید که زمان‌بندی را تولید کرده است، اگرچه زمانی که قضاوت خودسرانه انسان زمان‌بندی را ایجاد می‌کند این به ندرت امکان‌پذیر است. استفاده از این نوع زمان‌بندی حساس به خطا در صورتی که بتواند کاملاً خودکار باشد، مناسب است، اما زمان‌بندی‌های انسانی در حلقه که تابعی از خطای اعتبارسنجی هستند، شکننده هستند و به راحتی قابل تکرار نیستند، بنابراین توصیه می‌کنیم از آنها اجتناب کنید. قبل از انتشار نتایجی که از چنین جدول زمانی استفاده می‌کنند، لطفاً سعی کنید آن را کاملاً تکرار کنید.

چگونه باید هایپرپارامترهای آدام تنظیم شوند؟

همه هایپرپارامترها در Adam به یک اندازه مهم نیستند. قوانین کلی زیر با «بودجه‌های» متفاوتی برای تعداد آزمایش‌ها در یک مطالعه مطابقت دارد.

  • اگر کمتر از 10 کارآزمایی در یک مطالعه باشد، فقط میزان یادگیری (پایه) را تنظیم کنید.
  • اگر 10 تا 25 کارآزمایی در یک مطالعه انجام شد، میزان یادگیری و beta_1 را تنظیم کنید.
  • اگر بیش از 25 کارآزمایی داشته باشید، نرخ یادگیری، beta_1 و epsilon را تنظیم کنید.
  • اگر به طور قابل ملاحظه ای بیش از 25 آزمایش بود، beta_2 نیز تنظیم کنید.

با توجه به دشواری ارائه قوانین کلی در مورد فضاهای جستجو و تعداد نکاتی که باید از فضای جستجو نمونه برداری کنید، قوانین سرانگشتی بیان شده در این بخش را به عنوان دستورالعمل های تقریبی مشاهده کنید."