این پیوست حاوی چند جزئیات اضافی در مورد میزان یادگیری است.
برنامه کاهش نرخ یادگیری
بهترین خانواده برنامه کاهش نرخ یادگیری یک مشکل باز است. روشن نیست که چگونه می توان مجموعه ای از آزمایش های دقیق را برای پاسخ مطمئن به این سوال ساخت. اگرچه ما بهترین خانواده برنامه را نمیشناسیم، اما به موارد زیر اطمینان داریم:
- داشتن یک برنامه (غیر ثابت) مهم است.
- تنظیم آن برنامه مهم است.
نرخ های مختلف یادگیری در زمان های مختلف در طول فرآیند بهینه سازی بهترین عملکرد را دارند. داشتن نوعی برنامه زمانبندی باعث می شود که مدل به نرخ یادگیری خوب دست یابد.
بهترین کاهش نرخ یادگیری پیش فرض
ما یکی از خانواده های کاهش نرخ یادگیری زیر را به عنوان پیش فرض توصیه می کنیم:
- فروپاشی خطی
- واپاشی کسینوس
بسیاری از خانواده های دیگر نیز احتمالاً خوب هستند.
چرا برخی از مقالات دارای برنامه زمانبندی نرخ یادگیری پیچیده هستند؟
بسیاری از مقالات دانشگاهی از برنامهریزیهای پیچیده نرخ یادگیری (LR) استفاده میکنند. خوانندگان اغلب تعجب می کنند که چگونه نویسندگان به چنین برنامه پیچیده ای رسیده اند. بسیاری از زمانبندیهای پیچیده خرابی LR نتیجه تنظیم زمانبندی بهعنوان تابعی از عملکرد مجموعه اعتبارسنجی بهصورت موقتی هستند. یعنی:
- یک حرکت تمرینی را با مقداری فروپاشی LR ساده (یا نرخ یادگیری ثابت) شروع کنید.
- تمرین را تا زمانی ادامه دهید که عملکرد راکد به نظر برسد. اگر این اتفاق افتاد، تمرین را متوقف کنید. سپس، از این نقطه، آن را با یک برنامه کاهش LR تندتر (یا نرخ یادگیری ثابت کمتر) از سر بگیرید. این روند را تکرار کنید (تا زمان برگزاری کنفرانس یا مهلت راه اندازی).
کپی کردن کوتاه مدت زمانبندی بهدستآمده معمولاً ایده خوبی نیست، زیرا بهترین زمانبندی خاص به مجموعهای از گزینههای فراپارامتر دیگر حساس است. توصیه میکنیم الگوریتمی را کپی کنید که زمانبندی را تولید کرده است، اگرچه زمانی که قضاوت خودسرانه انسان زمانبندی را ایجاد میکند این به ندرت امکانپذیر است. استفاده از این نوع زمانبندی حساس به خطا در صورتی که بتواند کاملاً خودکار باشد، مناسب است، اما زمانبندیهای انسانی در حلقه که تابعی از خطای اعتبارسنجی هستند، شکننده هستند و به راحتی قابل تکرار نیستند، بنابراین توصیه میکنیم از آنها اجتناب کنید. قبل از انتشار نتایجی که از چنین جدول زمانی استفاده میکنند، لطفاً سعی کنید آن را کاملاً تکرار کنید.
چگونه باید هایپرپارامترهای آدام تنظیم شوند؟
همه هایپرپارامترها در Adam به یک اندازه مهم نیستند. قوانین کلی زیر با «بودجههای» متفاوتی برای تعداد آزمایشها در یک مطالعه مطابقت دارد.
- اگر کمتر از 10 کارآزمایی در یک مطالعه باشد، فقط میزان یادگیری (پایه) را تنظیم کنید.
- اگر 10 تا 25 کارآزمایی در یک مطالعه انجام شد، میزان یادگیری و
beta_1
را تنظیم کنید. - اگر بیش از 25 کارآزمایی داشته باشید، نرخ یادگیری،
beta_1
وepsilon
را تنظیم کنید. - اگر به طور قابل ملاحظه ای بیش از 25 آزمایش بود،
beta_2
نیز تنظیم کنید.
با توجه به دشواری ارائه قوانین کلی در مورد فضاهای جستجو و تعداد نکاتی که باید از فضای جستجو نمونه برداری کنید، قوانین سرانگشتی بیان شده در این بخش را به عنوان دستورالعمل های تقریبی مشاهده کنید."
،این پیوست حاوی چند جزئیات اضافی در مورد میزان یادگیری است.
برنامه کاهش نرخ یادگیری
بهترین خانواده برنامه کاهش نرخ یادگیری یک مشکل باز است. روشن نیست که چگونه می توان مجموعه ای از آزمایش های دقیق را برای پاسخ مطمئن به این سوال ساخت. اگرچه ما بهترین خانواده برنامه را نمیشناسیم، اما به موارد زیر اطمینان داریم:
- داشتن یک برنامه (غیر ثابت) مهم است.
- تنظیم آن برنامه مهم است.
نرخ های مختلف یادگیری در زمان های مختلف در طول فرآیند بهینه سازی بهترین عملکرد را دارند. داشتن نوعی برنامه زمانبندی باعث می شود که مدل به نرخ یادگیری خوب دست یابد.
بهترین کاهش نرخ یادگیری پیش فرض
ما یکی از خانواده های کاهش نرخ یادگیری زیر را به عنوان پیش فرض توصیه می کنیم:
- فروپاشی خطی
- واپاشی کسینوس
بسیاری از خانواده های دیگر نیز احتمالاً خوب هستند.
چرا برخی از مقالات دارای برنامه زمانبندی نرخ یادگیری پیچیده هستند؟
بسیاری از مقالات دانشگاهی از برنامهریزیهای پیچیده نرخ یادگیری (LR) استفاده میکنند. خوانندگان اغلب تعجب می کنند که چگونه نویسندگان به چنین برنامه پیچیده ای رسیده اند. بسیاری از زمانبندیهای پیچیده خرابی LR نتیجه تنظیم زمانبندی بهعنوان تابعی از عملکرد مجموعه اعتبارسنجی بهصورت موقتی هستند. یعنی:
- یک حرکت تمرینی را با مقداری فروپاشی LR ساده (یا نرخ یادگیری ثابت) شروع کنید.
- تمرین را تا زمانی ادامه دهید که عملکرد راکد به نظر برسد. اگر این اتفاق افتاد، تمرین را متوقف کنید. سپس، از این نقطه، آن را با یک برنامه کاهش LR تندتر (یا نرخ یادگیری ثابت کمتر) از سر بگیرید. این روند را تکرار کنید (تا زمان برگزاری کنفرانس یا مهلت راه اندازی).
کپی کردن کوتاه مدت زمانبندی بهدستآمده معمولاً ایده خوبی نیست، زیرا بهترین زمانبندی خاص به مجموعهای از گزینههای فراپارامتر دیگر حساس است. توصیه میکنیم الگوریتمی را کپی کنید که زمانبندی را تولید کرده است، اگرچه زمانی که قضاوت خودسرانه انسان زمانبندی را ایجاد میکند این به ندرت امکانپذیر است. استفاده از این نوع زمانبندی حساس به خطا در صورتی که بتواند کاملاً خودکار باشد، مناسب است، اما زمانبندیهای انسانی در حلقه که تابعی از خطای اعتبارسنجی هستند، شکننده هستند و به راحتی قابل تکرار نیستند، بنابراین توصیه میکنیم از آنها اجتناب کنید. قبل از انتشار نتایجی که از چنین جدول زمانی استفاده میکنند، لطفاً سعی کنید آن را کاملاً تکرار کنید.
چگونه باید هایپرپارامترهای آدام تنظیم شوند؟
همه هایپرپارامترها در Adam به یک اندازه مهم نیستند. قوانین کلی زیر با «بودجههای» متفاوتی برای تعداد آزمایشها در یک مطالعه مطابقت دارد.
- اگر کمتر از 10 کارآزمایی در یک مطالعه باشد، فقط میزان یادگیری (پایه) را تنظیم کنید.
- اگر 10 تا 25 کارآزمایی در یک مطالعه انجام شد، میزان یادگیری و
beta_1
را تنظیم کنید. - اگر بیش از 25 کارآزمایی داشته باشید، نرخ یادگیری،
beta_1
وepsilon
را تنظیم کنید. - اگر به طور قابل ملاحظه ای بیش از 25 آزمایش بود،
beta_2
نیز تنظیم کنید.
با توجه به دشواری ارائه قوانین کلی در مورد فضاهای جستجو و تعداد نکاتی که باید از فضای جستجو نمونه برداری کنید، قوانین سرانگشتی بیان شده در این بخش را به عنوان دستورالعمل های تقریبی مشاهده کنید."
،این پیوست حاوی چند جزئیات اضافی در مورد میزان یادگیری است.
برنامه کاهش نرخ یادگیری
بهترین خانواده برنامه کاهش نرخ یادگیری یک مشکل باز است. روشن نیست که چگونه می توان مجموعه ای از آزمایش های دقیق را برای پاسخ مطمئن به این سوال ساخت. اگرچه ما بهترین خانواده برنامه را نمیشناسیم، اما به موارد زیر اطمینان داریم:
- داشتن یک برنامه (غیر ثابت) مهم است.
- تنظیم آن برنامه مهم است.
نرخ های مختلف یادگیری در زمان های مختلف در طول فرآیند بهینه سازی بهترین عملکرد را دارند. داشتن نوعی برنامه زمانبندی باعث می شود که مدل به نرخ یادگیری خوب دست یابد.
بهترین کاهش نرخ یادگیری پیش فرض
ما یکی از خانواده های کاهش نرخ یادگیری زیر را به عنوان پیش فرض توصیه می کنیم:
- فروپاشی خطی
- واپاشی کسینوس
بسیاری از خانواده های دیگر نیز احتمالاً خوب هستند.
چرا برخی از مقالات دارای برنامه زمانبندی نرخ یادگیری پیچیده هستند؟
بسیاری از مقالات دانشگاهی از برنامهریزیهای پیچیده نرخ یادگیری (LR) استفاده میکنند. خوانندگان اغلب تعجب می کنند که چگونه نویسندگان به چنین برنامه پیچیده ای رسیده اند. بسیاری از زمانبندیهای پیچیده خرابی LR نتیجه تنظیم زمانبندی بهعنوان تابعی از عملکرد مجموعه اعتبارسنجی بهصورت موقتی هستند. یعنی:
- یک حرکت تمرینی را با مقداری فروپاشی LR ساده (یا نرخ یادگیری ثابت) شروع کنید.
- تمرین را تا زمانی ادامه دهید که عملکرد راکد به نظر برسد. اگر این اتفاق افتاد، تمرین را متوقف کنید. سپس، از این نقطه، آن را با یک برنامه کاهش LR تندتر (یا نرخ یادگیری ثابت کمتر) از سر بگیرید. این روند را تکرار کنید (تا زمان برگزاری کنفرانس یا مهلت راه اندازی).
کپی کردن کوتاه مدت زمانبندی بهدستآمده معمولاً ایده خوبی نیست، زیرا بهترین زمانبندی خاص به مجموعهای از گزینههای فراپارامتر دیگر حساس است. توصیه میکنیم الگوریتمی را کپی کنید که زمانبندی را تولید کرده است، اگرچه زمانی که قضاوت خودسرانه انسان زمانبندی را ایجاد میکند این به ندرت امکانپذیر است. استفاده از این نوع زمانبندی حساس به خطا در صورتی که بتواند کاملاً خودکار باشد، مناسب است، اما زمانبندیهای انسانی در حلقه که تابعی از خطای اعتبارسنجی هستند، شکننده هستند و به راحتی قابل تکرار نیستند، بنابراین توصیه میکنیم از آنها اجتناب کنید. قبل از انتشار نتایجی که از چنین جدول زمانی استفاده میکنند، لطفاً سعی کنید آن را کاملاً تکرار کنید.
چگونه باید هایپرپارامترهای آدام تنظیم شوند؟
همه هایپرپارامترها در Adam به یک اندازه مهم نیستند. قوانین کلی زیر با «بودجههای» متفاوتی برای تعداد آزمایشها در یک مطالعه مطابقت دارد.
- اگر کمتر از 10 کارآزمایی در یک مطالعه باشد، فقط میزان یادگیری (پایه) را تنظیم کنید.
- اگر 10 تا 25 کارآزمایی در یک مطالعه انجام شد، میزان یادگیری و
beta_1
را تنظیم کنید. - اگر بیش از 25 کارآزمایی داشته باشید، نرخ یادگیری،
beta_1
وepsilon
را تنظیم کنید. - اگر به طور قابل ملاحظه ای بیش از 25 آزمایش بود،
beta_2
نیز تنظیم کنید.
با توجه به دشواری ارائه قوانین کلی در مورد فضاهای جستجو و تعداد نکاتی که باید از فضای جستجو نمونه برداری کنید، قوانین سرانگشتی بیان شده در این بخش را به عنوان دستورالعمل های تقریبی مشاهده کنید."
،این پیوست حاوی چند جزئیات اضافی در مورد میزان یادگیری است.
برنامه کاهش نرخ یادگیری
بهترین خانواده برنامه کاهش نرخ یادگیری یک مشکل باز است. روشن نیست که چگونه می توان مجموعه ای از آزمایش های دقیق را برای پاسخ مطمئن به این سوال ساخت. اگرچه ما بهترین خانواده برنامه را نمیشناسیم، اما به موارد زیر اطمینان داریم:
- داشتن یک برنامه (غیر ثابت) مهم است.
- تنظیم آن برنامه مهم است.
نرخ های مختلف یادگیری در زمان های مختلف در طول فرآیند بهینه سازی بهترین عملکرد را دارند. داشتن نوعی برنامه زمان بندی باعث می شود که مدل به نرخ یادگیری خوب دست یابد.
بهترین کاهش نرخ یادگیری پیش فرض
ما یکی از خانواده های کاهش نرخ یادگیری زیر را به عنوان پیش فرض توصیه می کنیم:
- فروپاشی خطی
- واپاشی کسینوس
بسیاری از خانواده های دیگر نیز احتمالاً خوب هستند.
چرا برخی از مقالات دارای برنامه زمانبندی نرخ یادگیری پیچیده هستند؟
بسیاری از مقالات دانشگاهی از برنامهریزیهای پیچیده نرخ یادگیری (LR) استفاده میکنند. خوانندگان اغلب تعجب می کنند که چگونه نویسندگان به چنین برنامه پیچیده ای رسیده اند. بسیاری از زمانبندیهای پیچیده خرابی LR نتیجه تنظیم زمانبندی بهعنوان تابعی از عملکرد مجموعه اعتبارسنجی بهصورت موقتی است. یعنی:
- یک حرکت تمرینی را با مقداری فروپاشی LR ساده (یا نرخ یادگیری ثابت) شروع کنید.
- تمرین را تا زمانی ادامه دهید که عملکرد راکد به نظر برسد. اگر این اتفاق افتاد، تمرین را متوقف کنید. سپس، از این نقطه، با یک برنامه کاهش سرعت LR (یا نرخ یادگیری ثابت کمتر) آن را از سر بگیرید. این روند را تکرار کنید (تا زمان برگزاری کنفرانس یا مهلت راه اندازی).
کپی کردن کوتاه مدت زمانبندی بهدستآمده معمولاً ایده خوبی نیست، زیرا بهترین زمانبندی خاص به مجموعهای از گزینههای فراپارامتر دیگر حساس است. توصیه میکنیم الگوریتمی را کپی کنید که زمانبندی را تولید کرده است، اگرچه زمانی که قضاوت خودسرانه انسان زمانبندی را ایجاد میکند این به ندرت امکانپذیر است. استفاده از این نوع زمانبندی حساس به خطا در صورتی که بتواند کاملاً خودکار باشد، مناسب است، اما زمانبندیهای انسانی در حلقه که تابعی از خطای اعتبارسنجی هستند، شکننده هستند و به راحتی قابل تکرار نیستند، بنابراین توصیه میکنیم از آنها اجتناب کنید. قبل از انتشار نتایجی که از چنین جدول زمانی استفاده میکنند، لطفاً سعی کنید آن را کاملاً تکرار کنید.
چگونه باید هایپرپارامترهای آدام تنظیم شوند؟
همه هایپرپارامترها در Adam به یک اندازه مهم نیستند. قوانین کلی زیر با «بودجههای» متفاوتی برای تعداد آزمایشها در یک مطالعه مطابقت دارد.
- اگر کمتر از 10 کارآزمایی در یک مطالعه باشد، فقط میزان یادگیری (پایه) را تنظیم کنید.
- اگر 10 تا 25 کارآزمایی در یک مطالعه انجام شد، میزان یادگیری و
beta_1
را تنظیم کنید. - اگر بیش از 25 کارآزمایی داشته باشید، نرخ یادگیری،
beta_1
وepsilon
را تنظیم کنید. - اگر به طور قابل ملاحظه ای بیش از 25 آزمایش بود،
beta_2
نیز تنظیم کنید.
با توجه به دشواری ارائه قوانین کلی در مورد فضاهای جستجو و تعداد نکاتی که باید از فضای جستجو نمونه برداری کنید، قوانین سرانگشتی بیان شده در این بخش را به عنوان دستورالعمل های تقریبی مشاهده کنید."