Bu ekte, öğrenme hızıyla ilgili birkaç ek bilgi yer almaktadır.
Öğrenme hızının azalması programı
En iyi öğrenme hızına bağlı azalma program ailesi açık bir sorundur. Bu soruyu güvenle yanıtlamak için titizlikle bir dizi denemenin nasıl oluşturulacağı açık değildir. En iyi program ailesini bilmiyor olsak da aşağıdakilere güveniyoruz:
- Bazı (kesin olmayan) bir zamanlamaya sahip olmak önemlidir.
- Bu programı ayarlamak önemlidir.
Optimizasyon sürecinde farklı zamanlarda en iyi sonucu verir. Bu tür bir planlamanın olması, modelin iyi bir öğrenme oranına ulaşma olasılığını artırır.
Varsayılan en iyi öğrenme hızında azalma
Varsayılan olarak, aşağıdaki öğrenme hızına bağlı azalmalardan birinin kullanılmasını öneririz:
- Doğrusal çürütme
- Kosinüs çürümesi
Diğer birçok program ailesi de muhtemelen iyidir.
Bazı makaleler neden karmaşık öğrenim hızı planlarına sahip?
Birçok akademik makale, karmaşık parçalama öğrenme hızına (LR) bağlı azalma planları kullanır. Okuyucular genellikle yazarların bu denli karmaşık bir programa nasıl ulaştığını merak eder. LR'ye bağlı olarak gerçekleşen çoğu karmaşıklığa sahip planlamalar, zamanlamanın doğası gereği doğrulama grubu performansının bir işlevi olarak ayarlanmasından kaynaklanır. Yani:
- Basit bir RR azalmasıyla (veya sürekli öğrenme hızıyla) tek bir eğitim çalışması başlatın.
- Performans durağan görünene kadar eğitime devam edin. Bu durumda eğitimi duraklatın. Ardından, bu noktadan itibaren daha zorlayıcı bir LR değer kaybı programı (veya daha küçük bir sabit öğrenme hızı) ile devam edebilirsiniz. Bu işlemi tekrarlayın (konferansa veya lansman son tarihine kadar).
En iyi program, diğer hiperparametre seçeneklerinin hassasiyeti olduğu için sonuçta gösterilen zaman planının kopyalanması genellikle iyi bir fikir değildir. Planı oluşturan algoritmayı kopyalamanızı öneririz. Bununla birlikte, programı rastgele insan değerlendirmeleri yapmak nadiren mümkündür. Bu tür doğrulama hatası hassasiyetine sahip program, tamamen otomatik yapılabiliyorsa kullanılabilir, ancak doğrulama hatasının geçerli olduğu döngüsel programlar daha kolay olduğu için kolayca yeniden üretilemez. Bu nedenle bu programlardan kaçınmanızı öneririz. Bu tür bir planlamayı kullanan sonuçları yayınlamadan önce lütfen bu programı tamamen yeniden oluşturulabilir hale getirmeye çalışın.
Adem'in hiperparametreleri nasıl ayarlanmalıdır?
Adam'daki tüm hiperparametreler eşit derecede önemli değildir. Aşağıdaki genel kurallar, bir çalışmadaki deneme sayısı için farklı "bütçelere" karşılık gelir.
- Bir çalışmada 10'dan az deneme varsa yalnızca (temel) öğrenme hızını ayarlayın.
- Bir çalışmada 10-25 deneme varsa öğrenme hızını ve
beta_1
değerini ayarlayın. - 25'ten fazla deneme varsa öğrenme hızını,
beta_1
veepsilon
'ı ayarlayın. - Büyük ölçüde 25 denemeden fazlaysa,
beta_2
ayarını yapın.
Arama alanlarıyla ilgili genel kurallar sunmanın ne kadar zor olduğu ve arama alanından ne kadar puan almanız gerektiği göz önüne alındığında, bu bölümde belirtilen kuralları kaba kurallar olarak görüntüleyin."