İki tür eğitim iş yükü vardır:
- işlem sınırlı
- işlemci sınırlı değil
İşleme sınırlı eğitim, sahip olduğunuz eğitim verisi miktarıyla veya başka bir faktörle değil, eğitime ne kadar zaman ayırabileceğinizle sınırlıdır. Diğer bir deyişle, "en uygun" eğitim süresi her zaman "maddi olarak karşılayabildiğiniz kadar uzun"dur. Eğitimi bir şekilde daha uzun veya daha verimli hale getirebilirseniz eğitim kaybı düşmelidir. (Uygun ayarlamalarla doğrulama kaybı da azalmalıdır.)
İşlem açısından sınırlı eğitimleri hızlandırmak, eğitimi iyileştirmekle eşdeğerdir. Bununla birlikte, bir iş yükünün işlem gücüyle sınırlı olması, sonuçları iyileştirmenin tek yolunun daha uzun veya daha hızlı eğitim vermek olduğu anlamına gelmez.
Eğitim, bilgi işlem açısından sınırlı olmadığında istediğiniz kadar uzun süre eğitim yapabilirsiniz. Ancak bir modeli daha uzun süre eğitmek çok yardımcı olmayabilir veya hatta aşırı uyuma neden olabilir. Eğitim, hesaplama açısından sınırlı olmadığında:
- Eğitim kaybının çok düşük olduğu bir noktaya kadar eğitim yapabilirsiniz. Bu noktada ek eğitim, eğitim kaybını biraz azaltabilir ancak doğrulama kaybını anlamlı bir şekilde azaltmaz.
- Özellikle eğitim bütçesiyle güçlü bir etkileşime sahip olduklarından öğrenme hızı azalma planlarını ayarlarken daha kolay ince ayar yapabilirsiniz. Buna karşılık, işlem açısından sınırlı eğitimde düşük eğitim kaybı elde etmek için mükemmel şekilde ayarlanmış bir öğrenme hızı azalma planı gerekebilir.
Belirli bir iş yükünün işlem sınırlı olup olmamasından bağımsız olarak, gradyanların (gruplar arasında) varyansını artıran yöntemler genellikle eğitim ilerlemesini yavaşlatır ve bu nedenle belirli bir doğrulama kaybına ulaşmak için gereken eğitim adımlarının sayısını artırabilir. Aşağıdakilerden herhangi biri yüksek gradyan varyansına neden olabilir:
- Daha küçük bir toplu iş boyutu kullanma
- Veri artırma ekleme.
- Bazı düzenlileştirme türlerini (ör. bırakma düzenlileştirme) ekleme.
Eğitim, hesaplama açısından sınırlı değilken ne kadar süreyle eğitim yapacağınıza karar verme
Hedefiniz: Eğitim adımlarını boşa harcamadan modelin mümkün olan en iyi sonucu elde etmesi için yeterince uzun süre eğitim vermek.
Temel hedefiniz, gereksiz eğitim adımları harcamadan modelin mümkün olan en iyi sonucu elde etmesi için yeterince uzun süre eğitim vermektir. Emin olamadığınız durumlarda daha uzun süre eğitim vermeyi tercih edin. Geriye dönük kontrol noktası seçimini doğru şekilde kullandığınız ve yeterince sık kontrol noktası oluşturduğunuz varsayıldığında, daha uzun süre eğitim yapıldığında değerlendirme metrikleriniz (ör. kesinlik, hatırlama, AUC veya F1) hiçbir zaman düşmemelidir.
Bir çalışmada max_train_steps
sayısını asla ayarlamayın. Bunun yerine bir değer seçin ve tüm denemeler için aynı değeri kullanın. Bu denemelerden, max_train_steps
seçimini iyileştirmek için geriye dönük kontrol noktası seçiminin bulduğu eğitim adımını çizin.
Örneğin, en iyi adım her zaman eğitimin ilk% 10'luk bölümünde gerçekleşiyorsa maksimum adım sayısı çok yüksektir.
Alternatif olarak, en iyi adım sürekli olarak eğitimin son% 25'inde yer alıyorsa daha uzun süre eğitim vermeniz ve çürüme planını yeniden ayarlamanız faydalı olabilir.
İdeal eğitim adımı sayısı, mimari veya veriler değiştiğinde (ör. veri artırma eklendiğinde) değişebilir.
Sonraki bölümde, sabit bir öğrenme hızı kullanarak eğitim kümesini "mükemmel şekilde sığdırmak" için gereken adım sayısına göre max_train_steps
için ilk aday değeri nasıl seçeceğiniz açıklanmaktadır.
Eğitim süreci bir şekilde iyileşirse (ör. daha iyi ayarlanmış bir optimize edici veya daha iyi ayarlanmış bir öğrenme hızı planı ile) max_train_steps
değerini düşürmek mümkün olabilir.
Öğrenme hızı taraması kullanarak max_train_steps için ilk adayı seçme algoritması
Öğrenme hızı tarama algoritmasıyla max_train_steps
için ilk adayı seçebilirsiniz. Aşağıdaki algoritma, eğitim kümesini yalnızca "mükemmel" şekilde uydurmanın değil, aynı zamanda sabit bir öğrenme hızı planı kullanarak da yapmanın mümkün olduğunu varsayar.
- Eğitim kümesinin tamamını mükemmel şekilde sığdırmak mümkünse eğitim kümesine mükemmel şekilde uyan bir yapılandırma (
max_train_steps
değerinin bir kısmıyla) olmalıdır. Bu tür bir yapılandırma bulun vemax_train_steps
değerini başlangıç noktası olarak kullanınN
. - Her denemenin
N
adım boyunca eğitildiği, veri artırma ve düzenlileştirme olmadan sabit bir öğrenme hızı taraması (yani öğrenme hızını ızgara araması) yapın. Öğrenme oranı taramasında mükemmel eğitim performansına ulaşmak için en hızlı denemede gereken adım sayısı,max_train_steps
için ilk tahmininiz olmalıdır.
NOT: Kötü arama alanları, kendini kandırmaya yol açabilir.
Örneğin, bir çalışmadaki tüm öğrenme oranları çok küçükse max_train_steps
değerinin çok büyük olması gerektiği sonucuna yanlışlıkla varabilirsiniz.
En azından, çalışmadaki optimum öğrenme hızının arama alanının sınırında olmadığından emin olun.
Eğitim işlem açısından sınırlı olduğunda ne kadar süreyle eğitim yapacağınıza karar verme
Bazı durumlarda eğitim kaybı süresiz olarak iyileşmeye devam eder. Bu nedenle, sabrınız ve hesaplama kaynaklarınız sınırlayıcı faktörler haline gelir. Ancak mümkün olduğunca uzun süre eğitim almalı mısınız? Bu her zaman mümkün olmayabilir. Aşağıdakileri göz önünde bulundurun:
- Daha kısa süren daha fazla deneme yaparak, en uzun "üretim uzunluğu" çalıştırmalarını kullanıma sunmayı planladığınız modeller için ayırarak daha etkili bir şekilde ayarlama yapabilirsiniz.
- Denemeler için eğitim süresi sabır sınırınıza yaklaştıkça ayarlama denemeleri potansiyel lansman adaylarınız için daha alakalı hale gelir ancak bu denemelerden daha azını tamamlayabilirsiniz.
- Üretim uzunluğunun yalnızca% 10'u kadar eğitim yaparak birçok soruyu yanıtlayabilirsiniz. Ancak bu süre sınırındaki sonuçlarınız, üretim uzunluğunun% 20'si kadar olan denemeler için geçerli olmayabilir. %100'ü için ise hiç geçerli olmayabilir.
Deneme başına artan eğitim adımı sınırlarıyla birden fazla turda ayarlama yapmak mantıklı bir yaklaşımdır. İstediğiniz kadar tur oynayabilirsiniz ancak genellikle 1-3 tur en pratik olanıdır. Temel olarak, çok hızlı bir geri dönüş süresine sahip denemeler kullanarak sorunu olabildiğince iyi anlamaya çalışın ve aşağıdaki unsurları göz önünde bulundurun:
- Ayarlama kapsamı.
- Son ve en uzun koşularla alaka düzeyi.
Belirli bir deneme başına süre sınırı yararlı analizler oluşturduktan sonra eğitim süresini artırın ve ayarlamaya devam edin. Gerekirse daha kısa çalıştırmalardan elde ettiğiniz sonuçları tekrar kontrol edin. Başlangıç olarak iki ayarlama turu yapmanızı öneririz:
- 1. tur: İyi bir model ve optimize edici hiperparametreleri bulmak için daha kısa süreli çalıştırmalar.
- 2. Tur: Son modeli elde etmek için iyi hiperparametre noktalarında çok az sayıda uzun süreli çalıştırma yapılır.
1. turdan 2. tura geçerken akla gelen en büyük soru şudur:
Öğrenme hızı azalma planlarını nasıl ayarlarsınız?
Turlar arasında öğrenme hızı programları ayarlanırken yapılan yaygın bir hata, tüm ek eğitim adımlarını çok küçük bir öğrenme hızıyla kullanmaktır.
1. Tur: Çok sayıda kısa antrenman koşusu
Kısa ve eksik eğitimde bulunan iyi hiperparametrelerin, eğitim süresini önemli ölçüde artırdığınızda da iyi seçenekler olacağı garanti edilmez. Ancak bazı hiperparametreler için iyi seçenekler, 1. turun faydalı olması için genellikle yeterince ilişkilidir. Daha kısa çalıştırmalarda bulunan hangi hiperparametre değerleri daha uzun eğitim çalıştırmalarına başarıyla aktarılıyor? Bilmiyoruz, daha fazla araştırma yapmamız gerekiyor. Ancak şu ana kadar bildiklerimize dayanarak, aktarım olasılığı azalan şüphelerimizi aşağıda paylaşıyoruz:
- Aktarılma olasılığı çok yüksek. Eğitimin başlarındaki kararsızlık, daha az sayıda eğitim adımı kullanılarak ilk ayarlama turunda çözülebilir.
En olası aktarılacak hiperparametreler şunlardır:
- Isınma süresi
- Başlatma
- Aktarılması olası. Model mimarisinde elde edilen önemli bir kazanç genellikle aktarılır ancak birçok karşıt örnek mümkündür.
- Aktarılabilir. Aşağıdaki hiperparametreler aktarılabilir:
- Optimizasyon algoritması ve hiperparametreler "gevşek" bir şekilde aktarılır.
- Veri artırma
- Normalleştirme. Eğitim veri kümesinin mükemmel şekilde uydurulması mümkün değilse model, düzenlileştirmenin çok fazla yardımcı olmasının olası olmadığı bir rejimde olabilir.
- Aktarılma olasılığı düşük. Öğrenme oranı planının mükemmel şekilde aktarılması olası değildir. Training Compute-Optimal Large Language Models (Bilgisayar için Optimum Büyük Dil Modellerini Eğitme) adlı makalede, hatta çürüme planı aktarımlarının bile yapılabileceği belirtiliyor ancak bunun genel olarak doğru olduğuna inanmıyoruz. Örneğin, küçük bir eğitim adımı sayısında karekök azalmasını ayarlayıp ardından büyük bir sayıya genişletmek, eğitimin büyük bir kısmının aşırı küçük adımlarda gerçekleşmesine neden olur. Aşırı eğitim bütçesi sınırında çoğu programla "yeterince iyi" sonuçlar elde edebilirsiniz ancak program ayarlandığında performansta belirgin iyileşmeler görebilirsiniz. Stokastik Meta Optimizasyonda Kısa Vadeli Önyargıyı Anlama, öğrenme hızlarını dar bir bakış açısıyla seçmeye çalışmanın tehlikelerini açıklar.
2. tur: Daha az sayıda, ancak daha uzun süreli koşular
1. turdaki en iyi hiperparametre yapılandırmasını çalıştırın.
Tahmin: 🤖 Yüksek öğrenme hızında eğitim süresini uzatmak için ek adımları kullanın. Örneğin, doğrusal bir program kullanıyorsanız Round 1'den itibaren azalma süresini sabit tutun ve başlangıçtaki sabit lr
dönemini uzatın. Kosinüs azalması için 1. turdaki lr
değerini koruyun ve max_train_steps
değerini Training Compute-Optimal Large Language Models'da (Eğitimde Bilgisayar İçin En Uygun Büyük Dil Modelleri) açıklandığı şekilde genişletin.
Aşağıdaki özelliklerin tümüne sahip ekipler için ek eğitim turları faydalı olabilir:
- Çok olgun modelleme
- Ayarlama ardışık düzenleri
- Çok uzun ve maliyetli üretim eğitimi çalıştırmaları
Ancak ek eğitim çalıştırmaları genellikle verimsizdir.
1. turdan 2. tura nasıl geçileceğini daha önce açıklamıştık. Analiz süresini önemsemiyorsanız ve önceliğiniz bilgi işlem kaynaklarını verimli kullanmaksa eğitim çalıştırmalarının süresini (dolayısıyla bir çalışmayı tamamlamak için gereken uçtan uca süreyi) birçok farklı ayarlama turunda katlanarak artırmanızı öneririz:
- Her turda, seçimlerinizin iyi sonuçlar vermeye devam ettiğinden sistematik olarak emin olun.
- Yeni fikirleri, i adımından i+1 adımına kadar giderek daha uzun süren denemelerle risklerini kademeli olarak azaltan bir süreçten geçirin.