Doğrusal regresyon: Hiperparametreler

Hiperparametreler değişkenlerdir kontrol eden bir dizi araç mevcuttur. Yaygın olarak kullanılan üç hiperparametre şunlardır:

Öte yandan parametreler ağırlık ve ağırlık gibi modelin parçası olan değişkenleri de belirler. İçinde diğer bir deyişle, hiperparametreler sizin kontrol ettiğiniz değerlerdir; parametreler değerlerdir hesaplamaya devam eder.

Öğrenme oranı

Öğrenme oranı, başlangıç hızını etkileyen, ayarladığınız kayan nokta sayısının bir örneğidir. Öğrenme hızı çok düşükse modelin oluşturulması uzun sürebilir. uzlaşmaya varır. Öte yandan öğrenme hızı çok yüksekse model ancak bunun yerine ağırlıkları ve sapmayı en aza indiren kaybetmezsiniz. Hedef, çok yüksek ya da çok düşük olmayan bir öğrenme hızı seçmektir. modelin hızla yakınlaştığını göreceksiniz.

Öğrenme hızı, ağırlıklarda yapılacak değişikliklerin büyüklüğünü belirler. ve sapmayı gösterir. Model çarpılır model parametrelerini (ağırlık) belirlemek için öğrenme hızına göre ve yanlılık değerleri) sağlar. Renk geçişinin üçüncü adımında iniş, "küçük miktar" yönünde hareket etmek için negatif eğim ise öğrenme hızını ifade eder.

Eski model parametreleri ile yeni model parametreleri arasındaki fark orantılıdır. Örneğin, eğim model büyük bir adım atar. Küçükse küçük bir adım gerekir. Örneğin, Örneğin, gradyanın büyüklüğü 2,5 ve öğrenme hızı 0,01 ise bu durumda model, parametreyi 0,025 olarak değiştirir.

İdeal öğrenme hızı, modelin makul bir sayı içinde yaklaşmasına yardımcı olur. iterasyonlar ile yürütüldüğü anlamına gelir. Şekil 21'de kayıp eğrisi, modeli önemli ölçüde gösteriyor uzlaşmaya başlamadan önce, ilk 20 yinelemede iyileşmeye

Şekil 21. Düzgünleşmeden önce dik bir eğim gösteren kayıp eğrisi.

Şekil 21. Şu kadar yüksek bir öğrenme hızıyla eğitilmiş bir modeli gösteren kayıp grafiği: kısa sürede tümleşir.

Çok küçük bir öğrenme hızı ise çok fazla yineleme gerektirebilir. uzlaşma. Şekil 22'de, kayıp eğrisi, modelin çok küçük iyileştirmeler yapıldı:

Şekil 22. Neredeyse 45 derecelik bir eğim gösteren kayıp eğrisi.

Şekil 22. Düşük bir öğrenme hızıyla eğitilmiş bir modeli gösteren kayıp grafiği.

Çok yüksek olan öğrenme hızı da hiçbir zaman örtüşmez çünkü her iterasyon ya da kaybın hemen çıkmasına veya sürekli artmasına neden olur. Şekil 23'te, kayıp eğri, modelin her iterasyondan sonra düştüğünü ve ardından kaybın arttığını gösterir. Şekil 24'te ise kayıp daha sonraki iterasyonlarda artmaktadır:

Şekil 23. Zikzak yukarı ve aşağı çizgisini gösteren kayıp eğrisi.

23. Şekil. Şu kadar öğrenme hızıyla eğitilmiş bir modeli gösteren kayıp grafiği: çok büyük olduğundan, kayıp eğrisinde değişken bir dalgalanma yaşandığı için iterasyonlar artar.

Şekil 24. Daha sonraki iterasyonlarda artan kaybı gösteren kayıp eğrisi

24. Şekil. Şu kadar öğrenme hızıyla eğitilmiş bir modeli gösteren kayıp grafiği: sonraki iterasyonlarda kayıp eğrisinin önemli ölçüde arttığı çok büyük bir durumdur.

Alıştırma: Öğrendiklerinizi sınayın

İdeal öğrenme hızı nedir?
İdeal öğrenme hızı probleme bağlıdır.
Her model ve veri kümesinin kendi ideal öğrenme hızı vardır.
0,01
1.0

Grup boyutu

Grup boyutu modelin ağırlıklarını güncellemeden önce işlediği örnek sayısını ifade eder ön yargıdır. Modelin, kaybı her için örneğini inceleyerek ağırlıkları ve yanlılığı güncelleyin. Ancak, veri kümesinde yüz binlerce, hatta milyonlarca örnek bulunur. Bunları büyük bir grup oluşturmak pek çok yöntem değildir.

. değişiklik yapmanıza gerek kalmadan ortalama veri kümesindeki her bir örneğe bakmak için ağırlıkları ve önyargıları güncellemeden önce olasılıksal gradyan iniş ve mini toplu stokastik gradyanı iniş:

  • Olasılıksal gradyan iniş (SGD): Stokastik gradyan iniş her yineleme için tek bir örnek (bir adet grup boyutu) olur. Yeterince verilen iterasyonlar ile SGD çalışır ama çok gürültülüdür. "Gürültü" zaman içindeki değişimleri kaybın azalmasına değil, artmasına sebep olan iterasyon ile yapılır. "Stokastik" terimi Arkadaş Bitkiler projesinin her grup rastgele seçilir.

    Aşağıdaki resimde, değişimin model olarak ne kadar hafif dalgalandığına dikkat edin SGD kullanarak ağırlıklarını ve önyargısını günceller. Bu da, grafik:

    Şekil 25. Çok fazla küçük dalgalanmayla düzleşen dik kayıp eğrisi.

    25. Şekil. Stokastik gradyan iniş (SGD) ile eğitilen modelin gösterildiği gürültüsü.

    Stokastik gradyan inişin kullanılmasının tüm yüzeyin tamamında gürültü oluşabileceğini unutmayın. tüm kayıp eğrisini kapsıyor.

  • Mini toplu stokastik gradyan iniş (mini toplu SGD): Mini toplu olasılıksal gradyan iniş, tam toplu satış ile SGD arasındaki bir uzlaşmadır. Örneğin, $ N $ veri noktası sayısı, grup boyutu 1'den büyük herhangi bir sayı olabilir N $'dan az. Model, her grup içine dahil edilen örnekleri seçer renk geçişlerinin ortalamasını alır ve ardından ağırlıkları ve yanlılığı günceller her yineleme için bir defaya mahsus olmak üzere.

    Her grup için örnek sayısının belirlenmesi veri kümesine ve mevcut bilgi işlem kaynaklarını kullanır. Genel olarak, küçük gruplar aşağıdaki gibi davranır: SGD ve daha büyük grup boyutları tam toplu gradyan azalma gibi davranır.

    Şekil 26. Yakınlaşmaya yakın çok daha küçük dalgalanmalarla düzleşmeye başlayan dik kayıp eğrisi.

    26 Şekil. Model, mini toplu SGD ile eğitildi.

Bir modeli eğitirken gürültünün istenmeyen bir durum karakteristik özelliklerdir. Ancak gürültünün belirli bir miktar iyi bir şey olur. Sonraki modüllerde gürültünün bir modele nasıl yardımcı olabileceğini öğreneceksiniz. genellemenize yardımcı olur ve en uygun ağırlıkları ve yanlılığı nöral ağ ağı oluşturun.

Dönemler

Eğitim sırasında epoch, modeli, eğitim kümesindeki her örneği bir kez işlemiştir. Örneğin, 1000 örnek ve 100 örnek içeren mini toplu bir eğitim seti bu model 10 iterasyonları tamamlamanın bir yoludur.

Eğitim için genellikle birçok dönem gerekir. Yani, sistemin, verileri, her örneği birkaç kez kontrol etmelisiniz.

Dönem sayısı, model başlamadan önce ayarladığınız bir hiperparametredir bahsedeceğim. Birçok durumda, her bir hedef için kaç tane dönem uzlaşmaya varıyor. Genel olarak, daha fazla dönem daha iyi bir model oluşturur eğitim de daha fazla zaman alıyor.

Şekil 27. Tam toplu işlem, veri kümesinin tamamını, mini grup ise veri kümesinin bir alt kümesini ifade eder. Epoch ise on adet mini gruptan tam geçiştir.

27 Şekil. Tam grup ve mini parti.

Aşağıdaki tabloda, grup boyutu ve dönemlerin Bir modelin parametrelerini güncelleme sayısı.

Grup türü Ağırlıklar ve yanlılık güncellemeleri gerçekleştiğinde
Tam grup Model, veri kümesindeki tüm örnekleri inceledikten sonra. Örneğin, Bir veri kümesi 1.000 örnek içeriyorsa ve model 20 dönem boyunca eğitilirse model, ağırlıkları ve yanlılığı her dönem başına bir kez 20 kez günceller.
Stokastik gradyan iniş Model, veri kümesinden tek bir örneğe baktıktan sonra. Örneğin, bir veri kümesi 1.000 örnek içeriyorsa ve model, ağırlıkları ve yanlılığı 20.000 kez günceller.
Mini toplu stokastik gradyan iniş Model daha sonra her gruptaki örneklere bakar. Örneğin, bir veri kümesi 1.000 örnek içeriyorsa ve grup boyutu 100 ise ve model 20 dönem boyunca eğitilir, ağırlıkları günceller ve yaklaşık 200 kat değerinde olmasına dikkat edin.

Alıştırma: Öğrendiklerinizi sınayın

1. Mini toplu SGD kullanılırken en iyi grup boyutu nedir?
Duruma göre değişir
İdeal grup boyutu, veri kümesine ve kullanılabilir işlem kaynakları
Grup başına 10 örnek
Grup başına 100 örnek
2. Aşağıdaki ifadelerden hangisi doğrudur?
Büyük gruplar, çok sayıda aykırı değere sahip veriler için uygun değildir.
Bu ifade yanlıştır. Birlikte daha fazla gradyanın ortalaması alındığında, grup boyutları, aykırı değerler kullanmanın olumsuz etkilerini azaltmaya yardımcı olabilir verilerde yer alır.
Öğrenme hızını iki katına çıkarmak eğitimi yavaşlatabilir.
Bu ifade doğrudur. Öğrenme hızını iki katına çıkarmak, ve dolayısıyla ağırlıklara neden olabilir. "önüne dönmek" gibi gereken süreyi artırır. Her zaman olduğu gibi, en iyi hiperparametreler veri kümenize ve kullanılabilir işlem kaynakları.
.