Modeli tanımlamak ve eğitmek için bir dizi hiperparametre seçmek zorunda kaldık. Sezgilerden, örneklerden ve en iyi uygulama önerilerinden yararlandık. Bununla birlikte, ilk hiperparametre değerlerimizi seçmemiz en iyi sonuçları vermeyebilir. Eğitim için iyi bir başlangıç noktası sağlıyor. Her sorun farklıdır ve bu hiperparametrelerde ince ayar yapmak, modelimizi söz konusu sorunun özelliklerini daha iyi temsil edecek şekilde hassaslaştırmaya yardımcı olur. Kullandığımız hiperparametrelerden bazılarına ve bu parametrelerin nasıl ayarlanmasına göz atalım:
Modeldeki katman sayısı: Bir nöral ağdaki katman sayısı, karmaşıklığın bir göstergesidir. Bu değeri seçerken dikkatli olmalıyız. Çok fazla katman olması, modelin eğitim verileri hakkında çok fazla bilgi edinmesine neden olarak fazla sığdırmaya neden olur. Çok az katman eklemek, modelin öğrenme kabiliyetini sınırlandırabilir ve yetersiz uyuma neden olabilir. Metin sınıflandırma veri kümeleri için bir, iki ve üç katmanlı MLP'lerle denemeler yaptık. İki katmanlı modeller iyi performans gösterdi ve bazı durumlarda üç katmanlı modellerden daha iyiydi. Benzer şekilde, dört ve altı katmanlı sepCNN'leri denedik ve dört katmanlı modellerin performansı iyiydi.
Katman başına birim sayısı: Bir katmandaki birimler, katmanın gerçekleştirdiği dönüşümle ilgili bilgileri içermelidir. İlk katmanda, bu işlem özellik sayısına göre belirlenir. Sonraki katmanlarda, birim sayısı temsilin önceki katmanda genişletilip daraltılmasına bağlı olarak belirlenir. Katmanlar arasındaki bilgi kaybını en aza indirmeye çalışın.
[8, 16, 32, 64]
aralığındaki birim değerlerini denedik ve 32/64 birimleri iyi çalıştı.Çıkma oranı: Modelde, ayrılma katmanları normalleştirme için kullanılır. Fazladan faydalanmaya yönelik bir önlem olarak, düşülecek giriş oranı tanımlanır. Önerilen aralık: 0,2–0,5.
Öğrenme hızı: Nöral ağ ağırlıklarının tekrarlar arasında değişme hızıdır. Yüksek bir öğrenme hızı, ağırlıklarda büyük dalgalanmalara neden olabilir ve hiçbir zaman en uygun değerlerini bulamayabiliriz. Düşük bir öğrenim oranı iyi olsa da model, daha fazla iterasyon yapar. Düşük bir tutarla başlamanızı öneririz. Örneğin, 1-4. Eğitim çok yavaşsa bu değeri artırın. Modeliniz öğrenmiyorsa öğrenme hızını azaltmayı deneyin.
Ayarladığımız, sepCNN modelimize özgü birkaç hiperparametre vardır:
Çekirdek boyutu: Evrişim penceresinin boyutu. Önerilen değerler: 3 veya 5.
Yerleştirme boyutları: Kelime yerleştirmeyi temsil etmek için kullanmak istediğimiz boyutların sayısı (yani her bir vektör vektörünün boyutu). Önerilen değerler: 50-300. Yaptığımız denemelerde, önceden eğitilmiş bir yerleştirme katmanıyla 200 boyuta sahip GloVe yerleştirmeleri kullandık.
Bu hiper parametrelerle denemeler yapın ve en iyi olanı seçin. Kullanım alanınız için en iyi performans gösteren hiperparametreleri seçtikten sonra modeliniz dağıtılmaya hazır olur.