Doğrulama Grubu: Başka Bir Bölüm

Önceki modülde, veri kümesinin eğitim kümesi ve test kümesi olarak bölümlendirilmesi özelliği kullanıma sunuluyordu. Bu bölümlendirme, önce bir örnek grubu üzerinde eğitim yapmanızı ve ardından modeli farklı bir örnek grubuyla test etmenizi sağladı. İki bölüm olduğunda iş akışı aşağıdaki gibi görünebilir:

Üç aşamadan oluşan bir iş akışı diyagramı. 1. Eğitim setinde modeli eğitin. 2. Modeli test kümesinde değerlendirin. 3. Modeli test kümesindeki sonuçlara göre ayarlayın. 1, 2 ve 3 numaralı değerleri tekrarlayın ve son olarak, test kümesinde en iyi performansı gösteren modeli seçin.

Şekil 1. Peki olası bir iş akışı nedir?

Şekildeki "Model düzenleme", öğrenme hızını değiştirmekten özellik eklemeye veya kaldırmaya ve sıfırdan yepyeni bir model tasarlamaya kadar, modelle ilgili hayalinizdeki her şeyi ayarlamak anlamına gelir. Bu iş akışının sonunda, test kümesinde en iyi performansı gösteren modeli seçersiniz.

Veri kümesini iki kümeye bölmek iyi bir fikir olsa da her çare için bir çözüm değildir. Veri kümesini aşağıdaki şekilde gösterilen üç alt kümeye bölerek fazla eşleşme olasılığını önemli ölçüde azaltabilirsiniz:

Üç parçaya bölünmüş yatay çubuk: %70'i eğitim seti, %15'i doğrulama kümesi ve% 15'i test kümesi

Şekil 2. Tek bir veri kümesini üç alt kümeye ayırma.

Eğitim kümesinden gelen sonuçları değerlendirmek için doğrulama grubunu kullanın. Ardından, model doğrulama kümesini "geçtikten" sonra değerlendirmenizi tekrar kontrol etmek için test kümesini kullanın. Bu yeni iş akışı aşağıdaki şekilde gösterilmektedir:

Şekil 1'e benzer iş akışı, ancak iş akışı, modeli test kümesine göre değerlendirmek yerine modeli doğrulama grubuna göre değerlendirir. Ardından, eğitim grubu ve doğrulama grubu aşağı yukarı aynı fikirde olduktan sonra modeli test grubuna karşı onaylayın.

3. Şekil. Daha iyi bir iş akışı.

Bu iyileştirilmiş iş akışında:

  1. Doğrulama kümesinde en iyi performansı gösteren modeli seçin.
  2. Bu modeli test grubuyla karşılaştırarak tekrar kontrol edin.

Bu, test kümesine daha az karşılaşma oluşturduğundan daha iyi bir iş akışıdır.