Veri kümeleri: Orijinal veri kümesini bölme

Tüm iyi yazılım mühendisliği projeleri önemli ölçüde test etmeleri gerekir. Benzer şekilde, mobil web sitesi uygulamalarınızın makine öğrenimi modeli ile tahminlerinin doğruluğunu belirler.

Eğitim, doğrulama ve test kümeleri

Bir modeli, bu modellerden farklı bir örnek grubuyla test etmeniz gerekir. modeli eğitmek için kullanılır. Bu kursta, bir süre sonra, test etmektense modelinizin uygunluğuna dair daha güçlü bir kanıttır. harika bir örnek. Bu farklı örnekleri nereden elde ediyorsunuz? Makine öğreniminde bu farklı örnekleri elde edersiniz. En son haberleri sunan, Bu nedenle, orijinal veri kümesini iki alt kümeye bölmeniz gerektiğini varsayalım:

Şekil 8. İki parçaya bölünmüş yatay çubuk: Yaklaşık% 80'i
            eğitim kümesi, yaklaşık% 20'si ise test kümesidir.
8. Şekil. Optimum bir dağılım değil.

 

Alıştırma: Sezgilerinizi sınayın

Eğitim setiyle eğitim verdiğinizi ve verilen test kümesinde devre dışı bırakabilirsiniz. Her turda test grubunun sonuçlarını kullanacaksınız. hiperparametrelerin ve özellik grubunun nasıl güncelleneceğine dair yol gösterici bilgiler edinebilirsiniz. Şunları yapabilir: herhangi bir sorun olduğunu mu düşünüyorsunuz? Yalnızca bir yanıt seçin.
Bu prosedürü çok sayıda yapmak, modelin özelliklerine uymasını sağlamaktan çok daha fazlasıdır.
Evet! Aynı test kümesini ne kadar sık kullanırsanız modelin test kümesine uyma olasılığı da o kadar artar. "Teste ders veren" bir öğretmen gibi yanlışlıkla modelin olduğundan, modelin test edilmesini zorlaştırabilir. uyumlu hale getirmek için kullanılır.
Bu yaklaşım uygundur. Sonuçta pek çok konuda ve ayrı bir test kümesi üzerinde değerlendirme yapmaktır.
Aslında burada küçük bir sorun var. Projenin başarısı için zamanla yanlış gittiğini fark edebilir.
Bu yaklaşım hesaplama açısından verimsizdir. Değiştirme hiperparametrelere veya özellik kümelerine uygulanır.
Sık test yapmak pahalı olsa da kritik önem taşır. Ancak sık test etmek ek eğitimden çok daha ucuzdur. Optimize ediliyor hiperparametreleri ve özellik kümesini önemli ölçüde iyileştirebilir Bu yüzden her zaman için daha az zaman ve bilgi işlem birkaç örnek verelim.

Veri kümesini iki kümeye ayırmak iyi bir fikir olsa da veri kümesini üç alt kümeye bölmek daha iyi bir yaklaşım olacaktır. Eğitim kümesi ve test kümesine ek olarak üçüncü alt küme ise şu şekildedir:

Şekil 9. Üç parçaya bölünmüş yatay çubuk: %70'i
            eğitim kümesi, %15 doğrulama kümesi ve
            test kümesi
9. Şekil. Çok daha iyi bir dağılım.

Eğitim veri kümesinin sonuçlarını değerlendirmek için doğrulama grubunu kullanın. Doğrulama kümesinin tekrar tekrar kullanılması, modelinizin kullanıyorsanız, modelinizi bir kez daha kontrol etmek için test kümesini kullanın.

Aşağıdaki şekilde bu iş akışı gösterilmektedir. Şekilde, "Modeli düzenleyin" modelle ilgili herhangi bir şeyi (öğrenme hızını değiştirmekten ekleme ya da çıkarmaya kadar) yeni bir model tasarlamaya kadar pek çok özellik var. Bu iş akışının sonunda test kümesinde en iyi performansı gösteren modeli seçersiniz.

Şekil 10. Aşağıdaki aşamalardan oluşan bir iş akışı diyagramı:
            1. Eğitim kümesinde modeli eğitin.
            2. Doğrulama grubundaki modeli değerlendirin.
            3. Modeli, doğrulama grubundaki sonuçlara göre ayarlayın.
            4. 1, 2 ve 3'ü tekrarlayın ve sonuçta size en uygun modeli seçin
               en iyi performansa sahip.
            5. Test grubundaki sonuçları onaylayın.
Şekil 10. Geliştirme ve test için iyi bir iş akışı.
'nı inceleyin.

Şekil 10'da gösterilen iş akışı optimum iş akışıdır, ancak bu iş akışıyla bile test setleri ve doğrulama setleri hâlâ "aşılıyor" sağlayabilir. Başka bir deyişle, projeyle ilgili karar alırken aynı verileri ne kadar çok kullanırsanız hiperparametre ayarlarını veya diğer model iyileştirmelerini modelin yeni veriler hakkında iyi tahminlerde bulunacağını düşünmektir. Bu nedenle, "yenileme" işlemi için daha fazla veri toplamak test ve doğrulama kümesini içerir. Yeniden başlamak harika bir sıfırlamadır.

Alıştırma: Sezgilerinizi sınayın

Veri kümesindeki tüm örnekleri karıştırdınız ve karıştırılmış örneklerin eğitim, doğrulama ve test olmasına belirler. Ancak, test kümenizdeki kayıp değeri şaşırtıcı derecede düşük bir hata olduğundan şüpheleniyorsunuz. Sorun ne olabilir?
Test kümesindeki örneklerin çoğu aynı örneklerin kopyalarıdır var.
Evet. Bu, çok fazla gereksiz veri içeren bir veri kümesinde örnekler. Yinelenen örnekleri emin olmanız gerekir.
Eğitim ve testler belirleyici değildir. Bazen, şans eseri test kayıpınız çok düşük. Şunu doğrulamak için testi yeniden çalıştırın: yardımcı olur.
Kayıplar her çalıştırmada biraz değişiklik gösterse de aynı olmayacaktır. tahmini ne kadar kazanacağınıza karar verebilirsiniz.
Tesadüfen, test seti tesadüfen, iyi bir performans sergilediğine bakalım.
Örnekler iyi karıştırılmış, bu nedenle bu çok düşük bir ihtimaldir.

Test kümeleriyle ilgili diğer sorunlar

Önceki sorunun da belirttiği gibi, yinelenen örnekler model değerlendirmesini etkileyebilir. Veri kümesini eğitim, doğrulama ve test kümelerine böldükten sonra doğrulama kümesi veya test kümesinde, yinelemeleri olan tüm örnekleri silin örneklere göz atalım. Bir model için tek adil test yeni örnekler kullanmanızı öneririz.

Örneğin, bir e-postanın spam olup olmadığını tahmin eden bir model ele alalım: özellik olarak konu satırı, e-posta gövdesi ve gönderenin e-posta adresi. Verileri, 80-20’lik bir oranla eğitim ve test kümelerine böldüğünüzü varsayalım. Model, eğitimden sonra hem eğitim kümesinde hem de çalışmada% 99 test kümesidir. Muhtemelen test kümesinde daha düşük bir hassasiyet beklersiniz, bu nedenle verileri tekrar inceleyin ve testteki örneklerin birçoğunun eğitim kümesindeki örneklerin kopyalarıdır. Sorun şu ki girişinizdeki aynı spam e-postası için yinelenen girişleri elemek için ihmal edildi veri tabanının alt kısmına kaldırın. İstemeden bazı test verileriniz.

Özetle, iyi bir test kümesi veya doğrulama kümesi, tüm mevcut özelliklerin şu ölçütleri dikkate alın:

  • İstatistiksel olarak anlamlı test sonuçları sağlayacak kadar büyük.
  • Veri kümesinin bir bütününün temsilcisi. Başka bir deyişle, eğitim kümesinden farklı özelliklere sahip bir test kümesi olabilir.
  • Modelin karşılaşacağı gerçek dünya verilerinin temsilcisi olduğunu varsayalım.
  • Eğitim kümesinde yinelenen örnek yok.

Alıştırmalar: Öğrendiklerinizi sınayın

Sabit sayıda örneğe sahip tek bir veri kümesi göz önünde bulundurulduğunda, aşağıdaki ifadelerden hangisi doğrudur?
Modelin test edilmesinde kullanılan her örnek, bir tane daha az kullanılan örnektir modeli eğitirsiniz.
Örnekleri eğitim/test/doğrulama kümelerine ayırmak sıfır toplamlı bir oyundur. Bu, ortada bir denge noktasıdır.
Test kümesindeki örnek sayısı şundan büyük olmalıdır: doğrulama kümesindeki örnek sayısı.
Teorik olarak doğrulama kümesi ve test testi, örnek sayısı hemen hemen aynıdır.
Test kümesindeki örnek sayısı şundan büyük olmalıdır: doğrulama kümesindeki veya eğitim kümesindeki örneklerin sayısı
Eğitim kümesindeki örneklerin sayısı genellikle doğrulama kümesindeki veya test kümesindeki örneklerin sayısı; ancak, farklı gruplar için yüzde şartı yoktur.
Test kümenizin açık bir şekilde çalışmak için yeterli sayıda istatistiksel açıdan anlamlı bir test. Ayrıca, belirli etmenlere düşük kayıplı bir test kümesi sağlar. Ancak model, düşünme egzersizlerini teşvik ederler. Bu durumda ne yapmanız gerekir?
Orijinal veri kümesinin gerçek verilerden farkını belirleme.
Evet. En iyi veri kümeleri bile gerçek hayattaki verilerin anlık bir görüntüsüdür; temel kesin referans zamanla değişme eğilimindedir. Test kümeniz, iyi bir model kalitesini önerecek kadar iyi veri kümesinin, gerçek dünya verileriyle yeterince eşleşmediği durumlar olabilir. Yeni bir veri kümesini yeniden eğitmeniz ve test etmeniz gerekebilir.
Aynı test kümesinde yeniden test edin. Test sonuçlarında bir anormallik oldu.
Yeniden test biraz farklı sonuçlar verebilir, muhtemelen pek yardımcı olmayacaktır.
Test kümesinde kaç örnek bulunmalıdır?
İstatistiksel açıdan anlamlı bir test sağlamak için yeterli sayıda örnek.
Evet. Kaç örnek verebiliriz? Deneme yapmanız gerekir.
Orijinal veri kümesinin en az% 15'i.
%15 yeterli örnek olabilir veya olmayabilir.
.