Tüm iyi yazılım mühendisliği projeleri önemli ölçüde
test etmeleri gerekir. Benzer şekilde, mobil web sitesi uygulamalarınızın
makine öğrenimi modeli ile tahminlerinin doğruluğunu belirler.
Eğitim, doğrulama ve test kümeleri
Bir modeli, bu modellerden farklı bir örnek grubuyla test etmeniz gerekir.
modeli eğitmek için kullanılır. Bu kursta,
bir süre sonra,
test etmektense modelinizin uygunluğuna dair daha güçlü bir kanıttır.
harika bir örnek.
Bu farklı örnekleri nereden elde ediyorsunuz? Makine öğreniminde
bu farklı örnekleri elde edersiniz. En son haberleri sunan,
Bu nedenle, orijinal veri kümesini iki alt kümeye bölmeniz gerektiğini varsayalım:
Eğitim setiyle eğitim verdiğinizi ve verilen test kümesinde
devre dışı bırakabilirsiniz. Her turda test grubunun sonuçlarını kullanacaksınız.
hiperparametrelerin ve özellik grubunun nasıl güncelleneceğine dair yol gösterici bilgiler edinebilirsiniz. Şunları yapabilir:
herhangi bir sorun olduğunu mu düşünüyorsunuz? Yalnızca bir yanıt seçin.
Bu prosedürü çok sayıda yapmak, modelin
özelliklerine uymasını sağlamaktan
çok daha fazlasıdır.
Evet! Aynı test kümesini ne kadar sık kullanırsanız
modelin test kümesine
uyma olasılığı da o kadar artar.
"Teste ders veren" bir öğretmen gibi yanlışlıkla modelin
olduğundan, modelin test edilmesini zorlaştırabilir.
uyumlu hale getirmek için
kullanılır.
Bu yaklaşım uygundur. Sonuçta pek çok konuda
ve ayrı bir test kümesi üzerinde değerlendirme yapmaktır.
Aslında burada küçük bir sorun var. Projenin başarısı için
zamanla yanlış gittiğini fark edebilir.
Bu yaklaşım hesaplama açısından verimsizdir. Değiştirme
hiperparametrelere veya özellik kümelerine uygulanır.
Sık test yapmak pahalı olsa da kritik önem taşır. Ancak sık
test etmek ek eğitimden çok daha ucuzdur. Optimize ediliyor
hiperparametreleri ve özellik kümesini önemli ölçüde iyileştirebilir
Bu yüzden her zaman için daha az zaman ve bilgi işlem
birkaç örnek verelim.
Veri kümesini iki kümeye ayırmak iyi bir fikir olsa da
veri kümesini üç alt kümeye bölmek daha iyi bir yaklaşım olacaktır.
Eğitim kümesi ve test kümesine ek olarak üçüncü alt küme ise şu şekildedir:
Doğrulama grubu
ve model eğitilirken ilk testi gerçekleştirir.
Eğitim veri kümesinin sonuçlarını değerlendirmek için doğrulama grubunu kullanın.
Doğrulama kümesinin tekrar tekrar kullanılması, modelinizin
kullanıyorsanız, modelinizi bir kez daha kontrol etmek için test kümesini kullanın.
Aşağıdaki şekilde bu iş akışı gösterilmektedir.
Şekilde, "Modeli düzenleyin" modelle ilgili herhangi bir şeyi
(öğrenme hızını değiştirmekten ekleme ya da çıkarmaya kadar)
yeni bir model tasarlamaya kadar pek çok özellik var.
Bu iş akışının sonunda test kümesinde en iyi performansı gösteren modeli seçersiniz.
'nı inceleyin.
Şekil 10'da gösterilen iş akışı optimum iş akışıdır, ancak bu iş akışıyla bile
test setleri ve doğrulama setleri hâlâ "aşılıyor" sağlayabilir.
Başka bir deyişle, projeyle ilgili karar alırken
aynı verileri ne kadar çok kullanırsanız
hiperparametre ayarlarını veya diğer model iyileştirmelerini
modelin yeni veriler hakkında iyi tahminlerde bulunacağını düşünmektir.
Bu nedenle, "yenileme" işlemi için daha fazla veri toplamak test
ve doğrulama kümesini içerir. Yeniden başlamak harika bir sıfırlamadır.
Alıştırma: Sezgilerinizi sınayın
Veri kümesindeki tüm örnekleri karıştırdınız ve
karıştırılmış örneklerin eğitim, doğrulama ve test olmasına
belirler. Ancak, test kümenizdeki kayıp değeri şaşırtıcı derecede düşük
bir hata olduğundan şüpheleniyorsunuz. Sorun ne olabilir?
Test kümesindeki örneklerin çoğu aynı örneklerin kopyalarıdır
var.
Evet. Bu, çok fazla gereksiz veri içeren bir veri kümesinde
örnekler. Yinelenen örnekleri
emin olmanız gerekir.
Eğitim ve testler belirleyici değildir. Bazen, şans eseri
test kayıpınız çok düşük. Şunu doğrulamak için testi yeniden çalıştırın:
yardımcı olur.
Kayıplar her çalıştırmada biraz değişiklik gösterse de aynı olmayacaktır.
tahmini ne kadar kazanacağınıza karar verebilirsiniz.
Tesadüfen, test seti tesadüfen,
iyi bir performans sergilediğine bakalım.
Örnekler iyi karıştırılmış, bu nedenle bu çok düşük bir ihtimaldir.
Test kümeleriyle ilgili diğer sorunlar
Önceki sorunun da belirttiği gibi, yinelenen örnekler model değerlendirmesini etkileyebilir.
Veri kümesini eğitim, doğrulama ve test kümelerine böldükten sonra
doğrulama kümesi veya test kümesinde, yinelemeleri olan tüm örnekleri silin
örneklere göz atalım. Bir model için tek adil test
yeni örnekler kullanmanızı öneririz.
Örneğin, bir e-postanın spam olup olmadığını tahmin eden bir model ele alalım:
özellik olarak konu satırı, e-posta gövdesi ve gönderenin e-posta adresi.
Verileri, 80-20’lik bir oranla eğitim ve test kümelerine böldüğünüzü varsayalım.
Model, eğitimden sonra hem eğitim kümesinde hem de çalışmada% 99
test kümesidir. Muhtemelen test kümesinde daha düşük bir hassasiyet beklersiniz, bu nedenle
verileri tekrar inceleyin ve testteki örneklerin birçoğunun
eğitim kümesindeki örneklerin kopyalarıdır. Sorun şu ki
girişinizdeki aynı spam e-postası için yinelenen girişleri elemek için ihmal edildi
veri tabanının alt kısmına kaldırın. İstemeden bazı
test verileriniz.
Özetle, iyi bir test kümesi veya doğrulama kümesi,
tüm mevcut özelliklerin
şu ölçütleri dikkate alın:
İstatistiksel olarak anlamlı test sonuçları sağlayacak kadar büyük.
Veri kümesinin bir bütününün temsilcisi. Başka bir deyişle,
eğitim kümesinden farklı özelliklere sahip bir test kümesi olabilir.
Modelin karşılaşacağı gerçek dünya verilerinin temsilcisi
olduğunu varsayalım.
Eğitim kümesinde yinelenen örnek yok.
Alıştırmalar: Öğrendiklerinizi sınayın
Sabit sayıda örneğe sahip tek bir veri kümesi göz önünde bulundurulduğunda,
aşağıdaki ifadelerden hangisi doğrudur?
Modelin test edilmesinde kullanılan her örnek, bir tane daha az kullanılan örnektir
modeli eğitirsiniz.
Örnekleri eğitim/test/doğrulama kümelerine ayırmak sıfır toplamlı bir oyundur.
Bu, ortada bir denge noktasıdır.
Test kümesindeki örnek sayısı şundan büyük olmalıdır:
doğrulama kümesindeki örnek sayısı.
Teorik olarak doğrulama kümesi ve test testi,
örnek sayısı hemen hemen aynıdır.
Test kümesindeki örnek sayısı şundan büyük olmalıdır:
doğrulama kümesindeki veya eğitim kümesindeki örneklerin sayısı
Eğitim kümesindeki örneklerin sayısı genellikle
doğrulama kümesindeki veya test kümesindeki örneklerin sayısı; ancak,
farklı gruplar için yüzde şartı yoktur.
Test kümenizin açık bir şekilde çalışmak için yeterli sayıda
istatistiksel açıdan anlamlı bir test. Ayrıca, belirli etmenlere
düşük kayıplı bir test kümesi sağlar. Ancak model,
düşünme egzersizlerini
teşvik ederler. Bu durumda ne yapmanız gerekir?
Orijinal veri kümesinin gerçek verilerden farkını belirleme.
Evet. En iyi veri kümeleri bile gerçek hayattaki verilerin anlık bir görüntüsüdür;
temel
kesin referans
zamanla değişme eğilimindedir. Test kümeniz,
iyi bir model kalitesini önerecek kadar iyi
veri kümesinin, gerçek dünya verileriyle yeterince eşleşmediği durumlar olabilir.
Yeni bir veri kümesini yeniden eğitmeniz ve test etmeniz gerekebilir.
Aynı test kümesinde yeniden test edin. Test sonuçlarında
bir anormallik oldu.
Yeniden test biraz farklı sonuçlar verebilir,
muhtemelen pek yardımcı olmayacaktır.
Test kümesinde kaç örnek bulunmalıdır?
İstatistiksel açıdan anlamlı bir test sağlamak için yeterli sayıda örnek.
Evet. Kaç örnek verebiliriz? Deneme yapmanız gerekir.