Fazla Uydurma

Fark etme, model oluşturmak anlamına gelir şununla eşleşen (ezberleyen) eğitim seti modelin yeni veriler hakkında doğru tahminlerde bulunamadığını yakından gösterir. Fazla uyum modeli, laboratuvarda iyi performans gösteren icata benzer ancak gerçek dünyada değersizdir.

Şekil 11'de her bir geometrik şeklin bir ağacın konumunu temsil ettiğini düşünün ortaya çıkar. Mavi elmaslar sağlıklı ağaçların yerlerini, turuncu daireler ise hasta ağaçların konumlarını işaret ediyor.

Şekil 11. Bu şekilde yaklaşık 60 nokta vardır. Bunların yarısı
            diğer yarısı hasta ağaçlar için de geçerlidir.
            Sağlıklı ağaçlar çoğunlukla kuzeydoğu çeyrekte bulunur, ancak
            sağlıklı ağaçların kuzeybatı çeyreklere gizlice sızmasını sağlar. Hasta ağaçlar
            çoğunlukla güneydoğu kesimdedir, ancak hastalıklı ağaçların birkaçı
            diğer çeyreklere de düşebilir.
Şekil 11. Eğitim seti: Kare bir ormanda sağlıklı ve hasta ağaçların bulunduğu yerler.

 

Farklı şekilleri birbirinden ayırmak için zihinsel olarak her türlü şekli (çizgiler, kıvrımlar, ovaller vb.) sağlıklı ağaçlara götürmekti. Ardından, incelemek için sonraki satırı genişletin. fark edebilirsiniz.

Şekil 12'de gösterilen karmaşık şekiller, şemanın ikisi hariç olmak üzere tümü bulmaktır. Şekilleri bir model olarak düşünürsek, bu tablo gerçekten modeli.

Yoksa mümkün mü dersiniz? Gerçekten mükemmel bir model, yeni örnekleri başarıyla kategorilere ayırır. Şekil 13'te, aynı model yeni bir model üzerinde tahminde bulunduğunda ne test kümesinden örnekler:

Şekil 13. Üzerine serpilmiş yeni bir grup sağlıklı ve hasta ağaç
            görmek için Şekil 12'de gösterilen modeldir. Model, bu e-posta adresinin birçok
            ağaçlar.
Şekil 13.Test seti: Hasta ve sağlıklı ağaçları ayırt etmeye yönelik karmaşık bir model.

 

Şekil 12'de gösterilen karmaşık model, başlangıçtaki eğitim veri kümesi ama test setinde oldukça kötü bir iş çıkarmış. Bu, modelin klasik durumu

Fitil, fazla ve az kesim

Bir modelin yeni veriler hakkında iyi tahminlerde bulunması gerekir. Yani, projenizin hedeflerine "uymayan" bir model yeni veriler oluşturabilirsiniz.

Gördüğünüz gibi, fazla giyilen bir modelin eğitim süresince ancak yeni verilere ilişkin kötü tahminler oluşturabilirsiniz. underfit modeli eğitim verileri hakkında iyi tahminlerde bile bulunmayabilir. Fazla uyum modeli laboratuvarda iyi performans gösteren, ancak gerçek dünyada kötü performans gösteren bir ürün gibi "Uygun değil" durumundaki bir model, kontrol edin.

Şekil 14. Kartezyen olay. X ekseni, "tahmin kalitesi" olarak etiketlenir
            bakın." Y ekseni, 'bu sayfadaki tahminlerin kalitesi' olarak etiketlenir
            veriler oluşturabilirsiniz. Bir eğri başlangıç noktasından başlar ve kademeli olarak yükselir
            ama sonra aynı hızda düşüyor. Eğrinin sol alt kısmı
            (gerçek dünya verilerine dayalı tahminlerin kalitesi ve kalitesi düşük
            tahminleri) "yetersiz modeller" olarak etiketlenir. İlgili içeriği oluşturmak için kullanılan
            eğrinin sağ alt kısmı (bu bölümde gösterilen tahminlerin kalitesi
            gerçek dünya verileri ancak eğitim veri kümesinde yüksek kaliteli tahminler)
            olarak etiketlenmiştir. Eğrinin zirvesi (yüksek kalite
            tahminlerin gerçek verilere ve orta düzey kalitesine sahip olması
            eğitim kümesi) 'modellere sığdır' şeklinde etiketlenir.
Şekil 14. Zayıf, bedene ve kıyafetli modeller.

 

Genelleme çok önemlidir. Yani iyi genelleştiren bir model yeni verilere dair tahminlerde bulunmaktır. Hedefiniz, genelleme yapan bir model oluşturmak iyi bir örnektir.

Fazla uyumu tespit etme

Aşağıdaki eğriler, fazla uyumu tespit etmenize yardımcı olur:

  • kayıp eğrileri
  • genelleme eğrileri

Kayıp eğrisi, bir modelin kaybının grafiğini çizer ve eğitim iterasyonu sayısına kıyasla. İki veya daha fazla kayıp eğrisini gösteren bir grafiğe genelleme denir emin olun. Aşağıdakiler genelleştirme eğrisi iki kayıp eğrisini gösterir:

Şekil 15. Eğitim seti için kademeli olarak kayıp işlevi
            reddedilir. Doğrulama kümesi için kayıp işlevi de reddedilir.
            ancak belirli sayıda iterasyondan sonra yükselmeye başlar.
Şekil 15. Fazla uyum sağlanmasını güçlü bir şekilde ima eden bir genelleme eğrisi.

 

İki kayıp eğrisinin başta benzer bir davranışa sahip olduğunu, daha sonra ise farklılaştığını göreceksiniz. Yani belirli sayıda iterasyondan sonra kayıp düşerken eğitim kümesinde sabit bir şekilde tutar (tümleşme) ancak artış iki seçenekten oluşur. Bu, aşırı uyuma işaret eder.

Buna karşılık, iyi uyan bir modelin genelleştirme eğrisi iki kayıp eğrisini gösterir içeren bir e-posta alırsınız.

Fazla uyuma neden olan nedir?

Çok geniş kapsamlı olarak, fazla uyum aşağıdakilerden biri veya her ikisinden kaynaklanır sorunlar:

  • Eğitim veri kümesi, gerçek hayat verilerini (veya doğrulama kümesi veya test kümesi) ekleyebilirsiniz.
  • Model çok karmaşık.

Genelleştirme koşulları

Bir model, eğitim seti üzerinde eğitilir ancak modelin gerçek değeri şudur: yeni örneklerle ilgili, özellikle de gerçek dünya verilerine dair tahminlerde bulunur. Model geliştirirken test kümeniz gerçek dünyadan veriler için bir proxy görevi görür. İyi genelleme yapan bir modeli eğitmek, aşağıdaki veri kümesi koşullarını gerektirir:

  • Örnekler: bağımsız ve özdeş şekilde dağıtılmış, demenin çok daha güzel bir yolu, birbirlerini etkileyemez.
  • Veri kümesi durağan; yani zaman içinde önemli ölçüde değişmez.
  • Veri kümesi bölümleri aynı dağılıma sahiptir. Yani eğitim veri kümesindeki örnekler istatistiksel açıdan benzerdir. doğrulama kümesi, test kümesi ve gerçek dünya verilerindeki örneklere bakın.

Aşağıdaki alıştırmalarla önceki koşulları keşfedin.

Alıştırmalar: Öğrendiklerinizi sınayın

Aşağıdaki veri kümesi bölümlendirmelerini göz önünde bulundurun.
Üç parçaya bölünmüş yatay çubuk: çubuğun% 70'i
                     eğitim kümesi, %15 doğrulama kümesi ve
                     test kümesi
Ne yapmanız gerekir ki, eğitim veri kümesindeki örneklerin aşağıdaki örneklerle benzer istatistiksel dağılıma sahip doğrulama kümesi ve test kümesi olabilir mi?
Veri kümesindeki örnekleri önceden denemeden önce bölümlendirmektir.
Evet. Örneklerin iyi bir şekilde karıştırılması, bölümlerin çok daha iyi bir şekilde karıştırılmasını sağlar istatistiksel olarak benzer olması muhtemeldir.
Örnekleri en eskiden en yeniye doğru sıralayın.
Veri kümesindeki örnekler sabit değilse sıralama, bölümleri daha az hale getirir benzer.
Hiçbir işlem yapmamayı tercih edebilirsiniz. Yeterli sayıda örnekle ortalamalar yasası doğal olarak dağılımların istatistiksel açıdan benzerdir.
Maalesef durum böyle değil. Örnekler veri kümesinin belirli bölümleri, diğer alanlardaki bölümlerini kontrol edin.
Bir akış hizmeti, popülerliği tahmin etmek için bir model geliştiriyor yüzde 113'lük muazzam bir artış elde etti. İlgili içeriği oluşturmak için kullanılan akış hizmeti, modeli bir veri kümesi üzerinde eğitmeyi planlıyor milyonlarca örnek içerir. Önceki dönemden on yıldır. Bu model bir sorunla karşılaşır mı?
Muhtemelen. İzleyiciler zevkler, geçmişteki davranışların gerçekleşemeyeceği tahmin eder.
Evet. İzleyici zevkleri sabit değildir. Sürekli değişirler.
Kesinlikle hayır. Veri kümesi, iyi bir performans için tahminler.
Maalesef izleyicilerin zevkler sabit değildir.
Muhtemelen karşılaşmazsınız. İzleyiciler öngörülebilir döngülerle nasıl değiştiğine bakabilirsiniz. On yıllık veriler, modelin iyi tahminlerde bulunmasını sağlar emin olabilirsiniz.
Eğlencenin belirli yönleri döngüsel olsa da eğitilen modellerin sayısı neredeyse kesinlikle sonraki birkaç yıla ilişkin tahminde bulunma konusunda sorun yaşayabilir.
Bir model, insanların bir kilometre yürümek için gereken süreyi tahmin etmeyi hedefliyor hava durumu verilerine (sıcaklık, çiy noktası ve yağış) önemli ölçüde arttı. Bundan bir model oluşturup test edebilir misiniz? veri kümesindeki hava durumu ölçümleri önemli ölçüde değişse bile sezonda mı?
Evet
Evet, bu veri kümesinden bir model oluşturup test etmek mümkündür. Sadece verilerin eşit bir şekilde bölümlendirilmesini sağlamanız gerekir. Dört mevsime ait verilerin sezona eşit olarak dağıtıldığını olabilir.
Hayır
Bu veri kümesinde yeterli sıcaklık ve çiy örneği içerdiği varsayıldığında gözlem ve çöktürmenden sonra, Google Cloud'dan bir model oluşturup kullanır. Yalnızca verilerin bölümlendirilmiş olduğundan emin olmanız gerekir ve her yılın verilerinin eşit olarak dağıtılması için ayırabiliriz.

Meydan okuma alıştırması

Sürücülerin otomobil satın almak için ideal tarihi tahmin eden bir model belirli bir rota için tren bileti gerekiyor. Örneğin, model size 23 Temmuz'da kalkan bir tren için biletlerini 8 Temmuz'da satın aldığını tespit ettik. Tren şirketi çeşitli kriterlere dayanarak fiyatlarını saatlik olarak güncelliyor Ancak temel olarak mevcut koltuk sayısına göre belirlenir. Yani:

  • O kadar çok koltuk varsa bilet fiyatları genellikle düşük olur.
  • Boş koltuk sayısı çok azsa bilet fiyatları genellikle yüksektir.
Modelinizin gösterdiği performans düşük ve test kümesinde kaybı olur, ancak bazen korkunç öngörülere dayanıyor. Neden?
Yanıtı görmek için burayı tıklayın