Fazla sığdırma ve budama

Yukarıda açıklanan algoritmayı kullanarak, örneklerin ayrılabilir olduğunu varsayarak eğitim örneklerini mükemmel bir şekilde sınıflandıracak bir karar ağacı eğitebiliriz. Ancak veri kümesinde gürültü varsa bu ağaç, verileri fazla sığdırır ve test doğruluğunun yetersiz olduğunu gösterir.

Aşağıdaki şekilde, x özelliği ile y etiketi arasında doğrusal bir ilişkiye sahip gürültülü bir veri kümesi gösterilmektedir. Şekilde ayrıca herhangi bir düzenleme yapmadan bu veri kümesinde eğitilmiş bir karar ağacı gösterilmektedir. Bu model tüm eğitim örneklerini doğru şekilde tahmin eder (modelin tahmini, eğitim örnekleriyle eşleşir). Ancak aynı doğrusal örüntüye ve farklı bir gürültü örneğine sahip yeni bir veri kümesinde model, düşük performans gösterir.

Genel eğim +1'dir ancak veri kümesi çok gürültülü olduğundan, tek tek veri noktaları bazen en iyi uyum çizgisinin çok uzağındadır.

Şekil 12. Gürültülü bir veri kümesi.

 

Bir karar ağacına fazla sığdırmayı sınırlandırmak için karar ağacını eğitirken aşağıdaki düzenleme kriterlerinden birini veya ikisini birden uygulayın:

  • Maksimum derinlik ayarlama: Karar ağaçlarının 10 gibi maksimum derinliği aşmasını önleyin.
  • Yaprakta minimum sayıda örnek belirtin: Belirli sayıdan az örnek içeren yapraklar bölme için dikkate alınmaz.

Aşağıdaki şekilde, yaprak başına farklı minimum örnek sayısının etkisi gösterilmektedir. Model, gürültüyü daha az yakalar.

Her biri, yaprak başına minimum örnek sayısı için farklı bir değerin etkilerini gösteren üç grafik. Farklı değerler 2, 5 ve 10'dur.

Şekil 13. Yaprak başına minimum örnek sayısı farklıdır.

Ayrıca, eğitimden sonra belirli dalları seçerek (budama), diğer bir deyişle yaprak olmayan bazı düğümleri yapraklara dönüştürerek düzenli hale getirebilirsiniz. Kaldırılacak dalları seçmek için yaygın bir çözüm, doğrulama veri kümesi kullanmaktır. Yani bir dalın kaldırılması, doğrulama veri kümesindeki modelin kalitesini iyileştiriyorsa dal kaldırılır.

Aşağıdaki çizimde bu fikir gösterilmektedir. Burada, yapraksız yeşil düğümün bir yaprağa dönüştürülmesi, yani turuncu düğümleri budaması durumunda karar ağacının doğrulama doğruluğunun iyileşip iyileşmeyeceğini test ediyoruz.

İki karar ağacı. Bir karar ağacı 9 düğüm içerirken diğeri, koşullardan biri yaprağa dönüştürülerek yalnızca 6 düğüm olacak şekilde kısaltılmıştır.

Şekil 14. Hastalığı ve çocuklarını yaprak haline getirme.

 

Aşağıdaki şekilde, karar ağacını ayıklamak için veri kümesinin% 20'sini doğrulama olarak kullanmanın etkisi gösterilmektedir:

Düz çizgili ideal modele karşı düzensiz, fazla uyumlu bir modelin gösterildiği bir grafik

Şekil 15. Karar ağacını ayıklamak için veri kümesinin% 20'sini kullanma.

 

Doğrulama veri kümesi kullanmanın, karar ağacının ilk eğitimi için kullanılabilen örnek sayısını azalttığını unutmayın.

Birçok model oluşturucu birden fazla ölçüt uygular. Örneğin, aşağıdakilerin hepsini yapabilirsiniz:

  • Yaprak başına minimum sayıda örnek uygulayın.
  • Karar ağacının büyümesini sınırlandırmak için maksimum derinlik uygulayın.
  • Karar ağacını ayıklayın.
YDF Kodu
YDF'de öğrenme algoritmaları, tüm ayıklama hiperparametreleri için varsayılan değerlerle önceden yapılandırılır. Örneğin, iki kısaltma hiperparametresi için varsayılan değerler aşağıda verilmiştir:
  • Minimum örnek sayısı 5'tir (min_examples = 5)
  • Eğitim veri kümesinin% 10'u doğrulama için saklanır (validation_ratio = 0.1).
validation_ratio=0.0 seçeneğini ayarlayarak doğrulama veri kümesiyle ayıklama özelliğini devre dışı bırakabilirsiniz.

Bu ölçütler, genellikle otomatik hiperparametre ayarı ile incelenmesi gereken yeni hiperparametreler (ör. maksimum ağaç derinliği) sunar. Karar ağaçları genellikle çapraz doğrulama ile hiperparametre ayarını kullanacak şekilde eğitilecek kadar hızlıdır. Örneğin, "n" örnekleri içeren bir veri kümesinde:

  • Eğitim örneklerini örtüşmeyen p gruplara ayırın. Örneğin: p=10.
  • Olası tüm hiperparametre değerleri için; örneğin, {3,5,6,7,8,9} içindeki maksimum derinlik, {5,8,10,20} içindeki minimum örnekler.
    • Her grupta, diğer p-1 grupları için eğitilen bir karar ağacının kalitesini değerlendirin.
    • Gruplardaki değerlendirmenin ortalamasını almak.
  • En iyi ortalaması alınmış değerlendirmeye sahip hiperparametre değerini seçin.
  • Seçilen hipperparametrelerle birlikte tüm "n" örneklerini kullanarak bir son karar ağacını eğitin.

Bu bölümde, karar ağaçlarının fazla uyumu nasıl sınırlandırdığını ele aldık. Bu yöntemlere rağmen, yetersiz uyum ve fazla uyumsuzluk karar ağaçlarının en büyük zaaflarıdır. Karar ormanları, fazla uyumu sınırlandırmak için yeni yöntemler sunar. Bu yöntemleri daha sonra inceleyeceğiz.

Doğrudan karar ağacı yorumlaması

Karar ağaçları kolayca yorumlanabilir. Bununla birlikte, birkaç örneği değiştirmek bile karar ağacının yapısını ve dolayısıyla yorumlanmasını tamamen değiştirebilir.

Karar ağaçlarının derlenme biçimi ve eğitim örneklerinin bölümlendirilmesi sayesinde, veri kümesinin kendisini (modelin aksine) yorumlamak için karar ağacı kullanılabilir. Her yaprak, veri kümesinin belirli bir köşesini temsil eder.

YDF Kodu
YDF'de model.describe() işleviyle ağaçlara bakabilirsiniz. Ayrıca, model.get_tree() ile tek tek ağaca erişebilir ve ağaçların grafiğini çizebilirsiniz. Daha fazla ayrıntı için YDF'nin model inceleme eğiticisine göz atın.

Ancak, dolaylı yorum da bilgilendiricidir.