Rastgele ormanların aksine, gradyan takviyeli ağaçlar aşırı yüksek olabilir. Dolayısıyla, nöral ağlar varsa normalleştirme ve erken durdurma özelliklerini kullanarak doğrulama veri kümesiyle aynıdır.
Örneğin, aşağıdaki şekillerde, eğitime yönelik kayıp ve doğruluk eğrileri ve doğrulama kümelerinin eğitilmesine yardımcı olur. Eğrilerin ne kadar ıraksak olduğuna dikkat edin yüksek düzeyde uyum sağladığına işaret eder.
Şekil 29. Kayıp ve karar ağaçlarının sayısı karşılaştırması. ziyaret edin.
Şekil 30. Doğruluk ve karar ağaçlarının sayısı. ziyaret edin.
Gradyan destekli ağaçlar için yaygın olarak kullanılan normalleştirme parametreleri şunlardır:
- Ağacın maksimum derinliği.
- Daralma oranı.
- Her düğümde test edilen özelliklerin oranı.
- Kaybdaki L1 ve L2 katsayısı.
Karar ağaçlarının genellikle rastgele ormanlara göre çok daha sığ yetiştiğini unutmayın. modeller. Varsayılan olarak, TF-DF'deki gradyan zengin ağaçlar derinliği 6'ya kadar büyütülür. Ağaçlar sığ olduğundan, yaprak başına minimum örnek sayısı etkisi azdır ve genellikle incelenmez.
Eğitim sayısı yeterli olduğunda doğrulama veri kümesine ihtiyaç duyulmaz. küçük olabilir. Bu nedenle, gradyan desteği yüksek ağaçları devre dışı bırakmak veya model çalışırken erken durdurmayı devre dışı bırakmak için aşırıya kaçmadığı bilinmektedir.
Kullanım örneği
Önceki bölümde rastgele bir ormanı küçük bir veri kümesi üzerinde eğittik. Burada örnek olarak, rastgele orman modelini, geliştirilmiş bir gradyan ağaç modeli:
model = tfdf.keras.GradientBoostedTreesModel()
# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)
# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)
# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
tf_train_dataset,
validation_ratio=0.0,
early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.
Kullanım ve sınırlamalar
Gradyan güçlendirilmiş ağaçların bazı avantajları ve dezavantajları vardır.
Artıları
- Karar ağaçları gibi, onlar da yerel olarak sayısal ve kategorik ve genellikle özelliklerin ön işleme tabi tutulması gerekmez.
- Gradyan güçlendirilmiş ağaçların, çoğu zaman yüksek performans sonuç. Bununla birlikte, bu hiperparametrelerin ayarlanması, modeli geliştirebilirsiniz.
- Gradyan güçlendirilmiş ağaç modelleri genellikle küçüktür (düğüm sayısı ve hızlı çalışır (genellikle bir veya birkaç μs / örnek).
Eksileri
- Karar ağaçlarının sırayla eğitilmesi gerekir. Bu da eğitimi yavaşlatabilir. önemli ölçüde artırıldı. Ancak eğitimdeki yavaşlama, program yönetiminin karar ağaçlarının küçülebileceğine değindik.
- Rasgele ormanlarda olduğu gibi, gradyan destekli ağaçlar da iç alanları öğrenip tekrar kullanamaz temsil eder. Her karar ağacı (ve her karar ağacının her bir dalı) veri kümesi kalıbını yeniden öğrenmesi gerekir. Bazı veri kümelerinde, özellikle de yapılandırılmamış verilere (ör. resimler, metin) neden olan gradyan daha kötü sonuçlar verir.