Bu ünitede aşağıdaki konular incelenmektedir:
- rastgele ormanları yorumlama
- rastgele ormanları eğitme
- rastgele ormanların avantajları ve dezavantajları
Rastgele ormanları yorumlama
Rastgele ormanları yorumlamak, karar ağaçlarına göre daha karmaşıktır. Rastgele ormanlar rastgele gürültüyle eğitilen karar ağaçlarını içermelidir. Bu nedenle, potansiyel risklerin ve karar ağacının yapısı hakkında yargılarda bulunabiliriz. Ancak, rastgele durumdaki çeşitli şekillerde kullanıma sunuyor.
Rastgele bir ormanı yorumlamaya yönelik yaklaşımlardan biri, bir bitkiyi eğitmek karar ağacını kullanır. Çünkü hem rastgele orman hem de CART aynı temel algoritmayla eğitildiğinden, "aynı küresel görünümü paylaşırlar" veri kümesiyle eşleştirilir. Bu seçenek, basit veri kümelerinde işe yarar ve modelin genel yorumu.
Değişken önemleri de yorumlanabilirlik açısından iyidir. bahsedeceğiz. Örneğin, aşağıdaki tabloda her bir maddeye ilişkin değişken önem derecesi eğitilmiş rastgele bir orman modeli için Census veri kümesi (ayrıca Yetişkin olarak bilinir).
Tablo 8. 14 farklı özelliğin önem düzeyi değişkendir. ziyaret edin.
Özellik | Toplam skor | Doğrulukta ortalama düşüş | AUC'deki ortalama düşüş | Ortalama minimum derinlik | Düğüm sayısı | Çin Halk Cumhuriyeti'ndeki ortalama düşüş | Kök olarak sayı |
---|---|---|---|---|---|---|---|
ilişki | 4203592,6 |
0,0045 |
0,0172 |
4,970 |
57040 |
0,0093 |
1095 |
capital_gain | 3363045,1 |
0,0199 |
0,0194 |
2,852 |
56468 |
0,0655 |
457 |
marital_status | 3128996,3 |
0,0018 |
0,0230 |
6,633 |
52391 |
0,0107 |
750 |
yaş | 2520658,8 |
0,0065 |
0,0074 |
4,969 |
356784 |
0,0033 |
200 |
education | 2015905,4 |
0,0018 |
-0,0080 |
5,266 |
115751 |
-0,0129 |
205 |
meslek | 1939409,3 |
0,0063 |
-0,0040 |
5,017 |
221935 |
-0,0060 |
62 |
education_num | 1673648,4 |
0,0023 |
-0,0066 |
6,009 |
58303 |
-0,0080 |
197 |
fnlwgt | 1564189,0 |
-0,0002 |
-0,0038 |
9,969 |
431987 |
-0,0049 |
0 |
hours_per_week | 1333976,3 |
0,0030 |
0,0007 |
6,393 |
206526 |
-0,0031 |
20 |
capital_loss | 866863,8 |
0,0060 |
0,0020 |
8,076 |
58531 |
0,0118 |
1 |
iş sınıfı | 644208,4 |
0,0025 |
-0,0019 |
9,898 |
132196 |
-0,0023 |
0 |
native_country | 538841,2 |
0,0001 |
-0,0016 |
9,434 |
67211 |
-0,0058 |
0 |
seks | 226049,3 |
0,0002 |
0,0002 |
10,911 |
37754 |
-0,0011 |
13 |
ırk | 168180,9 |
-0,0006 |
-0,0004 |
11,571 |
42262 |
-0,0031 |
0 |
Gördüğünüz gibi, değişken önemlerin farklı tanımları farklı ölçeklere sahiptir. ve özelliklerin sıralamasında farklılıklara yol açabilir.
Model yapısından gelen değişken önemler (örneğin, puan, ortalama minimum derinlik, düğüm sayısı ve kök olarak sayı) ise benzer şekilde hesaplanmıştır (bkz. "Alışveriş sepeti | Değişken önem" bölümüne bakın) bir araya geliyor.
Permütasyon değişkeninin önemi (örneğin, {accuracy, auc, pr-auc} olarak gösterilmektedir), şu ölçülere göre hesaplanabilecek modelden bağımsız ölçümlerdir: doğrulama veri kümesine sahip herhangi bir makine öğrenimi modeli Rastgele bir ormanda ancak doğrulama veri kümesi kullanmak yerine permütasyonu değişken önem derecesi olduğunu unutmayın.
SHAP (SHapley Additive exPlanations [(SHapley Additive exPlanations) )], bir modelden bağımsız olarak tek tek tahminleri veya model düzeyinde yorumlamaları açıklayabilme. (Bkz. Yorumlanabilir Makine Öğrenimi (model agnostik yorumlamaya giriş için Molnar tarafından yazılmıştır.) SHAP (şimdiki değeri) pahalıya mal olabilir, ancak karar verme konusunda önemli ölçüde hızlandı bu nedenle karar ormanlarını yorumlamak için iyi bir yöntemdir.
Kullanım örneği
Önceki derste bir CART karar ağacını küçük bir veri kümesi
tfdf.keras.CartModel
numaralı telefonu arayarak. Rastgele bir orman modeli eğitmek için
tfdf.keras.CartModel
yerine tfdf.keras.RandomForestModel
kullanın:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
Avantajlar ve dezavantajlar
Bu bölümde, rastgele ormanların avantajlarına ve dezavantajlarına dair kısa bir özet yer almaktadır.
Avantajları:
- Karar ağaçları gibi, rastgele ormanlar da yerel olarak sayısal ve kategorik özellikler içerir ve genellikle özellik ön işlemesi gerektirmez.
- Karar ağaçları bağımsız olduğu için, rastgele ormanlar kullanabilirsiniz. Sonuç olarak, rastgele ormanları hızlı bir şekilde eğitebilirsiniz.
- Rastgele ormanlar, genellikle çok iyi sonuçlar veren varsayılan parametrelere sahiptir. İnce Ayarlar bu parametrelerin model üzerinde çok az etkisi vardır.
Dezavantajları:
- Karar ağaçları budanmadığı için büyük olabilir. Daha fazla özelliğe sahip modeller 1 milyonun üzerinde düğüm yaygındır. Etiketin boyutu (ve dolayısıyla çıkarım hızı) ortaya çıkan bir sorun olabiliyor.
- Rastgele ormanlar, iç gösterimleri öğrenip yeniden kullanamaz. Her biri (ve her bir karar ağacının her dalında) projenin başarısı için veri kümesi kalıbıyla tutarlıdır. Bazı veri kümelerinde, özellikle tablo olmayan veri kümeleri (ör. metin), bu da rastgele ormanların diğer yöntemlerden daha kötü sonuçlar elde etmesine neden olur.