Bu birimde aşağıdaki konular incelenmektedir:
- Rastgele ormanları yorumlama
- rastgele ormanlar eğitimi
- rastgele ormanların avantajları ve dezavantajları
Rastgele ormanları yorumlama
Rastgele ormanların yorumlanması, karar ağaçlarından daha karmaşıktır. Rastgele ormanlar, rastgele gürültüyle eğitilmiş karar ağaçları içerir. Bu nedenle, karar ağacı yapısı hakkında yargıda bulunmak daha zordur. Ancak rastgele orman modellerini birkaç şekilde yorumlayabiliriz.
Rastgele ormanı yorumlamanın bir yolu, CART algoritmasıyla bir karar ağacı eğitip yorumlamaktır. Hem rastgele orman hem de CART aynı temel algoritmayla eğitildiğinden veri kümesinin "aynı genel görünümünü paylaşır". Bu seçenek, basit veri kümeleri için ve modelin genel yorumunu anlamak için iyi bir seçenektir.
Değişken önemleri, yorumlanabilirlik için kullanılabilecek başka bir yaklaşımdır. Örneğin, aşağıdaki tabloda Nüfus sayımı veri kümesinde (Yetişkin olarak da bilinir) eğitilen rastgele orman modelinde farklı özelliklerin değişken önemi sıralanmıştır.
Tablo 8. 14 farklı özelliğin değişken önemi.
Özellik | Toplam puan | Doğruluktaki ortalama düşüş | AUC'deki ortalama düşüş | Ortalama minimum derinlik | Düğüm sayısı | PR-AUC'de ortalama düşüş | Kök olarak sayı |
---|---|---|---|---|---|---|---|
ilişki | 4203592,6 |
0,0045 |
0,0172 |
4.970 |
57040 |
0,0093 |
1095 |
capital_gain | 3363045.1 |
0,0199 |
0,0194 |
2,852 |
56468 |
0,0655 |
457 |
marital_status | 3128996.3 |
0,0018 |
0,0230 |
6,633 |
52391 |
0,0107 |
750 |
age | 2520658,8 |
0,0065 |
0,0074 |
4.969 |
356784 |
0,0033 |
200 |
education | 2015905.4 |
0,0018 |
-0,0080 |
5,266 |
115751 |
-0,0129 |
205 |
meslek | 1939409,3 |
0,0063 |
-0,0040 |
5,017 |
221935 |
-0,0060 |
62 |
education_num | 1673648,4 |
0,0023 |
-0,0066 |
6,009 |
58303 |
-0,0080 |
197 |
fnlwgt | 1564189.0 |
-0,0002 |
-0,0038 |
9,969 |
431987 |
-0,0049 |
0 |
hours_per_week | 1333976.3 |
0,0030 |
0,0007 |
6,393 |
206526 |
-0,0031 |
20 |
capital_loss | 866863,8 |
0,0060 |
0,0020 |
8,076 |
58531 |
0,0118 |
1 |
iş sınıfı | 644208,4 |
0,0025 |
-0,0019 |
9,898 |
132196 |
-0,0023 |
0 |
native_country | 538841,2 |
0,0001 |
-0,0016 |
9,434 |
67211 |
-0,0058 |
0 |
seks | 226049.3 |
0,0002 |
0,0002 |
10,911 |
37754 |
-0,0011 |
13 |
ırk | 168180,9 |
-0,0006 |
-0,0004 |
11.571 |
42262 |
-0,0031 |
0 |
Gördüğünüz gibi, değişken önemlerinin farklı tanımları farklı ölçeklere sahiptir ve özelliklerin sıralamasında farklılıklara neden olabilir.
Model yapısından gelen değişken önemleri (örneğin, yukarıdaki tabloda toplam puan, ortalama minimum derinlik, num nodes ve num as root), karar ağaçları (bkz. "Alışveriş sepeti | Değişken önemi" bölümü) ve rastgele ormanlar için benzer şekilde hesaplanır.
Permütasyon değişkeni önemi (örneğin, yukarıdaki tabloda {accuracy, auc, pr-auc} için ortalama azalma), doğrulama veri kümesi olan herhangi bir makine öğrenimi modelinde hesaplanabilen modelden bağımsız ölçümlerdir. Ancak rastgele orman kullanırken doğrulama veri kümesi kullanmak yerine, torba dışı değerlendirmeyle permütasyon değişkeni önemini hesaplayabilirsiniz.
SHAP (SHapley Additive exPlanations), tek tek tahminleri veya modele göre yorumları açıklamak için modele bağlı olmayan bir yöntemdir. (Modelden bağımsız yorumlamaya giriş için Molnar'ın Interpretable Machine Learning [Açıklanabilir Makine Öğrenimi] başlıklı makalesine bakın.) SHAP'ın hesaplanmasının maliyeti genellikle yüksektir ancak karar ormanları için önemli ölçüde hızlandırılabilir. Bu nedenle, karar ormanlarını yorumlamak için iyi bir yöntemdir.
Kullanım örneği
Önceki derste, tfdf.keras.CartModel
işlevini çağırarak küçük bir veri kümesinde CART karar ağacı eğittik. Rastgele orman modelini eğitmek için tfdf.keras.CartModel
değerini tfdf.keras.RandomForestModel
ile değiştirin:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
Avantajlar ve dezavantajlar
Bu bölümde, rastgele ormanların avantaj ve dezavantajlarının kısa bir özeti yer almaktadır.
Artıları:
- Karar ağaçları gibi rastgele ormanlar da doğal olarak sayısal ve kategorik özellikleri destekler ve genellikle özellik ön işleme gerektirmez.
- Karar ağaçları bağımsız olduğundan rastgele ormanlar paralel olarak eğitilebilir. Sonuç olarak, rastgele ormanları hızlıca eğitebilirsiniz.
- Rastgele ormanların genellikle mükemmel sonuçlar veren varsayılan parametreleri vardır. Bu parametrelerin ayarlanması genellikle model üzerinde çok az etkiye sahiptir.
Eksileri:
- Karar ağaçları budanmadığı için büyük olabilir. 1 milyondan fazla düğüme sahip modeller yaygındır. Rastgele ormanın boyutu (ve dolayısıyla çıkarım hızı) bazen sorun olabilir.
- Rastgele ormanlar, dahili temsilleri öğrenemez ve yeniden kullanamaz. Her karar ağacı (ve her karar ağacının her dalı) veri kümesi kalıbını yeniden öğrenmelidir. Bu durum, özellikle tablo dışı veri kümelerinde (ör. resim, metin) rastgele ormanların diğer yöntemlere kıyasla daha kötü sonuçlar vermesine neden olur.