Diğer konular

Bu birimde aşağıdaki konular incelenmektedir:

  • Rastgele ormanları yorumlama
  • rastgele ormanlar eğitimi
  • rastgele ormanların avantajları ve dezavantajları

Rastgele ormanları yorumlama

Rastgele ormanların yorumlanması, karar ağaçlarından daha karmaşıktır. Rastgele ormanlar, rastgele gürültüyle eğitilmiş karar ağaçları içerir. Bu nedenle, karar ağacı yapısı hakkında yargıda bulunmak daha zordur. Ancak rastgele orman modellerini birkaç şekilde yorumlayabiliriz.

Rastgele ormanı yorumlamanın bir yolu, CART algoritmasıyla bir karar ağacı eğitip yorumlamaktır. Hem rastgele orman hem de CART aynı temel algoritmayla eğitildiğinden veri kümesinin "aynı genel görünümünü paylaşır". Bu seçenek, basit veri kümeleri için ve modelin genel yorumunu anlamak için iyi bir seçenektir.

Değişken önemleri, yorumlanabilirlik için kullanılabilecek başka bir yaklaşımdır. Örneğin, aşağıdaki tabloda Nüfus sayımı veri kümesinde (Yetişkin olarak da bilinir) eğitilen rastgele orman modelinde farklı özelliklerin değişken önemi sıralanmıştır.

Tablo 8. 14 farklı özelliğin değişken önemi.

Özellik Toplam puan Doğruluktaki ortalama düşüş AUC'deki ortalama düşüş Ortalama minimum derinlik Düğüm sayısı PR-AUC'de ortalama düşüş Kök olarak sayı
ilişki

4203592,6

0,0045

0,0172

4.970

57040

0,0093

1095

capital_gain

3363045.1

0,0199

0,0194

2,852

56468

0,0655

457

marital_status

3128996.3

0,0018

0,0230

6,633

52391

0,0107

750

age

2520658,8

0,0065

0,0074

4.969

356784

0,0033

200

education

2015905.4

0,0018

-0,0080

5,266

115751

-0,0129

205

meslek

1939409,3

0,0063

-0,0040

5,017

221935

-0,0060

62

education_num

1673648,4

0,0023

-0,0066

6,009

58303

-0,0080

197

fnlwgt

1564189.0

-0,0002

-0,0038

9,969

431987

-0,0049

0

hours_per_week

1333976.3

0,0030

0,0007

6,393

206526

-0,0031

20

capital_loss

866863,8

0,0060

0,0020

8,076

58531

0,0118

1

iş sınıfı

644208,4

0,0025

-0,0019

9,898

132196

-0,0023

0

native_country

538841,2

0,0001

-0,0016

9,434

67211

-0,0058

0

seks

226049.3

0,0002

0,0002

10,911

37754

-0,0011

13

ırk

168180,9

-0,0006

-0,0004

11.571

42262

-0,0031

0

Gördüğünüz gibi, değişken önemlerinin farklı tanımları farklı ölçeklere sahiptir ve özelliklerin sıralamasında farklılıklara neden olabilir.

Model yapısından gelen değişken önemleri (örneğin, yukarıdaki tabloda toplam puan, ortalama minimum derinlik, num nodes ve num as root), karar ağaçları (bkz. "Alışveriş sepeti | Değişken önemi" bölümü) ve rastgele ormanlar için benzer şekilde hesaplanır.

Permütasyon değişkeni önemi (örneğin, yukarıdaki tabloda {accuracy, auc, pr-auc} için ortalama azalma), doğrulama veri kümesi olan herhangi bir makine öğrenimi modelinde hesaplanabilen modelden bağımsız ölçümlerdir. Ancak rastgele orman kullanırken doğrulama veri kümesi kullanmak yerine, torba dışı değerlendirmeyle permütasyon değişkeni önemini hesaplayabilirsiniz.

SHAP (SHapley Additive exPlanations), tek tek tahminleri veya modele göre yorumları açıklamak için modele bağlı olmayan bir yöntemdir. (Modelden bağımsız yorumlamaya giriş için Molnar'ın Interpretable Machine Learning [Açıklanabilir Makine Öğrenimi] başlıklı makalesine bakın.) SHAP'ın hesaplanmasının maliyeti genellikle yüksektir ancak karar ormanları için önemli ölçüde hızlandırılabilir. Bu nedenle, karar ormanlarını yorumlamak için iyi bir yöntemdir.

Kullanım örneği

Önceki derste, tfdf.keras.CartModel işlevini çağırarak küçük bir veri kümesinde CART karar ağacı eğittik. Rastgele orman modelini eğitmek için tfdf.keras.CartModel değerini tfdf.keras.RandomForestModel ile değiştirin:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Avantajlar ve dezavantajlar

Bu bölümde, rastgele ormanların avantaj ve dezavantajlarının kısa bir özeti yer almaktadır.

Artıları:

  • Karar ağaçları gibi rastgele ormanlar da doğal olarak sayısal ve kategorik özellikleri destekler ve genellikle özellik ön işleme gerektirmez.
  • Karar ağaçları bağımsız olduğundan rastgele ormanlar paralel olarak eğitilebilir. Sonuç olarak, rastgele ormanları hızlıca eğitebilirsiniz.
  • Rastgele ormanların genellikle mükemmel sonuçlar veren varsayılan parametreleri vardır. Bu parametrelerin ayarlanması genellikle model üzerinde çok az etkiye sahiptir.

Eksileri:

  • Karar ağaçları budanmadığı için büyük olabilir. 1 milyondan fazla düğüme sahip modeller yaygındır. Rastgele ormanın boyutu (ve dolayısıyla çıkarım hızı) bazen sorun olabilir.
  • Rastgele ormanlar, dahili temsilleri öğrenemez ve yeniden kullanamaz. Her karar ağacı (ve her karar ağacının her dalı) veri kümesi kalıbını yeniden öğrenmelidir. Bu durum, özellikle tablo dışı veri kümelerinde (ör. resim, metin) rastgele ormanların diğer yöntemlere kıyasla daha kötü sonuçlar vermesine neden olur.