Diğer konular

Bu ünitede aşağıdaki konular incelenmektedir:

  • rastgele ormanları yorumlama
  • rastgele ormanları eğitme
  • rastgele ormanların avantajları ve dezavantajları

Rastgele ormanları yorumlama

Rastgele ormanları yorumlamak, karar ağaçlarına göre daha karmaşıktır. Rastgele ormanlar rastgele gürültüyle eğitilen karar ağaçlarını içermelidir. Bu nedenle, potansiyel risklerin ve karar ağacının yapısı hakkında yargılarda bulunabiliriz. Ancak, rastgele durumdaki çeşitli şekillerde kullanıma sunuyor.

Rastgele bir ormanı yorumlamaya yönelik yaklaşımlardan biri, bir bitkiyi eğitmek karar ağacını kullanır. Çünkü hem rastgele orman hem de CART aynı temel algoritmayla eğitildiğinden, "aynı küresel görünümü paylaşırlar" veri kümesiyle eşleştirilir. Bu seçenek, basit veri kümelerinde işe yarar ve modelin genel yorumu.

Değişken önemleri de yorumlanabilirlik açısından iyidir. bahsedeceğiz. Örneğin, aşağıdaki tabloda her bir maddeye ilişkin değişken önem derecesi eğitilmiş rastgele bir orman modeli için Census veri kümesi (ayrıca Yetişkin olarak bilinir).

Tablo 8. 14 farklı özelliğin önem düzeyi değişkendir. ziyaret edin.

Özellik Toplam skor Doğrulukta ortalama düşüş AUC'deki ortalama düşüş Ortalama minimum derinlik Düğüm sayısı Çin Halk Cumhuriyeti'ndeki ortalama düşüş Kök olarak sayı
ilişki

4203592,6

0,0045

0,0172

4,970

57040

0,0093

1095

capital_gain

3363045,1

0,0199

0,0194

2,852

56468

0,0655

457

marital_status

3128996,3

0,0018

0,0230

6,633

52391

0,0107

750

yaş

2520658,8

0,0065

0,0074

4,969

356784

0,0033

200

education

2015905,4

0,0018

-0,0080

5,266

115751

-0,0129

205

meslek

1939409,3

0,0063

-0,0040

5,017

221935

-0,0060

62

education_num

1673648,4

0,0023

-0,0066

6,009

58303

-0,0080

197

fnlwgt

1564189,0

-0,0002

-0,0038

9,969

431987

-0,0049

0

hours_per_week

1333976,3

0,0030

0,0007

6,393

206526

-0,0031

20

capital_loss

866863,8

0,0060

0,0020

8,076

58531

0,0118

1

iş sınıfı

644208,4

0,0025

-0,0019

9,898

132196

-0,0023

0

native_country

538841,2

0,0001

-0,0016

9,434

67211

-0,0058

0

seks

226049,3

0,0002

0,0002

10,911

37754

-0,0011

13

ırk

168180,9

-0,0006

-0,0004

11,571

42262

-0,0031

0

Gördüğünüz gibi, değişken önemlerin farklı tanımları farklı ölçeklere sahiptir. ve özelliklerin sıralamasında farklılıklara yol açabilir.

Model yapısından gelen değişken önemler (örneğin, puan, ortalama minimum derinlik, düğüm sayısı ve kök olarak sayı) ise benzer şekilde hesaplanmıştır (bkz. "Alışveriş sepeti | Değişken önem" bölümüne bakın) bir araya geliyor.

Permütasyon değişkeninin önemi (örneğin, {accuracy, auc, pr-auc} olarak gösterilmektedir), şu ölçülere göre hesaplanabilecek modelden bağımsız ölçümlerdir: doğrulama veri kümesine sahip herhangi bir makine öğrenimi modeli Rastgele bir ormanda ancak doğrulama veri kümesi kullanmak yerine permütasyonu değişken önem derecesi olduğunu unutmayın.

SHAP (SHapley Additive exPlanations [(SHapley Additive exPlanations) )], bir modelden bağımsız olarak tek tek tahminleri veya model düzeyinde yorumlamaları açıklayabilme. (Bkz. Yorumlanabilir Makine Öğrenimi (model agnostik yorumlamaya giriş için Molnar tarafından yazılmıştır.) SHAP (şimdiki değeri) pahalıya mal olabilir, ancak karar verme konusunda önemli ölçüde hızlandı bu nedenle karar ormanlarını yorumlamak için iyi bir yöntemdir.

Kullanım örneği

Önceki derste bir CART karar ağacını küçük bir veri kümesi tfdf.keras.CartModel numaralı telefonu arayarak. Rastgele bir orman modeli eğitmek için tfdf.keras.CartModel yerine tfdf.keras.RandomForestModel kullanın:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Avantajlar ve dezavantajlar

Bu bölümde, rastgele ormanların avantajlarına ve dezavantajlarına dair kısa bir özet yer almaktadır.

Avantajları:

  • Karar ağaçları gibi, rastgele ormanlar da yerel olarak sayısal ve kategorik özellikler içerir ve genellikle özellik ön işlemesi gerektirmez.
  • Karar ağaçları bağımsız olduğu için, rastgele ormanlar kullanabilirsiniz. Sonuç olarak, rastgele ormanları hızlı bir şekilde eğitebilirsiniz.
  • Rastgele ormanlar, genellikle çok iyi sonuçlar veren varsayılan parametrelere sahiptir. İnce Ayarlar bu parametrelerin model üzerinde çok az etkisi vardır.

Dezavantajları:

  • Karar ağaçları budanmadığı için büyük olabilir. Daha fazla özelliğe sahip modeller 1 milyonun üzerinde düğüm yaygındır. Etiketin boyutu (ve dolayısıyla çıkarım hızı) ortaya çıkan bir sorun olabiliyor.
  • Rastgele ormanlar, iç gösterimleri öğrenip yeniden kullanamaz. Her biri (ve her bir karar ağacının her dalında) projenin başarısı için veri kümesi kalıbıyla tutarlıdır. Bazı veri kümelerinde, özellikle tablo olmayan veri kümeleri (ör. metin), bu da rastgele ormanların diğer yöntemlerden daha kötü sonuçlar elde etmesine neden olur.