Diğer konular

Bu ünitede şu konular incelenmektedir:

  • rastgele ormanları yorumlama
  • rastgele orman eğitme
  • Rastgele ormanların avantajları ve dezavantajları

Rastgele ormanları yorumlama

Rastgele ormanlar, yorum ağaçlarından daha karmaşıktır. Rastgele ormanlar, rastgele gürültüyle eğitilmiş karar ağaçları içerir. Bu nedenle, karar verme yapısına karar vermek daha zordur. Ancak, rastgele orman modellerini birkaç şekilde yorumlayabiliriz.

Rastgele bir orduyu yorumlamaya yönelik yaklaşımlardan biri, bir karar ağacını CART algoritmasıyla eğitmek ve yorumlamaktır. Hem rastgele orman hem de CART aynı çekirdek algoritmayla eğitildiğinden, veri kümesinin aynı küresel görünümünü paylaşırlar. Bu seçenek, basit veri kümelerinde ve modelin genel genelindeki yorumunu anlamak için iyi sonuç verir.

Değişken önem dereceleri de yorumlanabilirlik açısından iyi bir yaklaşımdır. Örneğin aşağıdaki tabloda, Nüfus sayımı veri kümesi (Yetişkinler olarak da bilinir) üzerinde eğitilen rastgele orman modeli için farklı özelliklerin değişken önem derecesi sıralanmıştır.

Tablo 8. 14 farklı özelliğin önem derecesi.

Özellik Toplam puan Doğruluğun ortalama düşüşü UAC'deki ortalama düşüş Ortalama derinlik Düğüm sayısı PR-UUC'deki ortalama düşüş Kök olarak sayı
ilişki

4203592,6

0,0045

0,0172

4,970

57040

0,0093

1095

büyük_kazanç

3363045,1

0,0199

0,0194

2,852

56468

0,0655

457

marital_durumu

3128996,3

0,0018

0,0230

6,633

52391

0,0107

750

age

2520658,8

0,0065

0,0074

4,969

356784

0,0033

200

eğitim

2015905

0,0018

-0,0080

5,266

115751

-0,0129

205

meslek

1939409,3

0,0063

-0,0040

5,017

221935

-0,0060

62

eğitim_numarası

1673648,4

0,0023

-0,0066

6,009

58303

-0,0080

197

fnlwgt [fnlwgt]

1564189,0

-0,0002

-0,0038

9,969

431987

-0,0049

0

saat_haftası

1333976,3

0,0030

0,0007

6,393

206526

-0,0031

20

sermaye_kaybı

866863,8

0,0060

0,0020

8,076

58531

0,0118

1

iş sınıfı

644208,4

0,0025

-0,0019

9,898

132196

-0,0023

0

local_country [yerel_ülke]

538841,2

0,0001

-0,0016

9,434

67211

-0,0058

0

cinsiyet

226049,3

0,0002

0,0002

10,911

37754

-0,0011

13

ırk

168180,9

-0,0006

-0,0004

11,571

42262

-0,0031

0

Gördüğünüz gibi, değişken önem derecelerinin farklı tanımları farklı ölçeklere sahiptir ve özelliklerin sıralamasında farklılıklara yol açabilir.

Model yapısından elde edilen değişken önemler (örneğin, toplam puan, ortalama min. derinlik, düğüm sayısı ve yukarıdaki tabloda kök olarak sayı), karar ağaçları (bkz. "Alışveriş Sepeti | Değişken önem derecesi" bölümü) ve rastgele ormanlar için benzer şekilde hesaplanır.

Permütasyon değişkeninin önemi (örneğin, yukarıdaki tabloda {accuracy, auc, pr-auc} açısından ortalama düşüş), doğrulama veri kümesi içeren herhangi bir makine öğrenimi modelinde hesaplanabilecek model bağımsız bağımsız önlemlerdir. Ancak rastgele ormanda, doğrulama veri kümesi kullanmak yerine permütasyon değişkenin önem derecesini çanta dışı değerlendirmeyle hesaplayabilirsiniz.

SHAP (Shapley Katkı exPlanations), bağımsız tahminleri veya model odaklı yorumları açıklamak için kullanılan ve modelden bağımsız bir yöntemdir. (Modelden bağımsız yorumlamaya giriş için Molnar'dan Yorumlanabilir Makine Öğrenimi'ne bakın.) SHAP'nin hesaplanması genellikle pahalıdır ancak karar ormanları için önemli ölçüde hızlandırılabilir. Bu yüzden, karar ormanlarını yorumlamak için iyi bir yoldur.

Kullanım örneği

Önceki derste, tfdf.keras.CartModel çağırarak küçük bir veri kümesinde CART karar ağacı eğittik. Rastgele bir orman modeli eğitmek için tfdf.keras.CartModel değerini tfdf.keras.RandomForestModel ile değiştirmeniz yeterlidir:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

Avantajlar ve dezavantajlar

Bu bölümde, rastgele ormanların avantajları ve dezavantajlarının kısa bir özeti sunulmaktadır.

Avantajları:

  • Karar ağaçlarında olduğu gibi rastgele ormanlar da yerel olarak sayısal ve kategorik özellikleri destekler ve genellikle özellik ön işlemesi gerektirmez.
  • Karar ağaçları bağımsız olduğundan rastgele ormanlar paralel olarak eğitilebilir. Bunun sonucunda rastgele ormanları hızlıca eğitebilirsiniz.
  • Rastgele ormanlar, genellikle çok iyi sonuçlar sağlayan varsayılan parametrelere sahiptir. Bu parametreleri ayarlamanın model üzerindeki etkisi genellikle çok azdır.

Dezavantajları:

  • Karar ağaçları kırpılmadığı için büyük olabilir. 1 milyondan fazla düğümü olan modeller yaygındır. Rastgele ormanın boyutu (ve dolayısıyla çıkarım hızı) bazen sorun olabilir.
  • Rastgele ormanlar iç temsilleri öğrenemez ve yeniden kullanamaz. Her karar ağacı (ve her karar ağacının her bir dalı) veri kümesi kalıbını yeniden öğrenmelidir. Bu, bazı veri kümelerinde, özellikle de tablo olmayan veri kümesinde (ör. resim, metin) rastgele ormanlara diğer yöntemlerden daha kötü sonuçlar verir.