Makine Öğrenimi Sözlüğü: Karar Ormanları

Bu sayfa Karar Ormanları sözlük terimlerini içerir. Tüm sözlük terimleri için burayı tıklayın.

CEVAP

özellik örnekleme

#df

Her karar ağacının durumu öğrenirken olası özelliklerin yalnızca rastgele bir alt kümesini dikkate aldığı bir karar ormanı eğitme taktiği. Genellikle her düğüm için farklı bir özellik alt kümesi örneklenir. Öte yandan, özellik örnekleme olmadan bir karar ağacını eğitirken her bir düğüm için olası tüm özellikler göz önünde bulundurulur.

eksene ayarlı koşul

#df

Karar ağacında yalnızca tek bir özellik içeren koşul. Örneğin, alan bir özellikse aşağıdakiler eksene hizalı bir koşuldur:

area > 200

Eğik durumla kontrast.

B

torbalama

#df

Bir topluluğu eğitme yönteminde, her bileşen modeli değiştirilerek örneklenmiş rastgele bir eğitim örneği alt kümesi üzerinde eğitilir. Örneğin, rastgele orman, torbalama konusunda eğitilmiş karar ağaçları koleksiyonudur.

bagaj terimi, bootstrap aggregating kelimesinin kısaltmasıdır.

ikili koşul

#df

Karar ağacında genellikle evet veya hayır olmak üzere yalnızca iki olası sonucu olan bir koşul. Örneğin, aşağıdaki ikili bir koşuldur:

temperature >= 100

İkili olmayan koşul ile kontrast.

C

koşul

#df

Karar ağacında, bir ifadeyi değerlendiren tüm düğümler. Örneğin, karar ağacının aşağıdaki bölümünde iki koşul bulunur:

İki koşuldan oluşan bir karar ağacı: (x > 0) ve (y > 0).

Koşullara ayırma veya test de denir.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

D

karar ormanı

#df

Birden fazla karar ağacından oluşturulan bir model. Bir karar ormanı, karar ağaçlarındaki tahminleri birleştirerek bir tahminde bulunur. Popüler karar ormanı türleri arasında rastgele ormanlar ve gradyan güçlendirilmiş ağaçlar yer alır.

karar ağacı

#df

Bir dizi conditions ve hiyerarşik olarak düzenlenmiş conditions oluşan gözetimli bir öğrenim modeli. Örneğin, aşağıda bir karar ağacı verilmiştir:

Hiyerarşik olarak düzenlenmiş dört koşuldan oluşan ve beş yaprak elde eden bir karar ağacı.

E

entropi

#df

Bilgi teorisinde, bir olasılık dağılımının ne kadar öngörülemez olduğuna dair bir açıklama. Alternatif olarak entropi, her örneğin ne kadar bilgi içerdiği olarak da tanımlanır. Rastgele bir değişkenin tüm değerlerinin eşit olasılığa sahip olduğu durumlarda, dağılım mümkün olan en yüksek entropiye sahip olur.

"0" ve "1" şeklinde iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

  • H, entropidir.
  • p, "1" örneklerinin oranıdır.
  • q, "0" örneklerinin oranıdır. q = (1 - p) değerine dikkat edin.
  • log genellikle log2'dir. Bu durumda entropi birimi birazdır.

Örneğin, aşağıdakileri varsayalım:

  • "1" değerini içeren 100 örnek
  • "0" değerini içeren 300 örnek

Bu durumda entropi değeri şöyle olur:

  • k = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = Örnek başına 0,81 bit

Mükemmel dengeli bir kümenin (örneğin, 200 "0" ve 200 "1") örnek başına 1,0 bitlik bir entropisi olur. Bir küme daha dengesiz hale geldikçe entropi 0, 0'a doğru ilerler.

Karar ağaçlarında entropi, bilgi kazanımının belirlenmesine yardımcı olarak bölücü'nün sınıflandırma karar ağacının gelişimi sırasında koşulları seçmesine yardımcı olur.

Entropiyi şununla karşılaştır:

Entropi genellikle Shannon entropisi olarak adlandırılır.

F

özelliğin önem düzeyi

#df

Değişken önemlerin eş anlamlısı.

G

gini kirliliği

#df

Entropi'ye benzer bir metrik. Ayırıcılar, karar ağaçları sınıflandırmak için koşulları oluşturmak amacıyla gini saflığından veya entropiden türetilen değerleri kullanır. Bilgi kazancı entropiden türetilir. Gini bozulmasından türetilen metrik için evrensel olarak kabul edilen bir eşdeğer terim yoktur, ancak bu adsız metrik, bilgi kazancı kadar önemlidir.

Gini saflığı, gini endeksi veya kısaca gini olarak da adlandırılır.

gradyan güçlendirmeli (karar) ağaçlar (GBT)

#df

Bir karar ormanı türü:

gradyan güçlendirme

#df

Zayıf modellerin, güçlü bir modelin kalitesini yinelemeli olarak iyileştirmek (kaybı azaltmak) için eğitildiği bir eğitim algoritması. Örneğin, zayıf bir model, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, daha önce eğitilmiş tüm zayıf modellerin toplamı olur.

Gradyan artırmanın en basit biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, gradyan azalmaya benzer şekilde tahmin edilen gradyan çıkarılarak güçlü modelin çıkışı güncellenir.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

  • $F_{0}$, güçlü başlangıç modelidir.
  • $F_{i+1}$, diğer güçlü modeldir.
  • $F_{i}$ şu an kullanılan güçlü model.
  • $\xi$, 0,0 ile 1,0 arasında bir değerdir. Daraltma, gradyan inişindeki öğrenme hızına benzer.
  • $f_{i}$, $F_{i}$ tutarındaki kayıp gradyanını tahmin etmek için eğitilen zayıf modeldir.

Gradyan artırmanın modern varyasyonları, hesaplamalarında kaybın ikinci türevini (Hessian) da içerir.

Karar ağaçları, gradyan güçlendirmede yaygın olarak zayıf modeller olarak kullanılır. Gradyan güçlendirmeli (karar) ağaçlara bakın.

İ

çıkarım yolu

#df

Bir karar ağacında, çıkarım sırasında belirli bir örneğin kökten diğer koşullara aldığı ve bir yaprak ile sonlandırılan rota. Örneğin, aşağıdaki karar ağacında, daha kalın oklar aşağıdaki özellik değerlerini içeren bir örnek için çıkarım yolunu gösterir:

  • x = 7
  • y = 12
  • z = -3

Aşağıdaki çizimde gösterilen çıkarım yolu, yaprağa (Zeta) ulaşmadan önce üç koşuldan geçer.

Dört koşul ve beş yapraktan oluşan bir karar ağacı.
          Kök koşulu (x > 0) şeklindedir. Yanıt Evet olduğundan, çıkarım yolu kökten sonraki koşula (y > 0) doğru ilerler.
          Yanıt Evet olduğundan, çıkarım yolu daha sonra sonraki koşula gider (z > 0). Cevap Hayır olduğu için çıkarım yolu, yaprak olan (Zeta) terminal düğümüne gider.

Üç kalın ok, çıkarım yolunu gösteriyor.

bilgi kazancı

#df

Karar ormanlarında bir düğümün entropisi ile alt düğümlerinin entropilerinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğümün entropisi, o düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini göz önünde bulundurun:

  • üst düğümün entropisi = 0,6
  • 16 alakalı örnek ile bir alt düğümün entropisi = 0,2
  • 24 ilgili örnekle birlikte başka bir alt düğümün entropisi = 0,1

Dolayısıyla, örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:

  • alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Yani bilgi kazancı:

  • bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
  • bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu bölücü, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmaya çalışır.

ayarlı koşul

#df

Karar ağacında, bir öğe kümesinde bir öğenin varlığını test eden bir koşul. Örneğin, aşağıdaki ayarlanmış bir koşuldur:

  house-style in [tudor, colonial, cape]

Çıkarım sırasında ev tarzı özellik değeri tudor veya colonial ya da cape ise bu koşul Evet olarak değerlendirilir. Ev tarzı özelliğinin değeri başka bir şeyse (örneğin, ranch) bu koşul Hayır olarak değerlendirilir.

Yerleşik koşullar genellikle tek sıcak kodlanmış özellikleri test eden koşullardan daha verimli karar ağaçları sağlar.

L

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Koşul'un aksine, yaprak test gerçekleştirmez. Daha ziyade, yaprak olası bir tahmindir. Yaprak aynı zamanda çıkarım yolunun terminal düğümüdür.

Örneğin, aşağıdaki karar ağacı üç yaprak içerir:

Üç yaprakla sonuçlanan iki koşul içeren bir karar ağacı.

N

düğüm (karar ağacı)

#df

Karar ağacında, herhangi bir koşul veya yaprak.

İki koşullu ve üç yapraklı bir karar ağacı.

ikili olmayan koşul

#df

İkiden fazla olası sonuç içeren bir koşul. Örneğin, aşağıdaki ikili olmayan koşul üç olası sonuç içerir:

Üç olası sonuç veren bir koşul (number_of_legs = ?). Bir sonuç (number_of_legs = 8), örümcek adlı bir yaprağa dönüşür. İkinci bir sonuç (number_of_legs = 4), köpek adlı bir yaprağa ulaşır. Üçüncü bir sonuç (bacak_sayısı = 2) penguen adlı bir yaprağın ortaya çıkmasını sağlar.

O

eğik durum

#df

Karar ağacında birden fazla özellik içeren bir koşul. Örneğin, yükseklik ve genişlik her iki özellik de ise, şu durumda eğik bir koşul olur:

  height > width

Eksene hizalı koşul ile kontrast.

sıradan değerlendirmesi (OOB değerlendirmesi)

#df

Her bir karar ağacının kalitesini, ilgili karar ağacının eğitimi sırasında kullanılmayan örnekler ile karşılaştırarak test ederek karar ormanının kalitesini değerlendirme mekanizması. Örneğin, aşağıdaki şemada, sistemin her bir karar ağacını örneklerin yaklaşık üçte ikisi üzerinde eğittiğine ve daha sonra kalan örneklerin üçte birine göre değerlendirme yaptığına dikkat edin.

Üç karar ağacından oluşan bir karar ormanı.
          Bir karar ağacı, örneklerin üçte ikisi üzerinde eğitilir ve ardından kalan üçte birlik kısmını OOB değerlendirmesi için kullanır.
          İkinci bir karar ağacı, örneklerin önceki karar ağacından farklı üçte ikisi üzerinde eğitilir ve ardından OOB değerlendirmesi için önceki karar ağacından farklı bir üçte birlik oran kullanır.

Torba dışı değerlendirme, çapraz doğrulama mekanizmasının hesaplama açısından verimli ve ölçülü bir yaklaşımıdır. Çapraz doğrulamada, her bir çapraz doğrulama turu için bir model eğitilir (örneğin, 10 katlık çapraz doğrulama için 10 model eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. bagaj eğitim sırasında her bir ağaçtan bazı veri tuttuğundan, OOB değerlendirmesi, çapraz doğrulamayı yaklaşık olarak belirlemek için bu verileri kullanabilir.

P

permütasyon değişkeninin önemleri

#df

Özelliğin değerlerini perspektiften sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem türü. Permütasyon değişkeninin önemi, modelden bağımsız bir metriktir.

R

Rastgele Orman

#df

Her karar ağacının, çuval gibi belirli bir rastgele gürültüyle eğitildiği bir karar ağaçları topluluğu.

Rastgele ormanlar, bir karar ormanı türüdür.

kök

#df

Bir karar ağacındaki başlangıç düğümü (ilk koşul). Kural olarak, diyagramlar kökü karar ağacının en üstüne yerleştirir. Örneğin:

İki koşullu ve üç yapraklı bir karar ağacı. Başlangıç koşulu (x > 2) köktür.

S

değiştirme ile örnekleme

#df

Aynı öğenin birden çok kez seçilebildiği bir aday öğe grubundan öğe seçme yöntemi. "Değiştirilecek" ifadesi, her seçimden sonra seçilen öğenin aday öğeler havuzuna döndürüleceği anlamına gelir. Ters yöntem olan değiştirmeden örnekleme, bir aday öğenin yalnızca bir kez seçilebileceği anlamına gelir.

Örneğin, aşağıdaki meyve grubunu ele alalım:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin fig öğesini ilk öğe olarak rastgele seçtiğini varsayalım. Değiştirme yöntemiyle örnekleme kullanılıyorsa sistem, aşağıdaki kümeden ikinci öğeyi seçer:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, bu daha önce olduğu gibi aynı. Bu nedenle sistem fig grubunu yeniden seçebilir.

Değiştirmeden örnekleme kullanılıyorsa bir numune tekrar seçilemez. Örneğin, sistem rastgele ilk örnek olarak fig değerini seçerse fig tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

küçülme

#df

gradyan güçlendirmede fazla uyumu kontrol eden bir hiperparametre. Gradyan artırmada küçülme, gradyan inişteki öğrenme hızına benzer. Daralma 0,0 ile 1,0 arasında bir ondalık değerdir. Düşük bir küçültme değeri, fazla sığdırmayı daha büyük bir küçültme değerinden daha fazla azaltır.

split

#df

Karar ağacında, koşul için başka bir ad verilir.

ayırıcı

#df

Bir karar ağacı eğitilirken her düğümde en iyi koşulu bulmaktan sorumlu rutin (ve algoritma).

T

test

#df

Karar ağacında, koşul için başka bir ad verilir.

eşik (karar ağaçları için)

#df

Eksenli koşulda, bir özelliğin karşılaştırıldığı değer. Örneğin, aşağıdaki koşulda eşik değeri 75'tir:

grade >= 75

V

değişken önemleri

#df

Her bir özelliğin model için göreli önemini gösteren puanlar.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacı ele alalım. Bu karar ağacının üç özelliği kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için bir değişken önem grubu {size=5.8, age=2.5, style=4.7} olarak hesaplanırsa karar ağacında boyut, yaş veya stilden daha önemlidir.

Makine öğrenimi uzmanlarına modellerin farklı yönleri hakkında bilgi verebilecek farklı değişken önem metrikleri vardır.

W

kalabalığın bilgeliği

#df

Büyük bir grubun ("kalabalık") düşüncelerinin veya tahminlerinin ortalamasını almanın genellikle şaşırtıcı şekilde iyi sonuçlar sağladığı fikri. Örneğin, insanların büyük bir kavanoza konulan jelibon sayısını tahmin ettiği bir oyun düşünün. Bireysel tahminlerin çoğu yanlış olsa da, tüm tahminlerin ortalamasının kavanozdaki gerçek jelibon sayısına şaşırtıcı derecede yakın olduğu gözlemlenmiştir.

Topluluklar, kalabalığın bilgeliğinin yazılım analogudur. Tek tek modeller son derece yanlış tahminler yapsa bile birçok modelin tahmininin ortalaması genellikle şaşırtıcı derecede iyi tahminler oluşturur. Örneğin, tek bir karar ağacı kötü tahminlerde bulunsa da karar ormanı genellikle çok iyi tahminlerde bulunur.