Makine Öğrenimi Sözlüğü: Karar Ormanları

Bu sayfada Karar Ormanları sözlüğündeki terimler yer almaktadır. Tüm sözlük terimleri için burayı tıklayın.

A

özellik örnekleme

#df

Her bir karar ağacının, koşulu öğrenirken olası özelliklerin yalnızca rastgele bir alt kümesini dikkate aldığı bir karar ormanı eğitme taktiği. Genellikle her düğüm için farklı bir özellik alt kümesi örneklenir. Buna karşılık, bir karar ağacı eğitilirken özellik örneklemesi yapılmadığında her düğüm için olası tüm özellikler dikkate alınır.

eksenle hizalı koşul

#df

Karar ağacında yalnızca tek bir özelliği içeren bir koşul. Örneğin, area bir özellikse aşağıdaki koşul eksenle hizalanmış bir koşuldur:

area > 200

Eğik koşul ile çakışıyor.

B

torbalama

#df

Her bir bileşen modelinin, eğitim örneklerinin yerine koyma ile örneklenmiş rastgele bir alt kümesi üzerinde eğitildiği bir topluluk eğitme yöntemi. Örneğin, rastgele orman, torbalama ile eğitilmiş bir karar ağaçları koleksiyonudur.

Bagging terimi, bootstrap aggregating'in kısaltmasıdır.

Daha fazla bilgi için Karar Ormanları kursundaki Rastgele ormanlar bölümüne bakın.

ikili koşul

#df

Karar ağacında, genellikle evet veya hayır olmak üzere yalnızca iki olası sonucu olan bir koşul. Örneğin, aşağıdakiler ikili koşuldur:

temperature >= 100

Non-binary durumu ile karşılaştırın.

Daha fazla bilgi için Karar Ormanları kursundaki Koşul türleri bölümünü inceleyin.

C

koşul

#df
Karar ağacında test gerçekleştiren tüm düğümler. Örneğin, aşağıdaki karar ağacı iki koşul içerir:

İki koşuldan oluşan bir karar ağacı: (x > 0) ve (y > 0).

Koşul, bölünme veya test olarak da adlandırılır.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

Daha fazla bilgi için Karar Ormanları kursundaki Koşul türleri bölümünü inceleyin.

D

karar ormanı

#df

Birden fazla karar ağacından oluşturulan bir model. Karar ormanı, karar ağaçlarının tahminlerini toplayarak tahmin yapar. Popüler karar ormanı türleri arasında rastgele ormanlar ve gradyan artırılmış ağaçlar yer alır.

Daha fazla bilgi için Karar Ormanları kursundaki Karar Ormanları bölümüne bakın.

karar ağacı

#df

Hiyerarşik olarak düzenlenmiş bir dizi koşul ve yapraklardan oluşan bir denetimli öğrenme modeli. Örneğin, aşağıda bir karar ağacı verilmiştir:

Hiyerarşik olarak düzenlenmiş dört koşuldan oluşan ve beş yaprağa yol açan bir karar ağacı.

E

entropi

#df
#Metric

Bilgi teorisinde, bir olasılık dağılımının ne kadar tahmin edilemez olduğunun açıklamasıdır. Alternatif olarak entropi, her bir örneğin ne kadar bilgi içerdiği şeklinde de tanımlanır. Bir dağılım, rastgele değişkenin tüm değerleri eşit olasılıklı olduğunda mümkün olan en yüksek entropiye sahiptir.

"0" ve "1" olmak üzere iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma problemindeki etiketler) aşağıdaki formüle sahiptir:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

  • H, entropidir.
  • p, "1" örneklerinin kesridir.
  • q, "0" örneklerinin kesridir. q = (1 - p) olduğunu unutmayın.
  • log genellikle log2'dir. Bu durumda, entropi birimi bit'tir.

Örneğin, aşağıdakileri varsayalım:

  • 100 örnekte "1" değeri var
  • 300 örnekte "0" değeri var

Bu nedenle, entropi değeri şöyledir:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = örnek başına 0,81 bit

Mükemmel dengelenmiş bir küme (örneğin, 200 "0" ve 200 "1") örneği başına 1,0 bit entropiye sahip olur. Bir küme dengesizleştiğinde entropisi 0, 0'a doğru hareket eder.

Karar ağaçlarında entropi, bölücünün sınıflandırma karar ağacının büyümesi sırasında koşulları seçmesine yardımcı olmak için bilgi kazancını formüle etmeye yardımcı olur.

Entropiyi şunlarla karşılaştırın:

Entropiye genellikle Shannon entropisi denir.

Daha fazla bilgi için Karar Ormanları kursundaki Sayısal özelliklerle ikili sınıflandırma için tam ayırıcı başlıklı makaleyi inceleyin.

C

özellik önem düzeyleri

#df
#Metric

Değişken önemleri ile eş anlamlıdır.

G

Gini kirliliği

#df
#Metric

Entropiye benzer bir metrik. Ayırıcılar, sınıflandırma karar ağaçları için koşullar oluşturmak üzere gini kirliliğinden veya entropiden elde edilen değerleri kullanır. Bilgi kazancı, entropiden elde edilir. Gini kirliliğinden elde edilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur. Ancak bu adsız metrik, bilgi kazancı kadar önemlidir.

Gini kirliliğine Gini endeksi veya kısaca Gini de denir.

gradyan artırılmış (karar) ağaçları (GBT)

#df

Aşağıdaki özelliklere sahip bir karar ormanı türü:

Daha fazla bilgi için Karar Ormanları kursundaki Gradyan Artırılmış Karar Ağaçları bölümüne bakın.

gradyan artırma

#df

Zayıf modellerin, güçlü bir modelin kalitesini (kaybı azaltmak) yinelemeli olarak iyileştirmek için eğitildiği bir eğitim algoritması. Örneğin, zayıf bir model doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, daha önce eğitilmiş tüm zayıf modellerin toplamı haline gelir.

En basit biçimiyle gradyan artırmada, her yinelemede güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Ardından, güçlü modelin çıkışı, gradyan inişine benzer şekilde, tahmin edilen gradyan çıkarılarak güncellenir.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

  • $F_{0}$ başlangıçtaki güçlü modeldir.
  • $F_{i+1}$ ise bir sonraki güçlü modeldir.
  • $F_{i}$ mevcut güçlü modeldir.
  • $\xi$, 0,0 ile 1,0 arasında bir değerdir ve küçültme olarak adlandırılır. Bu değer, gradyan inişindeki öğrenme hızına benzer.
  • $f_{i}$, $F_{i}$'nin kayıp gradyanını tahmin etmek için eğitilmiş zayıf modeldir.

Gradyan artırmanın modern varyasyonları, hesaplamalarına kaybın ikinci türevini (Hessian) de dahil eder.

Karar ağaçları, genellikle gradyan artırmada zayıf modeller olarak kullanılır. Gradyan artırılmış (karar) ağaçları başlıklı makaleyi inceleyin.

I

çıkarım yolu

#df

Karar ağacında, çıkarım sırasında belirli bir örneğin kökten diğer koşullara doğru izlediği yol, yaprakla sonlanır. Örneğin, aşağıdaki karar ağacında daha kalın oklar, aşağıdaki özellik değerlerine sahip bir örnek için çıkarım yolunu gösterir:

  • x = 7
  • y = 12
  • z = -3

Aşağıdaki resimde çıkarım yolu, yaprağa (Zeta) ulaşmadan önce üç koşuldan geçer.

Dört koşul ve beş yapraktan oluşan bir karar ağacı.
          Kök koşul (x > 0) şeklindedir. Yanıt "Evet" olduğundan çıkarım yolu kökten bir sonraki koşula (y > 0) gider.
          Yanıt Evet olduğundan çıkarım yolu sonraki koşula (z > 0) gider. Yanıt Hayır olduğundan çıkarım yolu, yaprak (Zeta) olan terminal düğümüne gider.

Üç kalın ok, çıkarım yolunu gösterir.

Daha fazla bilgi için Karar Ormanları kursundaki Karar ağaçları bölümüne bakın.

bilgi kazancı

#df
#Metric

Karar ağaçlarında, bir düğümün entropisi ile alt düğümlerinin entropisinin örnek sayısına göre ağırlıklı toplamı arasındaki fark. Bir düğümün entropisi, o düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini ele alalım:

  • üst düğümün entropisi = 0,6
  • 16 alakalı örneğe sahip bir alt düğümün entropisi = 0,2
  • 24 alakalı örneği olan başka bir alt düğümün entropisi = 0,1

Bu nedenle, örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:

  • alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Bu nedenle, bilgi kazancı şöyledir:

  • bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
  • bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu bölücü, bilgi kazanımını en üst düzeye çıkaran koşullar oluşturmayı amaçlar.

küme içi koşul

#df

Karar ağacında, bir öğe grubunda bir öğenin varlığını test eden koşul. Örneğin, aşağıdakiler bir küme içi koşuldur:

  house-style in [tudor, colonial, cape]

Çıkarım sırasında, ev stili özelliğinin değeri tudor, colonial veya cape ise bu koşul Evet olarak değerlendirilir. Eğer ev stili özelliğinin değeri başka bir şeyse (örneğin, ranch), bu koşul Hayır olarak değerlendirilir.

Küme içi koşullar genellikle one-hot kodlu özellikleri test eden koşullara kıyasla daha verimli karar ağaçları oluşturur.

L

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Bir koşulun aksine, yaprak test yapmaz. Daha doğrusu, yaprak olası bir tahmindir. Yaprak, çıkarım yolunun son düğümüdür.

Örneğin, aşağıdaki karar ağacında üç yaprak bulunur:

Üç yaprağa yol açan iki koşullu bir karar ağacı.

Daha fazla bilgi için Karar Ormanları kursundaki Karar ağaçları bölümüne bakın.

H

düğüm (karar ağacı)

#df

Karar ağacında herhangi bir koşul veya yaprak.

İki koşullu ve üç yapraklı bir karar ağacı.

Daha fazla bilgi için Karar Ormanları kursundaki Karar Ağaçları bölümüne bakın.

ikili olmayan koşul

#df

İkiden fazla olası sonuç içeren bir koşul. Örneğin, aşağıdaki ikili olmayan koşul üç olası sonuç içerir:

Üç olası sonuçla sonuçlanan bir koşul (number_of_legs = ?). Bir sonuç (number_of_legs = 8), örümcek adlı bir yaprağa yol açar. İkinci bir sonuç (number_of_legs = 4), köpek adlı bir yaprağa yol açar. Üçüncü bir sonuç (number_of_legs = 2), penguen adlı bir yaprağa yol açar.

Daha fazla bilgi için Karar Ormanları kursundaki Koşul türleri bölümünü inceleyin.

O

eğik koşul

#df

Karar ağacında birden fazla özelliği içeren bir koşul. Örneğin, yükseklik ve genişlik özellikse aşağıdaki koşul eğik koşuldur:

  height > width

Eksenle hizalanmış koşul ile karşılaştırın.

Daha fazla bilgi için Karar Ormanları kursundaki Koşul türleri bölümünü inceleyin.

out-of-bag evaluation (OOB evaluation)

#df

Her bir karar ağacını, bu karar ağacının eğitimi sırasında kullanılmayan örneklerle karşılaştırarak karar ormanının kalitesini değerlendirme mekanizması. Örneğin, aşağıdaki şemada sistemin her karar ağacını örneklerin yaklaşık üçte ikisi üzerinde eğittiğini ve ardından örneklerin kalan üçte biri üzerinde değerlendirdiğini görebilirsiniz.

Üç karar ağacından oluşan bir karar ormanı.
          Bir karar ağacı, örneklerin üçte ikisi üzerinde eğitilir ve ardından kalan üçte biri OOB değerlendirmesi için kullanılır.
          İkinci bir karar ağacı, örneklerin önceki karar ağacından farklı olan üçte ikisi üzerinde eğitilir ve ardından önceki karar ağacından farklı olan üçte birlik bir bölümü OOB değerlendirmesi için kullanır.

Torba dışı değerlendirme, çapraz doğrulama mekanizmasının hesaplama açısından verimli ve tutarlı bir yaklaşımıdır. Çapraz doğrulama işleminde, her çapraz doğrulama turu için bir model eğitilir (örneğin, 10 katlı çapraz doğrulama işleminde 10 model eğitilir). Bant dışı değerlendirmede tek bir model eğitilir. Torbalama, eğitim sırasında her ağaçtan bazı verileri sakladığı için OOB değerlendirmesi, çapraz doğrulamayı yaklaşık olarak hesaplamak için bu verileri kullanabilir.

Daha fazla bilgi için Karar Ormanları kursundaki Torba dışı değerlendirme bölümüne bakın.

P

permütasyon değişkeni önemleri

#df
#Metric

Özellik değerleri permütasyonundan sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem derecesi türü. Permütasyonlu değişken önemi, modelden bağımsız bir metriktir.

R

rastgele orman

#df

Her karar ağacının, torbalama gibi belirli bir rastgele gürültüyle eğitildiği karar ağaçlarından oluşan bir topluluktur.

Rastgele ormanlar, bir karar ormanı türüdür.

Daha fazla bilgi için Karar Ormanları kursundaki Rastgele Orman bölümüne bakın.

kök

#df

Karar ağacındaki başlangıç düğümü (ilk koşul). Geleneksel olarak, diyagramlarda kök, karar ağacının en üstünde yer alır. Örneğin:

İki koşullu ve üç yapraklı bir karar ağacı. Başlangıç koşulu (x > 2) köktür.

G

yerine koyarak örnekleme

#df

Aynı öğenin birden çok kez seçilebildiği, bir dizi aday öğe arasından öğe seçme yöntemi. "Değiştirme ile" ifadesi, her seçimden sonra seçilen öğenin aday öğeler havuzuna geri döndürüldüğü anlamına gelir. Ters yöntem olan yerine koymadan örnekleme, aday öğenin yalnızca bir kez seçilebileceği anlamına gelir.

Örneğin, aşağıdaki meyve setini ele alalım:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin ilk öğe olarak rastgele fig öğesini seçtiğini varsayalım. Değiştirme ile örnekleme kullanılıyorsa sistem, aşağıdaki gruptan ikinci öğeyi seçer:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, bu öncekiyle aynı set olduğundan sistem fig öğesini tekrar seçebilir.

Yerine koymadan örnekleme kullanılıyorsa seçilen bir örnek tekrar seçilemez. Örneğin, sistem ilk örnek olarak rastgele fig öğesini seçerse fig tekrar seçilemez. Bu nedenle, sistem aşağıdaki (küçültülmüş) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

küçülme

#df

Gradyan artırmada aşırı uyumu kontrol eden bir hiperparametredir. Gradyan artırmada küçültme, gradyan inişindeki öğrenme hızına benzer. Küçülme, 0,0 ile 1,0 arasında bir ondalık değerdir. Daha düşük bir daralma değeri, daha yüksek bir daralma değerine kıyasla aşırı uyumu daha fazla azaltır.

Split

#df

Karar ağacında, koşulun diğer adı.

ayırıcı

#df

Karar ağacı eğitilirken her düğümde en iyi koşulu bulmaktan sorumlu rutin (ve algoritma).

T

test

#df

Karar ağacında, koşulun diğer adı.

eşik (karar ağaçları için)

#df

Eksene göre hizalanmış koşulda, özelliğin karşılaştırıldığı değer. Örneğin, aşağıdaki koşulda 75 eşik değerdir:

grade >= 75

Daha fazla bilgi için Karar Ormanları kursundaki Sayısal özelliklerle ikili sınıflandırma için tam ayırıcı başlıklı makaleyi inceleyin.

V

değişken önemleri

#df
#Metric

Her bir özelliğin model için göreli önemini gösteren bir puan grubu.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacını ele alalım. Bu karar ağacının üç özellik kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için değişken önem düzeyleri kümesi {size=5.8, age=2.5, style=4.7} olarak hesaplanırsa boyut, karar ağacı için yaş veya stilden daha önemlidir.

Farklı değişken önem metrikleri vardır. Bu metrikler, makine öğrenimi uzmanlarını modellerin farklı yönleri hakkında bilgilendirebilir.

W

kitlelerin bilgeliği

#df

Büyük bir insan grubunun ("kalabalık") görüşlerinin veya tahminlerinin ortalamasını almanın genellikle şaşırtıcı derecede iyi sonuçlar verdiği fikri. Örneğin, büyük bir kavanoza doldurulmuş sakızlı şeker sayısını tahmin etmeye dayalı bir oyunu ele alalım. Tahminlerin çoğu yanlış olsa da tüm tahminlerin ortalamasının, kavanozdaki gerçek sakız sayısı ile şaşırtıcı derecede yakın olduğu deneysel olarak gösterilmiştir.

Topluluklar, topluluğun bilgeliğinin yazılımdaki karşılığıdır. Tek tek modeller çok yanlış tahminler yapsa bile birçok modelin tahminlerinin ortalaması genellikle şaşırtıcı derecede iyi tahminler üretir. Örneğin, tek bir karar ağacı kötü tahminler yapsa da karar ormanı genellikle çok iyi tahminler yapar.