Makine Öğrenimi Sözlüğü: Karar Ormanları

Bu sayfada Karar Ormanları sözlüğündeki terimler yer almaktadır. Tüm sözlük terimleri için burayı tıklayın.

A

özellik örneklemesi

#df

Her bir kullanıcının karar verdiği bir karar ormanını eğitme taktiği karar ağacı olası modellerin yalnızca rastgele bir alt kümesini dikkate alır durumu öğrenirken özellikleri kullanın. Genellikle, her bir özellik için farklı bir özellik alt kümesi örneklenir düğüm. Buna karşın, bir karar ağacını eğitirken özellik örnekleme olmadan, her bir düğüm için olası tüm özellikler dikkate alınır.

eksene ayarlı koşul

#df

Karar ağacında, bir koşul tek bir özellik içeren. Örneğin, alan bir özellikse aşağıdaki eksene hizalı bir koşuldur:

area > 200

Eğik koşul ile kontrast oluşturun.

B

bagaj

#df

Bir topluluğu eğitmek için kullanılan yöntem bileşen model rastgele bir eğitim alt kümesinde eğitilir değişiklikle örneklenen örnekler. Örneğin rastgele orman, Bagaj özelliğiyle eğitilen karar ağaçları.

bagging terimi bootstrap aggregating'in kısaltmasıdır.

ikili koşul

#df

Karar ağacında, bir koşul genellikle evet veya hayır olmak üzere yalnızca iki olası sonuç içeren bir kampanya oluşturun. Örneğin, aşağıdaki bir ikili koşuldur:

temperature >= 100

İkili olmayan koşul ile kontrast oluşturun.

C

koşul

#df

Karar ağacında, sizi bekleyen herhangi bir düğüm bir ifadeyi değerlendirir. Örneğin, bir karar ağacı iki koşul içerir:

Şu iki koşuldan oluşan bir karar ağacı: (x > 0) ve
          (y > 0).

Koşul, bölme veya test olarak da adlandırılır.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

D

karar ormanı

#df

Birden fazla karar ağacından oluşturulmuş bir model. Karar ormanı, her bir kullanıcının tahmin verilerini birleştirerek üzerine konuşacağız. Popüler karar ormanları türleri arasında şunlar yer alır: rastgele ormanlar ve gradyan zengin ağaçlar.

karar ağacı

#df

Gözetimli öğrenme modeli koşullar ve ayrılmalar hiyerarşik olarak düzenlenir. Örneğin, aşağıda bir karar ağacı gösterilmektedir:

Düzenlenmiş dört koşuldan oluşan bir karar ağacı
          Bu da beş yaprakla sonuçlanıyor.

E

entropi

#df

İçinde bilgi teorisi, bir olasılığın ne kadar öngörülemediğinin olduğunu da bilir. Alternatif olarak entropi de bir şeyin her bir örnekde bulunan bilgileri içerir. Bir dağıtım rastgele bir değişkenin tüm değerleri şu olduğunda mümkün olan en yüksek entropi ihtimali vardır.

İki olası değere ("0") sahip bir kümenin entropisi ve "1" (örneğin, ikili program sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:

H = -p log p - q log q = -p log p - (1-p) * log (1-p) 'nı inceleyin.

Bu örnekte:

  • H entropidir.
  • p, "1"in kesiridir örnekler.
  • q, "0"ın kesiridir örnekler. Unutmayın, q = (1 - p)
  • log genellikle log2'dir. Bu durumda entropi biraz zorlaşır.

Örneğin, aşağıdakilerin geçerli olduğunu varsayalım:

  • "1" değerini içeren 100 örnek
  • 300 örnek "0" değerini içeriyor

Dolayısıyla entropi değeri şu şekildedir:

  • y = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = Örnek başına 0,81 bit

Mükemmel dengeye sahip bir grup (örneğin, 200 "0" ve 200 "1") entropisi örnek başına 1,0 bit olur. Setler arttıkça dengesiz ise entropisi 0, 0'a doğru hareket eder.

Karar ağaçlarında entropi, formülleri bilgi edinmeye yardımcı olacak koşulları ayırıcı seçin büyümesi sırasında ihtiyaç duyacağınız her şeyi gözlemledik.

Entropiyi şununla karşılaştır:

Entropi genellikle Shannon entropisi olarak adlandırılır.

C

özelliklerin önemi

#df

Değişken önem dereceleri ile eş anlamlı.

Y

cin saflığı

#df

Entropi'ye benzer bir metrik. Ayırıcılar oluşturmak için gi saflığı veya entropiden elde edilen değerleri kullanma sınıflandırma için koşulları karar ağaçları oluşturun. Bilgi kazancı entropiden türetilir. Türetilen metrik için evrensel olarak kabul edilmiş bir eşdeğer terim yoktur cin saflığından dolayı; Ancak bu adsız metrik, kampanya yönetimi kadar yardımcı olabilir.

Gini kirliliği, gini endeksi veya kısaca gini olarak da adlandırılır.

gradyan zenginleştirilmiş (karar) ağaçlar (GBT)

#df

Aşağıdakilerin tamamlandığı bir karar ormanı türü:

gradyan artırma

#df

Zayıf modellerin yinelemeli şekilde eğitildiği bir eğitim algoritması ve güçlü bir modelin kalitesini artırır (kayıpları azaltır). Örneğin, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilen tüm zayıf modellerin toplamı olur.

En basit gradyan artırma biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek üzere eğitilir. Ardından, güçlü modelin çıkışı, tahmin edilen gradyan çıkarılarak güncellenir gradyan azalmaya benzer.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

  • $F_{0}$, başlangıçtaki güçlü modeldir.
  • Bir sonraki güçlü model $F_{i+1}$.
  • $F_{i}$ şu anki güçlü modeldir.
  • $\xi$, daraltma adı verilen 0,0 ile 1,0 arasında bir değerdir, Bu, öğrenme hızı izin verilir.
  • $f_{i}$, kayıp gradyanını tahmin etmek için eğitilen zayıf modeldir $F_{i}$ ekleyin.

Gradyan artırmanın modern versiyonları, ikinci türevi de içerir (Hessian) ortaya çıktı.

Karar ağaçları bir teknolojinin yönetiminde zayıf model olarak yaygın basit bir geçiş şeması oluşturabilirsiniz. Görüntüleyin gradyan artırılmış (karar) ağaçları.

I

çıkarım yolu

#df

Bir karar ağacında, çıkarım sırasında, belirli bir örneğin diğer koşullara kök ve yaprak. Örneğin aşağıdaki karar ağacında, kalın oklar aşağıdaki gibi bir örneğin çıkarım yolunu gösterir özellik değerleri:

  • x = 7
  • y = 12
  • z = -3

Aşağıdaki çizimde yer alan çıkarım yolu, gereken koşulları (Zeta) gösterir.

Dört koşul ve beş yapraktan oluşan bir karar ağacı.
          Kök koşulu (x > 0) şeklindedir. Cevap Evet olduğu için
          çıkarım yolu, kökten bir sonraki koşula (y > 0) gider.
          Cevap Evet olduğundan, çıkarım yolu
          sonraki koşul (z > 0). Cevap Hayır olduğu için çıkarım yolu
          yaprak olan terminal düğümüne (Zeta) gider.

Üç kalın ok, çıkarım yolunu gösterir.

bilgi kazancı

#df

Karar ormanlarında, bir düğümün entropisi ve ağırlıklı (örnek sayısına göre) alt düğümlerinin entropi toplamıdır. Düğümün entropisi, görebilirsiniz.

Örneğin, aşağıdaki entropi değerlerini dikkate alın:

  • üst düğümün entropisi = 0,6
  • 16 alakalı örnekle birlikte bir alt düğümün entropisi = 0,2
  • 24 alakalı örnekle başka bir alt düğümün entropisi = 0,1

Yani örneklerin% 40'ı bir alt düğümde, %60'ı ise tıklayın. Bu nedenle:

  • alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Yani bilgi kazancı şu şekildedir:

  • bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
  • bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu ayırıcı koşullar oluşturmayı amaçlar. yaygın veri türlerini konuşacağız.

setteki koşul

#df

Karar ağacında, bir koşul bir öğenin mevcut olup olmadığını test eden bir test yöntemidir. Örneğin, aşağıda ayarlanan bir koşul verilmiştir:

  house-style in [tudor, colonial, cape]

Çıkarım sırasında, ev stili özelliğin değeri tudor veya colonial ya da cape ise bu koşul Evet olarak değerlendirilir. Eğer ev stili özelliğinin değeri başka bir şeydir (örneğin, ranch), bu koşul, Hayır olarak değerlendirilir.

Belirli koşullar altında genellikle tek kullanımlık kodlanmış özellikleri test eden koşulları tanımlayın.

L

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Bir condition durumunda bir yaprak, testi gerçekleştirmez. Yaprak daha çok olası bir tahmindir. Yaprak aynı zamanda terminal Bir çıkarım yolunun düğümünü.

Örneğin, aşağıdaki karar ağacı üç yaprak içerir:

İki koşul içeren ve üç yapraktan oluşan bir karar ağacı.

N

düğüm (karar ağacı)

#df

Karar ağacında, condition veya yaprak.

İki koşul ve üç yapraklı bir karar ağacı.

ikili olmayan koşul

#df

İkiden fazla olası sonuç içeren koşul. Örneğin, aşağıdaki ikili olmayan koşulda üç olası sonuçlar:

Olası üç sonucu sağlayan bir koşul (number_of_legs = ?)
          yardımcı olur. Bir sonuç (number_of_legs = 8) bir yaprak sağlar
          adı verilen örümcek. İkinci bir sonuç (number_of_legs = 4) ise
          Yaprak adı verilen köpek çiçeği. Üçüncü bir sonuç (number_of_legs = 2) ise
          penguen adlı yaprak.

O

eğik koşul

#df

Karar ağacında, birden fazla koşulu içeren koşul özelliği bulabilirsiniz. Örneğin, yükseklik ve genişlik özelliklerin ikisi de o zaman aşağıdaki şey eğik bir koşuldur:

  height > width

Eksene ayarlı koşul ile kontrast oluşturun.

paket dışı değerlendirmesi (OOB değerlendirmesi)

#df

Bir ürünün kalitesini değerlendiren bir mekanizma karar ormanını karar ağacını örnekler kullanılmayan eğitimi almanız gerekir. Örneğin, sistemin her karar ağacını eğittiğine dikkat edin. örneklerin yaklaşık üçte ikisi hakkında konuşuyor ve daha sonra, kalan örneğidir.

Üç karar ağacından oluşan bir karar ormanı.
          Bir karar ağacı, örneklerin üçte ikisinde eğitilir
          geriye kalan üçte birini OOB değerlendirmesi için kullanır.
          İkinci bir karar ağacı, farklı üçte ikilik düzeyinde eğitilir
          önce verilen karar ağacına göre örnekler verir ve ardından
          OOB değerlendirmesi için kullanılan
          karar ağacı var.

Dışarıdan yapılan değerlendirme, bilgi işlem açısından verimlidir ve muhafazakar bir yöntemdir. çapraz doğrulama mekanizmasının yaklaşık değerini gösterir. Çapraz doğrulamada, her çapraz doğrulama aşaması için bir model eğitilir (örneğin, 10 model 10 kat çapraz doğrulamayla eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. Çünkü bagaj eğitim sırasında her ağaçtan bazı verileri alıkoyar, OOB değerlendirmesi bu verileri tahmin etmek için kullanır.

P

permütasyon değişkeninin önemleri

#df

Değerlendirmenizi yapan bir değişken önem türü bir modelin tahmin hatasındaki artışı sonra özelliğinin değerleri. Permütasyon değişkeninin önemi modelden bağımsızdır metriğine karşılık gelir.

K

rastgele orman

#df

Google Dokümanlar'da karar ağaçlarından oluşan bir topluluk Her karar ağacının belirli bir rastgele gürültüyle eğitildiği (ör. bagaj).

Rastgele ormanlar, bir tür karar ormanıdır.

kök

#df

Başlangıç düğüm (ilk condition) bir karar ağacında gösterilir. Genellikle diyagramlar kökü karar ağacının en üstüne yerleştirir. Örneğin:

İki koşul ve üç yapraklı bir karar ağacı. İlgili içeriği oluşturmak için kullanılan
          başlangıç koşulu (x > 2) köktür.

S

değiştirme ile örnekleme

#df

Bir adayın sürükleyici bir öğe arasından seçim yapmak için öğe birden çok kez seçilebilir. "Değişim amaçlı" ifadesi anlamı her seçimden sonra seçilen öğe havuza döndürülür. bir liste oluşturabilirsiniz. Değişim yapılmadan örnekleme olan ters yöntem aday öğe yalnızca bir kez seçilebilir.

Örneğin, şu meyve kümesini ele alalım:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin ilk öğe olarak fig öğesini rastgele seçtiğini varsayalım. Değiştirme ile örnekleme kullanılıyorsa sistem, kullanılacak şu kümeden ikinci öğe:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, bu daha önce olduğu gibidir. Bu nedenle, sistem tekrar fig seçin.

Değişim yapılmadan örnekleme kullanılıyorsa bir örnek seçildikten sonra seçim yapabilirsiniz. Örneğin, sistem rastgele bir şekilde fig ilk örnek, ardından fig tekrar seçilemez. Bu nedenle, aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

küçülme

#df

Şurada bulunan bir hyperparameter: kontrol eden gradyan artırma fazla uyum. Gradyan güçlendirmede küçülme Google Analytics 4'teki öğrenme oranına gradyan azalma. Daralma ondalık sayıdır 0,0 ile 1,0 arasında bir değere ayarlayın. Düşük büzülme değeri, fazla uyum sağlamayı azaltır daha yüksek bir küçülme değerinden daha yüksek olabilir.

Split

#df

Karar ağacında, karar merciinin condition [durum] özelliğini gönderin.

ayırıcı

#df

Bir karar ağacını eğitirken rutin (ve algoritma) için en iyi sonuçları condition özelliğini her düğümde gösterir.

S

test

#df

Karar ağacında, karar merciinin condition [durum] özelliğini gönderin.

eşik (karar ağaçları için)

#df

Eksene hizalı koşulda, öğenin özellik ile karşılaştırılıyor. Örneğin 75 eşik değeri:

grade >= 75
.

V

değişken önemler

#df

Her bir metriğin göreceli önemini gösteren puan kümesi özelliğini modele eklediğinizden emin olun.

Örneğin, bir karar ağacını ev fiyatlarını tahmin eder. Bu karar ağacında üç özellikleri: boyut, yaş ve stil. Değişken önem kümesi üç özellik için şu şekilde hesaplanır: {size=5.8, age=2.5, style=4.7} ise beden yaş veya stilden çok karar ağacı var.

Farklı değişken önem metrikleri mevcuttur. Bu metrikler, Modellerin farklı yönleri hakkında makine öğrenimi uzmanları.

W

kalabalığın bilgeliği

#df

Büyük bir grubun fikirlerinin veya tahminlerinin ortalamasını alma fikri insanlar ("kalabalık") genellikle şaşırtıcı derecede iyi sonuçlar verir. Örneğin, kullanıcıların oyununuzun sayısını tahmin ettiği bir oyun bir kavanoza paketlenmiş jelibonlar var. Çoğu bireysel yanlış olacağını bildiğinizden, tüm tahminlerin ortalaması şaşırtıcı derecede gerçek sayıya yakın olduğu, deneysel olarak bir jöle var.

Ensembles, kalabalığın bilgeliğinin bir yazılım benzetimidir. Tek tek modeller çok yanlış tahminlerde bulunsa bile birçok modelin tahminlerinin ortalamasını almak, çoğu zaman iyi tahminler. Örneğin, bir kullanıcı karar ağacı kötü tahminler yapabilir karar ormanı genellikle çok iyi tahminlerde bulunur.