Bu sayfada Karar Ormanları sözlüğündeki terimler yer almaktadır. Tüm sözlük terimleri için burayı tıklayın.
A
özellik örneklemesi
Her bir kullanıcının karar verdiği bir karar ormanını eğitme taktiği karar ağacı olası yanıtların yalnızca rastgele bir alt kümesini dikkate alır durumu öğrenirken özellikleri kullanın. Genellikle, her bir özellik için farklı bir özellik alt kümesi örneklenir düğüm. Buna karşın, bir karar ağacını eğitirken özellik örnekleme olmadan, her bir düğüm için olası tüm özellikler dikkate alınır.
eksene ayarlı koşul
Karar ağacında, bir koşul tek bir özellik içeren. Örneğin, alan bir özellikse aşağıdaki eksene hizalı bir koşuldur:
area > 200
Eğik koşul ile kontrast oluşturun.
B
bagaj
Bir topluluğu eğitmek için kullanılan yöntem bileşen model rastgele bir eğitim alt kümesinde eğitilir değişiklikle örneklenen örnekler. Örneğin rastgele orman, Bagaj özelliğiyle eğitilen karar ağaçları.
bagging terimi bootstrap aggregating'in kısaltmasıdır.
ikili koşul
Karar ağacında, bir koşul genellikle evet veya hayır olmak üzere yalnızca iki olası sonuç içeren bir kampanya oluşturun. Örneğin, aşağıdaki bir ikili koşuldur:
temperature >= 100
İkili olmayan koşul ile kontrast oluşturun.
C
koşul
Karar ağacında, sizi bekleyen herhangi bir düğüm bir ifadeyi değerlendirir. Örneğin, bir karar ağacı iki koşul içerir:
Koşul, bölme veya test olarak da adlandırılır.
Yaprak ile kontrast durumu.
Şuna da bakabilirsiniz:
- ikili koşul
- olan ikili olmayan koşul hakkında daha fazla bilgi edinin.
- eksen-hizalı-durum
- eğik-koşul
D
karar ormanı
Birden fazla karar ağacından oluşturulmuş bir model. Karar ormanı, her bir kullanıcının tahmin verilerini birleştirerek üzerine konuşacağız. Popüler karar ormanları türleri arasında şunlar yer alır: rastgele ormanlar ve gradyan zengin ağaçlar.
karar ağacı
Gözetimli öğrenme modeli koşullar ve ayrılmalar hiyerarşik olarak düzenlenir. Örneğin, aşağıda bir karar ağacı gösterilmektedir:
E
entropi
İçinde bilgi teorisi, bir olasılığın ne kadar öngörülemediğinin olduğunu da bilir. Alternatif olarak entropi de bir şeyin her bir örnekde bulunan bilgileri içerir. Bir dağıtım rastgele bir değişkenin tüm değerleri şu olduğunda mümkün olan en yüksek entropi ihtimali vardır.
İki olası değere ("0") sahip bir kümenin entropisi ve "1" (örneğin, ikili program sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:
H = -p log p - q log q = -p log p - (1-p) * log (1-p) 'nı inceleyin.
Bu örnekte:
- H entropidir.
- p, "1"in kesiridir örnekler.
- q, "0"ın kesiridir örnekler. Unutmayın, q = (1 - p)
- log genellikle log2'dir. Bu durumda entropi biraz zorlaşır.
Örneğin, aşağıdakilerin geçerli olduğunu varsayalım:
- "1" değerini içeren 100 örnek
- 300 örnek "0" değerini içeriyor
Dolayısıyla entropi değeri şu şekildedir:
- y = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = Örnek başına 0,81 bit
Mükemmel dengeye sahip bir grup (örneğin, 200 "0" ve 200 "1") entropisi örnek başına 1,0 bit olur. Setler arttıkça dengesiz ise entropisi 0, 0'a doğru hareket eder.
Karar ağaçlarında entropi, formülleri bilgi edinmeye yardımcı olacak koşulları ayırıcı seçin büyümesi sırasında ihtiyaç duyacağınız her şeyi gözlemledik.
Entropiyi şununla karşılaştır:
- cin saflığı
- çapraz entropi kayıp işlevi
Entropi genellikle Shannon entropisi olarak adlandırılır.
C
özelliklerin önemi
Değişken önem dereceleri ile eş anlamlı.
Y
cin saflığı
Entropi'ye benzer bir metrik. Ayırıcılar oluşturmak için gi saflığı veya entropiden elde edilen değerleri kullanma sınıflandırma için koşulları karar ağaçları oluşturun. Bilgi kazancı entropiden türetilir. Türetilen metrik için evrensel olarak kabul edilmiş bir eşdeğer terim yoktur cin saflığından dolayı; Ancak bu adsız metrik, kampanya yönetimi kadar yardımcı olabilir.
Gini kirliliği, gini endeksi veya kısaca gini olarak da adlandırılır.
gradyan zenginleştirilmiş (karar) ağaçlar (GBT)
Aşağıdakilerin tamamlandığı bir karar ormanı türü:
- Eğitim gradyan artırma.
- Zayıf model bir karar ağacıdır.
gradyan artırma
Zayıf modellerin yinelemeli şekilde eğitildiği bir eğitim algoritması ve güçlü bir modelin kalitesini artırır (kayıpları azaltır). Örneğin, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilen tüm zayıf modellerin toplamı olur.
En basit gradyan artırma biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek üzere eğitilir. Ardından, güçlü modelin çıkışı, tahmin edilen gradyan çıkarılarak güncellenir gradyan azalmaya benzer.
Bu örnekte:
- $F_{0}$, başlangıçtaki güçlü modeldir.
- Bir sonraki güçlü model $F_{i+1}$.
- $F_{i}$ şu anki güçlü modeldir.
- $\xi$, daraltma adı verilen 0,0 ile 1,0 arasında bir değerdir, Bu, öğrenme hızı izin verilir.
- $f_{i}$, kayıp gradyanını tahmin etmek için eğitilen zayıf modeldir $F_{i}$ ekleyin.
Gradyan artırmanın modern versiyonları, ikinci türevi de içerir (Hessian) ortaya çıktı.
Karar ağaçları bir teknolojinin yönetiminde zayıf model olarak yaygın basit bir geçiş şeması oluşturabilirsiniz. Görüntüleyin gradyan artırılmış (karar) ağaçları.
I
çıkarım yolu
Bir karar ağacında, çıkarım sırasında, belirli bir örneğin diğer koşullara kök ve yaprak. Örneğin aşağıdaki karar ağacında, kalın oklar aşağıdaki gibi bir örneğin çıkarım yolunu gösterir özellik değerleri:
- x = 7
- y = 12
- z = -3
Aşağıdaki çizimde yer alan çıkarım yolu,
gereken koşulları (Zeta
) gösterir.
Üç kalın ok, çıkarım yolunu gösterir.
bilgi kazancı
Karar ormanlarında, bir düğümün entropisi ve ağırlıklı (örnek sayısına göre) alt düğümlerinin entropi toplamıdır. Düğümün entropisi, görebilirsiniz.
Örneğin, aşağıdaki entropi değerlerini dikkate alın:
- üst düğümün entropisi = 0,6
- 16 alakalı örnekle birlikte bir alt düğümün entropisi = 0,2
- 24 alakalı örnekle başka bir alt düğümün entropisi = 0,1
Yani örneklerin% 40'ı bir alt düğümde, %60'ı ise tıklayın. Bu nedenle:
- alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Yani bilgi kazancı şu şekildedir:
- bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
- bilgi kazancı = 0,6 - 0,14 = 0,46
Çoğu ayırıcı koşullar oluşturmayı amaçlar. yaygın veri türlerini konuşacağız.
setteki koşul
Karar ağacında, bir koşul bir öğenin mevcut olup olmadığını test eden bir test yöntemidir. Örneğin, aşağıda ayarlanan bir koşul verilmiştir:
house-style in [tudor, colonial, cape]
Çıkarım sırasında, ev stili özelliğin değeri
tudor
veya colonial
ya da cape
ise bu koşul Evet olarak değerlendirilir. Eğer
ev stili özelliğinin değeri başka bir şeydir (örneğin, ranch
),
bu koşul, Hayır olarak değerlendirilir.
Belirli koşullar altında genellikle tek kullanımlık kodlanmış özellikleri test eden koşulları tanımlayın.
L
yaprak
Karar ağacındaki herhangi bir uç nokta. Bir condition durumunda bir yaprak, testi gerçekleştirmez. Yaprak daha çok olası bir tahmindir. Yaprak aynı zamanda terminal Bir çıkarım yolunun düğümünü.
Örneğin, aşağıdaki karar ağacı üç yaprak içerir:
N
düğüm (karar ağacı)
Karar ağacında, condition veya yaprak.
ikili olmayan koşul
İkiden fazla olası sonuç içeren koşul. Örneğin, aşağıdaki ikili olmayan koşulda üç olası sonuçlar:
O
eğik koşul
Karar ağacında, birden fazla koşulu içeren koşul özelliği bulabilirsiniz. Örneğin, yükseklik ve genişlik özelliklerin ikisi de o zaman aşağıdaki şey eğik bir koşuldur:
height > width
Eksene ayarlı koşul ile kontrast oluşturun.
paket dışı değerlendirmesi (OOB değerlendirmesi)
Bir ürünün kalitesini değerlendiren bir mekanizma karar ormanını karar ağacını örnekler kullanılmayan eğitimi almanız gerekir. Örneğin, sistemin her karar ağacını eğittiğine dikkat edin. örneklerin yaklaşık üçte ikisi hakkında konuşuyor ve daha sonra, kalan örneğidir.
Dışarıdan yapılan değerlendirme, bilgi işlem açısından verimlidir ve muhafazakar bir yöntemdir. çapraz doğrulama mekanizmasının yaklaşık değerini gösterir. Çapraz doğrulamada, her çapraz doğrulama aşaması için bir model eğitilir (örneğin, 10 model 10 kat çapraz doğrulamayla eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. Çünkü bagaj eğitim sırasında her ağaçtan bazı verileri alıkoyar, OOB değerlendirmesi bu verileri tahmin etmek için kullanır.
P
permütasyon değişkeninin önemleri
Değerlendirmenizi yapan bir değişken önem türü bir modelin tahmin hatasındaki artışı sonra özelliğinin değerleri. Permütasyon değişkeninin önemi modelden bağımsızdır metriğine karşılık gelir.
K
rastgele orman
Google Dokümanlar'da karar ağaçlarından oluşan bir topluluk Her karar ağacının belirli bir rastgele gürültüyle eğitildiği (ör. bagaj).
Rastgele ormanlar, bir tür karar ormanıdır.
kök
Başlangıç düğüm (ilk condition) bir karar ağacında gösterilir. Genellikle diyagramlar kökü karar ağacının en üstüne yerleştirir. Örneğin:
S
değiştirme ile örnekleme
Bir adayın sürükleyici bir öğe arasından seçim yapmak için öğe birden çok kez seçilebilir. "Değişim amaçlı" ifadesi anlamı her seçimden sonra seçilen öğe havuza döndürülür. bir liste oluşturabilirsiniz. Değişim yapılmadan örnekleme olan ters yöntem aday öğe yalnızca bir kez seçilebilir.
Örneğin, şu meyve kümesini ele alalım:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sistemin ilk öğe olarak fig
öğesini rastgele seçtiğini varsayalım.
Değiştirme ile örnekleme kullanılıyorsa sistem, kullanılacak
şu kümeden ikinci öğe:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Evet, bu daha önce olduğu gibidir. Bu nedenle, sistem
tekrar fig
seçin.
Değişim yapılmadan örnekleme kullanılıyorsa bir örnek seçildikten sonra
seçim yapabilirsiniz. Örneğin, sistem rastgele bir şekilde fig
ilk örnek, ardından fig
tekrar seçilemez. Bu nedenle,
aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:
fruit = {kiwi, apple, pear, cherry, lime, mango}
küçülme
Şurada bulunan bir hyperparameter: kontrol eden gradyan artırma fazla uyum. Gradyan güçlendirmede küçülme Google Analytics 4'teki öğrenme oranına gradyan azalma. Daralma ondalık sayıdır 0,0 ile 1,0 arasında bir değere ayarlayın. Düşük büzülme değeri, fazla uyum sağlamayı azaltır daha yüksek bir küçülme değerinden daha yüksek olabilir.
Split
Karar ağacında, karar merciinin condition [durum] özelliğini gönderin.
ayırıcı
Bir karar ağacını eğitirken rutin (ve algoritma) için en iyi sonuçları condition özelliğini her düğümde gösterir.
S
test
Karar ağacında, karar merciinin condition [durum] özelliğini gönderin.
eşik (karar ağaçları için)
Eksene hizalı koşulda, öğenin özellik ile karşılaştırılıyor. Örneğin 75 eşik değeri:
grade >= 75
V
değişken önemler
Her bir metriğin göreceli önemini gösteren puan kümesi özelliğini modele eklediğinizden emin olun.
Örneğin, bir karar ağacını ev fiyatlarını tahmin eder. Bu karar ağacında üç özellikleri: boyut, yaş ve stil. Değişken önem kümesi üç özellik için şu şekilde hesaplanır: {size=5.8, age=2.5, style=4.7} ise beden yaş veya stilden çok karar ağacı var.
Farklı değişken önem metrikleri mevcuttur. Bu metrikler, Modellerin farklı yönleri hakkında makine öğrenimi uzmanları.
W
kalabalığın bilgeliği
Büyük bir grubun fikirlerinin veya tahminlerinin ortalamasını alma fikri insanlar ("kalabalık") genellikle şaşırtıcı derecede iyi sonuçlar verir. Örneğin, kullanıcıların oyununuzun sayısını tahmin ettiği bir oyun bir kavanoza paketlenmiş jelibonlar var. Çoğu bireysel yanlış olacağını bildiğinizden, tüm tahminlerin ortalaması şaşırtıcı derecede gerçek sayıya yakın olduğu, deneysel olarak bir jöle var.
Ensembles, kalabalığın bilgeliğinin bir yazılım benzetimidir. Tek tek modeller çok yanlış tahminlerde bulunsa bile birçok modelin tahminlerinin ortalamasını almak, çoğu zaman iyi tahminler. Örneğin, bir kullanıcı karar ağacı kötü tahminler yapabilir karar ormanı genellikle çok iyi tahminlerde bulunur.