Karar ağaçları için uygun veriler

Karar ağaçları, en etkili şekilde tablo biçiminde bir veri kümeniz (e-tablo, CSV dosyası veya veritabanı tablosunda temsil edebileceğiniz veriler) olduğunda çalışır. Tablo biçimindeki veriler en yaygın veri biçimlerinden biridir ve karar ağaçları, bu verileri modellemek için kullanabileceğiniz "birincil" çözümdür.

Tablo 1. Tablo biçiminde bir veri kümesi örneği.

Bacak sayısı Göz sayısı Ağırlık (lb) Tür (etiket)
2 2 12 Penguen
8 6 0,1 Örümcek
4 2 44 Köpek

Nöral ağların aksine karar ormanları, model tabular verilerini doğal olarak tüketir. Karar ağaçları geliştirirken aşağıdaki gibi görevleri yapmanız gerekmez:

  • Özellik normalleştirme veya tek sıcaklık kodlama gibi ön işlemler gerçekleştirin.
  • Doldurma işlemi gerçekleştirin (ör. eksik bir değeri -1 ile değiştirme).

Ancak karar ağaçları, resim veya metin gibi tablo dışı verileri (yapılandırılmamış veriler olarak da bilinir) doğrudan kullanmak için uygun değildir. Evet, bu sınırlamanın etrafından dolaşmanın yolları vardır ancak sinir ağları genellikle yapılandırılmamış verileri daha iyi işler.

Performans

Karar ağaçları örnek açısından verimlidir. Yani karar ağaçları, küçük veri kümelerinde veya özellik sayısı / örnek sayısı oranının yüksek olduğu (muhtemelen 1'den büyük) veri kümelerinde eğitim için çok uygundur. Karar ağaçları, tüm makine öğrenimi modelleri gibi örnek açısından verimli olsa da en iyi performansı çok fazla veri olduğunda gösterir.

Karar ağaçları, genellikle benzer sinir ağlarından daha hızlı çıkarım yapar. Örneğin, orta büyüklükte bir karar ormanı, modern bir CPU'da çıkarım işlemini birkaç mikrosaniyede gerçekleştirir.