Hutan keputusan paling efektif jika Anda memiliki set data berbentuk tabel (data yang mungkin Anda wakili di spreadsheet, file csv, atau tabel database). Data tabel adalah salah satu format data yang paling umum, dan hutan keputusan harus menjadi solusi "tujuan" Anda untuk pemodelannya.
Tabel 1. Contoh set data berbentuk tabel.
Jumlah kaki | Jumlah mata | Berat (lbs) | Spesies (label) |
---|---|---|---|
2 | 2 | 12 | Penguin |
8 | 6 | 0,1 | Laba-laba |
4 | 2 | 44 | Anjing |
… | … | … | … |
Tidak seperti jaringan neural, hutan keputusan secara native menggunakan data tabel model. Saat mengembangkan hutan keputusan, Anda tidak perlu melakukan tugas seperti berikut:
- Lakukan pra-pemrosesan seperti normalisasi fitur atau encoding satu kali.
- Melakukan imputasi (misalnya, mengganti nilai yang tidak ada dengan
-1
).
Namun, hutan keputusan tidak terlalu cocok untuk langsung menggunakan data tidak berbentuk tabel (juga disebut data tidak terstruktur), seperti gambar atau teks. Ya, solusi untuk batasan ini memang ada, tetapi jaringan neural umumnya menangani data tidak terstruktur dengan lebih baik.
Performa
Hutan keputusan adalah sampel yang efisien. Artinya, hutan keputusan sangat cocok untuk pelatihan pada set data kecil, atau pada set data dengan rasio jumlah fitur / jumlah contoh tinggi (mungkin lebih besar dari 1). Meskipun hutan keputusan adalah contoh yang efisien, seperti semua model machine learning, hutan keputusan berfungsi paling baik saat banyak data yang tersedia.
Hutan keputusan biasanya menyimpulkan lebih cepat daripada jaringan neural yang sebanding. Misalnya, hutan keputusan berukuran sedang menjalankan inferensi dalam beberapa mikrodetik pada CPU modern.