Hutan keputusan paling efektif jika Anda memiliki set data tabel (data yang mungkin Anda tampilkan dalam spreadsheet, file csv, atau tabel database). Data tabel adalah salah satu format data yang paling umum, dan hutan keputusan harus menjadi solusi “utama” Anda untuk membuat modelnya.
Tabel 1. Contoh set data tabular.
Jumlah segmen | Jumlah mata | Berat (pon) | Spesies (label) |
---|---|---|---|
2 | 2 | 12 | Penguin |
8 | 6 | 0,1 | Laba-laba |
4 | 2 | 44 | Anjing |
… | … | … | … |
Tidak seperti jaringan neural, hutan keputusan secara native menggunakan data tabel model. Saat mengembangkan hutan keputusan, Anda tidak perlu melakukan tugas seperti berikut:
- Lakukan prapemrosesan seperti normalisasi fitur atau encoding one-hot.
- Melakukan imputasi (misalnya, mengganti nilai yang hilang dengan
-1
).
Namun, hutan keputusan tidak cocok untuk menggunakan data non-tabel secara langsung (juga disebut data tidak terstruktur), seperti gambar atau teks. Ya, ada solusi untuk batasan ini, tetapi jaringan neural umumnya menangani data yang tidak terstruktur dengan lebih baik.
Performa
Hutan keputusan efisien dalam pengambilan sampel. Artinya, hutan keputusan sangat cocok untuk pelatihan pada set data kecil, atau pada set data dengan rasio jumlah fitur / jumlah contoh yang tinggi (mungkin lebih besar dari 1). Meskipun hutan keputusan efisien dalam sampel, seperti semua model machine learning, hutan keputusan berperforma terbaik jika banyak data tersedia.
Hutan keputusan biasanya menyimpulkan lebih cepat daripada jaringan neural yang sebanding. Misalnya, hutan keputusan berukuran sedang menjalankan inferensi dalam beberapa mikrodetik pada CPU modern.