Berikut adalah ringkasan singkat tentang hal-hal yang telah Anda pelajari dalam kursus ini:
- Pohon keputusan adalah model
yang terdiri dari kumpulan
kondisi yang diatur
secara hierarkis dalam bentuk hierarki. Kondisi termasuk dalam berbagai
kategori:
- Kondisi yang sejajar dengan sumbu hanya melibatkan satu fitur. Kondisi miring melibatkan beberapa fitur.
- Kondisi biner memiliki dua kemungkinan hasil. Kondisi non-biner memiliki lebih dari dua kemungkinan hasil.
- Melatih pohon keputusan melibatkan penelusuran kondisi terbaik di setiap node. Rutinitas pemisah menggunakan metrik seperti informasi mendapatkan atau Gini untuk menentukan kondisi terbaik.
- Hutan keputusan adalah mode yang dibuat dari beberapa pohon keputusan. Prediksi hutan keputusan adalah agregasi prediksi pohon keputusannya.
- Hutan acak adalah kumpulan pohon keputusan yang setiap pohon keputusannya dilatih dengan derau acak tertentu.
- Bagging adalah teknik yang setiap pohon keputusannya di hutan acak dilatih pada subset contoh yang berbeda.
- Random forest tidak memerlukan set data validasi. Sebagai gantinya, sebagian besar hutan acak menggunakan teknik yang disebut out-of-bag-evaluation untuk mengevaluasi kualitas model.
- Pohon (keputusan) yang ditingkatkan dengan gradien adalah jenis hutan keputusan yang dilatih melalui penyesuaian iteratif dari pohon keputusan input. Nilai yang disebut penyusutan mengontrol kecepatan pohon (keputusan) yang ditingkatkan gradien belajar dan tingkat kesesuaiannya.
Referensi
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Bab 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway