Evaluasi out-of-bag
Random forest tidak memerlukan set data validasi. Sebagian besar random forest menggunakan teknik yang disebut out-of-bag-evaluation (OOB evaluation) untuk mengevaluasi kualitas model. Evaluasi OOB memperlakukan set pelatihan seolah-olah berada di set pengujian validasi silang.
Seperti yang dijelaskan sebelumnya, setiap hierarki keputusan di random forest biasanya dilatih pada ~67% contoh pelatihan. Oleh karena itu, setiap hierarki keputusan tidak melihat ~33% contoh pelatihan. Ide inti evaluasi OOB adalah sebagai berikut:
- Untuk mengevaluasi hutan acak pada set pelatihan.
- Untuk setiap contoh, hanya gunakan pohon keputusan yang tidak melihat contoh selama pelatihan.
Tabel berikut mengilustrasikan evaluasi OOB dari random forest dengan 3 pohon keputusan yang dilatih pada 6 contoh. (Ya, ini adalah tabel yang sama seperti di bagian Pengemasan). Tabel menunjukkan pohon keputusan yang digunakan dengan contoh mana selama evaluasi OOB.
Tabel 7. Evaluasi OOB - angka tersebut menunjukkan frekuensi contoh pelatihan tertentu digunakan selama pelatihan contoh tersebut
Contoh pelatihan | Contoh untuk Evaluasi OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
set data asli | 1 | 1 | 1 | 1 | 1 | 1 | |
decision tree 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
decision tree 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4, dan #6 |
decision tree 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 dan #5 |
Dalam contoh yang ditampilkan dalam Tabel 7, prediksi OOB untuk contoh pelatihan 1 akan dihitung dengan pohon keputusan #3 (karena pohon keputusan #1 dan #2 menggunakan contoh ini untuk pelatihan). Dalam praktiknya, pada set data berukuran wajar dan dengan beberapa pohon keputusan, semua contoh memiliki prediksi OOB.
compute_oob_performances=True
.
Evaluasi OOB juga efektif untuk menghitung pentingnya variabel permutasi untuk model random forest. Ingat dari Nilai penting variabel bahwa nilai penting variabel permutasi mengukur nilai penting variabel dengan mengukur penurunan kualitas model saat variabel ini diacak. "Kepentingan variabel permutasi OOB" random forest adalah kepentingan variabel permutasi yang dihitung menggunakan evaluasi OOB.
compute_oob_variable_importances=True
.