Evaluasi langsung
Forest acak tidak memerlukan set data validasi. Sebagian besar forest acak menggunakan teknik yang disebut out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) untuk mengevaluasi kualitas model. Evaluasi OOB memperlakukan set pelatihan seolah-olah berada di set pengujian validasi silang.
Seperti yang dijelaskan sebelumnya, setiap pohon keputusan di forest acak biasanya dilatih pada ~67% contoh pelatihan. Oleh karena itu, setiap pohon keputusan tidak melihat ~33% dari contoh pelatihan. Ide inti dari evaluasi OOB adalah sebagai berikut:
- Untuk mengevaluasi forest acak di set pelatihan.
- Untuk setiap contoh, hanya gunakan pohon keputusan yang tidak melihat contoh selama pelatihan.
Tabel berikut mengilustrasikan evaluasi OOB atas hutan acak dengan 3 pohon keputusan yang dilatih menggunakan 6 contoh. (Ya, ini adalah tabel yang sama seperti di bagian Bagging). Tabel ini menunjukkan pohon keputusan mana yang digunakan dan contoh mana selama evaluasi OOB.
Tabel 7. Evaluasi OOB - angka ini menunjukkan frekuensi penggunaan contoh pelatihan tertentu selama pelatihan untuk contoh yang diberikan
Contoh pelatihan | Contoh untuk Evaluasi OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
set data asli | 1 | 1 | 1 | 1 | 1 | 1 | |
pohon keputusan 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
pohon keputusan 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4, dan #6 |
pohon keputusan 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 dan #5 |
Pada contoh yang ditunjukkan pada Tabel 7, prediksi OOB untuk contoh pelatihan 1 akan dihitung dengan pohon keputusan #3 (karena pohon keputusan #1 dan #2 menggunakan contoh ini untuk pelatihan). Dalam praktiknya, pada set data ukuran yang wajar dan dengan beberapa pohon keputusan, semua contoh memiliki prediksi OOB.
compute_oob_performances=True
.
Evaluasi OOB juga efektif untuk menghitung nilai penting variabel permutasi untuk model hutan acak. Ingat dari Nilai penting variabel bahwa tingkat kepentingan variabel permutasi mengukur pentingnya variabel dengan mengukur penurunan kualitas model saat variabel ini diacak. "Tingkat kepentingan variabel permutasi OOB" hutan acak adalah nilai penting variabel permutasi yang dihitung menggunakan evaluasi OOB.
compute_oob_variable_importances=True
.