Pentingnya variabel
Pentingnya variabel (juga dikenal sebagai pentingnya fitur) adalah skor yang menunjukkan seberapa "penting" suatu fitur bagi model. Misalnya, jika untuk model tertentu dengan dua fitur input "f1" dan "f2", nilai penting variabelnya adalah {f1=5,8, f2=2,5}, maka fitur "f1" lebih "penting" bagi model daripada fitur "f2". Seperti model machine learning lainnya, pentingnya variabel adalah cara sederhana untuk memahami cara kerja hierarki keputusan.
Anda dapat menerapkan nilai penting variabel yang tidak bergantung pada model seperti nilai penting variabel permutasi, ke hierarki keputusan.
Pohon keputusan juga memiliki tingkat kepentingan variabel tertentu, seperti:
- Jumlah skor pemisahan dengan variabel tertentu.
- Jumlah node dengan variabel tertentu.
- Kedalaman rata-rata kemunculan pertama fitur di semua jalur pohon.
Pentingnya variabel dapat berbeda menurut kualitas seperti:
- semantik
- scale
- properti
Selain itu, tingkat kepentingan variabel memberikan berbagai jenis informasi tentang:
- model
- set data
- proses pelatihan
Misalnya, jumlah kondisi yang berisi fitur tertentu menunjukkan seberapa banyak pohon keputusan melihat fitur tertentu ini, yang mungkin menunjukkan tingkat kepentingan variabel. Lagi pula, algoritma pembelajaran tidak akan menggunakan fitur dalam beberapa kondisi jika tidak penting. Namun, fitur yang sama yang muncul dalam beberapa kondisi juga dapat menunjukkan bahwa model mencoba, tetapi gagal, untuk membuat generalisasi pola fitur. Misalnya, hal ini dapat terjadi jika fitur hanyalah contoh ID tanpa informasi untuk digeneralisasi.
Di sisi lain, nilai tinggi untuk kepentingan variabel permutasi tinggi menunjukkan bahwa menghapus fitur akan merugikan model, yang merupakan indikasi kepentingan variabel. Namun, jika modelnya andal, menghapus salah satu fitur mungkin tidak akan merugikan model.
Karena kepentingan variabel yang berbeda memberikan informasi tentang berbagai aspek model, melihat beberapa kepentingan variabel secara bersamaan akan memberikan informasi. Misalnya, jika sebuah fitur penting menurut semua nilai penting variabel, fitur ini kemungkinan penting. Sebagai contoh lain, jika suatu fitur memiliki kepentingan variabel "jumlah node" yang tinggi dan kepentingan variabel "permutasi" yang kecil, fitur ini mungkin sulit digeneralisasi dan dapat merusak kualitas model.
model.describe()
dan melihat tab "variable importance".
Lihat
Tutorial pemahaman model untuk detail selengkapnya.