Nilai penting variabel
Tingkat kepentingan variabel (juga dikenal sebagai penting fitur) adalah skor yang menunjukkan seberapa "penting" fitur bagi model. Misalnya, jika untuk model tertentu dengan dua fitur input "f1" dan "f2", nilai penting variabel adalah {f1=5.8, f2=2.5}, maka fitur "f1" lebih "penting" bagi model daripada fitur "f2". Seperti model machine learning lainnya, kepentingan variabel adalah cara sederhana untuk memahami cara kerja pohon keputusan.
Anda dapat menerapkan nilai penting variabel agnostik model seperti nilai penting variabel permutasi, ke hierarki keputusan.
Pohon keputusan juga memiliki kepentingan variabel tertentu, seperti:
- Jumlah skor pemisahan dengan variabel tertentu.
- Jumlah node dengan variabel yang ditentukan.
- Kedalaman rata-rata kemunculan fitur pertama di semua jalur hierarki.
Nilai penting variabel dapat berbeda berdasarkan kualitas seperti:
- semantik
- scale
- properti
Selain itu, nilai penting variabel memberikan berbagai jenis informasi tentang:
- model
- set data
- proses pelatihan
Misalnya, jumlah kondisi yang berisi fitur tertentu menunjukkan seberapa besar pohon keputusan melihat fitur khusus ini, yang mungkin menunjukkan tingkat kepentingan variabel. Lagi pula, algoritma pembelajaran tidak akan menggunakan fitur dalam berbagai kondisi jika hal itu tidak penting. Akan tetapi, fitur yang sama yang muncul dalam beberapa kondisi juga dapat mengindikasikan bahwa suatu model mencoba tetapi gagal menggeneralisasi pola fitur. Misalnya, hal ini dapat terjadi jika fitur hanya merupakan ID contoh tanpa informasi untuk digeneralisasi.
Di sisi lain, nilai yang tinggi untuk nilai penting variabel permutasi yang tinggi menunjukkan bahwa menghapus fitur dapat merusak model, yang merupakan indikasi pentingnya variabel. Namun, jika modelnya kuat, menghapus fitur apa pun mungkin tidak akan merusak model.
Karena nilai penting variabel yang berbeda menginformasikan berbagai aspek model yang berbeda, mengamati beberapa nilai penting variabel secara bersamaan bersifat informatif. Misalnya, jika suatu fitur penting sesuai dengan semua nilai penting variabel, fitur ini kemungkinan adalah penting. Contoh lain, jika fitur memiliki tingkat kepentingan variabel "jumlah node" yang tinggi dan tingkat kepentingan variabel "permutasi" yang kecil, fitur ini mungkin sulit digeneralisasi dan dapat menurunkan kualitas model.
model.describe()
dan melihat tab "nilai penting variabel".
Lihat
Tutorial pemahaman model untuk mengetahui detail selengkapnya.