Halaman ini berisi istilah glosarium Hutan Keputusan. Untuk semua istilah glosarium, klik di sini.
A
sampling atribut
Taktik untuk melatih hutan keputusan yang masing-masing pohon keputusan hanya mempertimbangkan subset acak dari fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, ketika melatih pohon keputusan tanpa sampling atribut, semua fitur yang mungkin akan dipertimbangkan untuk setiap node.
kondisi sejajar sumbu
Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut ini adalah kondisi yang sejajar sumbu:
area > 200
Berbeda dengan kondisi miring.
B
mengantongi
Metode untuk melatih ensemble di mana masing-masing model konstituen dilatih pada subset pelatihan acak contoh diambil sampel dengan pengganti. Misalnya, random forest adalah kumpulan dari pohon keputusan yang dilatih dengan pengangkutan.
Istilah bagging adalah singkatan dari bootstrap aggregating.
kondisi biner
Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:
temperature >= 100
Berbeda dengan kondisi non-biner.
C
kondisi
Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikutnya dari pohon keputusan mengandung dua syarat:
Kondisi juga disebut pemisahan atau pengujian.
Membandingkan kondisi dengan leaf.
Lihat juga:
D
hutan keputusan
Model yang dibuat dari beberapa hierarki keputusan. {i>Forest<i} keputusan membuat prediksi dengan menggabungkan prediksi dari pohon keputusannya. Jenis hutan keputusan yang populer antara lain forest acak dan pohon yang ditingkatkan gradien.
pohon keputusan (decision tree)
Model supervised learning yang terdiri dari serangkaian conditions dan leaf diatur secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:
E
entropi
Di beberapa teori informasi, deskripsi tentang bagaimana tingkat probabilitas yang tidak dapat diprediksi distribusinya. Atau, entropi juga didefinisikan sebagai berapa banyak informasi yang terdapat dalam setiap contoh. Suatu distribusi memiliki entropi tertinggi ketika semua nilai variabel acak memiliki kemungkinan yang sama.
Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label pada masalah klasifikasi biner) memiliki formula berikut:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dalam hal ini:
- H adalah entropi.
- p adalah pecahan dari "1" contoh.
- q adalah pecahan dari "0" contoh. Perhatikan bahwa q = (1 - p)
- log umumnya adalah log2. Dalam hal ini, entropi sedikit.
Misalnya, anggap saja hal berikut:
- 100 contoh berisi nilai "1"
- 300 contoh berisi nilai "0"
Oleh karena itu, nilai entropinya adalah:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh
Set yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.
Dalam pohon keputusan, entropi membantu merumuskan pengumpulan informasi untuk membantu pemisah pilih kondisi selama pertumbuhan pohon keputusan klasifikasi.
Bandingkan entropi dengan:
- kotoran gini
- Fungsi kerugian lintas entropi
Entropi sering disebut entropi Shannon.
F
tingkat kepentingan fitur
Sinonim dari variabel penting.
G
ketidakmurnian gini
Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari ketidakmurnian gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Pengumpulan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari ketidakmurnian gini; Namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.
Kotoran gini juga disebut indeks gini, atau gini saja.
gradient boosted (decision) tree (GBT)
Jenis hutan keputusan yang:
- Pelatihan bergantung pada peningkatan gradien.
- Model yang lemah adalah hierarki keputusan.
peningkatan gradien
Algoritma pelatihan di mana model yang lemah dilatih secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model yang lemah bisa menjadi model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.
Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Lalu, output model kuat diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.
dalam hal ini:
- $F_{0}$ adalah model kuat awal.
- $F_{i+1}$ adalah model kuat berikutnya.
- $F_{i}$ adalah model kuat saat ini.
- $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
- $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.
Variasi modern dari peningkatan gradien juga mencakup turunan kedua (Hessian) tentang kerugian dalam komputasi mereka.
Pohon keputusan biasanya digunakan sebagai model yang lemah dalam penguatan gradien. Lihat pohon (keputusan) yang ditingkatkan gradien.
I
jalur inferensi
Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari root ke kondisi lain, yang diakhiri dengan daun. Misalnya, dalam pohon keputusan berikut, model panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur:
- x = 7
- y = 12
- z = -3
Jalur inferensi dalam ilustrasi berikut melalui tiga
kondisi sebelum mencapai daun (Zeta
).
Tiga panah tebal menunjukkan jalur inferensi.
perolehan informasi
Di hutan keputusan, perbedaan antara entropi node dan bobot (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.
Misalnya, pertimbangkan nilai entropi berikut:
- entropi node induk = 0,6
- entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
- entropi simpul turunan lain dengan 24 contoh yang relevan = 0,1
Jadi 40% dari contoh ada di satu simpul turunan dan 60% ada di node turunan lainnya. Jadi:
- jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Jadi, informasi yang diperoleh adalah:
- perolehan informasi = entropi node induk - jumlah entropi tertimbang dari node turunan
- perolehan informasi = 0,6 - 0,14 = 0,46
Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.
kondisi dalam ditetapkan
Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam set item. Misalnya, berikut ini adalah kondisi dalam set:
house-style in [tudor, colonial, cape]
Selama inferensi, jika nilai fitur gaya rumah
adalah tudor
atau colonial
atau cape
, maka kondisi ini bernilai Ya. Jika
nilai fitur gaya rumah adalah hal lain (misalnya, ranch
),
maka kondisi ini
bernilai Tidak.
Kondisi yang telah ditetapkan biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.
L
daun
Endpoint apa pun dalam hierarki keputusan. Tidak seperti condition, leaf tidak melakukan pengujian. Sebaliknya, sebuah leaf adalah prediksi yang mungkin. {i>Leaf<i} juga merupakan terminal node dari jalur inferensi.
Misalnya, pohon keputusan berikut memiliki tiga daun:
T
node (pohon keputusan)
Di pohon keputusan, setiap condition atau leaf.
kondisi non-biner
Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:
O
kondisi miring
Dalam pohon keputusan, condition yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar merupakan fitur, maka berikut ini adalah kondisi miring:
height > width
Berbeda dengan kondisi rata sumbu.
evaluasi luar biasa (evaluasi OOB)
Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan tentang pohon keputusan tersebut. Misalnya, di kolom berikut ini, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasinya berdasarkan sepertiga dari contoh yang tersisa.
Evaluasi {i>out-of-bag<i} adalah metode konservatif yang efisien dan konservatif perkiraan mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena pengisian menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat data itu untuk memperkirakan validasi silang.
P
tingkat kepentingan variabel permutation
Jenis variabel kepentingan yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah variabel independen model metrik.
R
hutan acak
Ansambel pohon keputusan dalam di mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti pengisian bagasi.
Forest acak adalah jenis hutan keputusan.
root
Node awal (node pertama kondisi) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan {i>root<i} di bagian atas pohon keputusan. Contoh:
S
pengambilan sampel dengan penggantian
Metode untuk memilih item dari kumpulan item kandidat yang item dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.
Misalnya, pertimbangkan himpunan buah berikut:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Misalkan sistem memilih fig
secara acak sebagai item pertama.
Jika menggunakan pengambilan sampel dengan pengganti, sistem akan memilih
item kedua dari kumpulan berikut:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Ya, kelompok itu sama seperti sebelumnya, jadi sistem berpotensi untuk
pilih fig
lagi.
Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat
dipilih lagi. Misalnya, jika sistem memilih fig
secara acak sebagai
sampel pertama, lalu fig
tidak dapat dipilih lagi. Oleh karena itu,
mengambil sampel kedua dari kumpulan (dikurangi) berikut:
fruit = {kiwi, apple, pear, cherry, lime, mango}
penyusutan
Hyperparameter di peningkatan gradien yang mengontrol overfitting. Penyusutan pada peningkatan gradien setara dengan kecepatan pembelajaran di penurunan gradien. Penyusutan adalah desimal nilai antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting nilai penyusutan yang lebih besar.
bagian
Di pohon keputusan, nama lain untuk kondisi.
pemisah
Saat melatih pohon keputusan, rutinitas tersebut (dan algoritma) yang bertanggung jawab untuk menemukan condition di setiap node.
S
uji
Di pohon keputusan, nama lain untuk kondisi.
ambang batas (untuk pohon keputusan)
Dalam kondisi rata sumbu, nilai yang fitur sedang dibandingkan. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:
grade >= 75
V
tingkat kepentingan variabel
Sekumpulan skor yang menunjukkan kepentingan relatif masing-masing skor feature ke model.
Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika set tingkat kepentingan variabel untuk ketiga fitur tersebut dihitung {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting pohon keputusan daripada usia atau gaya.
Terdapat berbagai metrik nilai penting variabel, yang dapat memberikan informasi Pakar ML terkait berbagai aspek model.
W
kebijaksanaan orang banyak
Gagasan bahwa rata-rata opini atau perkiraan kelompok besar ("kerumunan") sering memberikan hasil yang sangat baik. Misalnya, pertimbangkan permainan di mana orang menebak jumlah kacang jeli yang dikemas ke dalam stoples besar. Meskipun sebagian besar tidak akurat, rata-rata semua tebakan yang secara empiris terbukti sangat mendekati dengan jumlah kacang jeli dalam stoples.
Ensembles adalah analog software dari kebijaksanaan banyak orang. Bahkan jika masing-masing model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering menghasilkan prediksi yang baik. Misalnya, meskipun seorang individu pohon keputusan dapat membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.