Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Decision Forests. Untuk semua istilah glosarium, klik di sini.

A

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan dengan setiap pohon keputusan hanya mempertimbangkan subset acak dari kemungkinan fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih hierarki keputusan tanpa sampling atribut, semua kemungkinan fitur akan dipertimbangkan untuk setiap node.

kondisi yang sejajar dengan sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut adalah kondisi yang sejajar dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

B

pengelompokan

#df

Metode untuk melatih ensemble dengan setiap model penyusunnya dilatih pada subset acak dari contoh pelatihan yang dipilih dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.

Istilah bagging adalah singkatan dari bootstrap aggregating.

Lihat Random forest di kursus Decision Forests untuk mengetahui informasi selengkapnya.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

C

kondisi

#df

Dalam pohon keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikut dari hierarki keputusan berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan daun.

Lihat juga:

Lihat Jenis kondisi di kursus Decision Forests untuk mengetahui informasi selengkapnya.

D

hutan keputusan

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis hutan keputusan yang populer mencakup hutan acak dan hutan yang ditingkatkan gradien.

Lihat bagian Hutan Keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

pohon keputusan

#df

Model pembelajaran dengan pengawasan yang terdiri dari kumpulan kondisi dan daun yang diatur secara hierarkis. Misalnya, berikut adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi yang diatur secara hierarkis, yang mengarah ke lima cabang.

E

entropi

#df

Dalam teori informasi, deskripsi tentang seberapa tidak dapat diprediksinya distribusi probabilitas. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimuat setiap contoh. Distribusi memiliki entropi setinggi mungkin jika semua nilai variabel acak sama-sama mungkin.

Entropi set dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan contoh "1".
  • q adalah pecahan contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, unit entropi adalah bit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropi adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat set menjadi lebih tidak seimbang, entropinya akan bergerak ke arah 0,0.

Dalam pohon keputusan, entropi membantu merumuskan keuntungan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

Lihat Pemisah persis untuk klasifikasi biner dengan fitur numerik di kursus Decision Forests untuk mengetahui informasi selengkapnya.

F

tingkat kepentingan fitur

#df

Sinonim dari pentingnya variabel.

G

ketidakmurnian gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari impuritas gini atau entropi untuk menyusun kondisi untuk klasifikasi pohon keputusan. Keuntungan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari impuritas gini; namun, metrik tanpa nama ini sama pentingnya dengan manfaat informasi.

Impuritas gini juga disebut indeks gini, atau hanya gini.

pohon (keputusan) yang ditingkatkan dengan gradien (GBT)

#df

Jenis hutan keputusan yang:

Lihat Gradient Boosted Decision Trees di kursus Decision Forests untuk mengetahui informasi selengkapnya.

gradient boosting

#df

Algoritma pelatihan tempat model lemah dilatih untuk secara iteratif meningkatkan kualitas (mengurangi kerugian) model yang kuat. Misalnya, model yang lemah dapat berupa model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk gradient boosting yang paling sederhana, pada setiap iterasi, model lemah dilatih untuk memprediksi gradien kerugian model yang kuat. Kemudian, output model kuat diperbarui dengan mengurangi gradien yang diprediksi, serupa dengan gradient descent.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model kuat awal.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyingkatan, yang analog dengan kecepatan belajar dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari gradient boosting juga menyertakan turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model lemah dalam gradient boosting. Lihat pohon (keputusan) dengan peningkatan gradien.

I

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari akar ke kondisi lainnya, yang diakhiri dengan daun. Misalnya, dalam hierarki keputusan berikut, panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melewati tiga kondisi sebelum mencapai node daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi akan berjalan dari root ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian akan berpindah ke
          kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi
          akan menuju node terminalnya, yaitu node daun (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

Lihat Hierarki keputusan dalam kursus Hutan Keputusan untuk mengetahui informasi selengkapnya.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan jumlah berbobot (menurut jumlah contoh) entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node turunan dengan 16 contoh yang relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi berbobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi berbobot dari node turunan
  • information gain = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

kondisi dalam set

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah yang lain (misalnya, ranch), kondisi ini akan bernilai Tidak.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

L

daun

#df

Endpoint apa pun dalam pohon keputusan. Tidak seperti kondisi, node daun tidak melakukan pengujian. Sebaliknya, node adalah kemungkinan prediksi. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga node akhir:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

T

node (pohon keputusan)

#df

Dalam pohon keputusan, setiap kondisi atau daun.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan akibat:

Kondisi (number_of_legs = ?) yang mengarah ke tiga kemungkinan
          hasil. Satu hasil (number_of_legs = 8) mengarah ke daun
          bernama spider. Hasil kedua (number_of_legs = 4) mengarah ke
          node bernama dog. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

O

kondisi miring

#df

Dalam pohon keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, kondisi berikut adalah kondisi miring:

  height > width

Berbeda dengan kondisi yang sejajar dengan sumbu.

evaluasi out-of-bag (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap hierarki keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi terhadap sisa sepertiga contoh.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan dilatih pada dua pertiga contoh, lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih pada dua pertiga contoh yang berbeda dari pohon keputusan sebelumnya, lalu menggunakan sepertiga yang berbeda untuk evaluasi OOB dari pohon keputusan sebelumnya.

Evaluasi out-of-bag adalah perkiraan yang efisien secara komputasi dan konservatif dari mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena bagging menyembunyikan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

P

kepentingan variabel permutasi

#df

Jenis pentingnya variabel yang mengevaluasi peningkatan error prediksi model setelah menukar nilai fitur. Permutation variable importance adalah metrik yang tidak bergantung pada model.

R

hutan acak

#df

Ensemble dari pohon keputusan yang setiap pohon keputusannya dilatih dengan derau acak tertentu, seperti bagging.

Hutan acak adalah jenis hutan keputusan.

root

#df

Node awal (kondisi pertama) dalam pohon keputusan. Secara umum, diagram menempatkan root di bagian atas hierarki keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi
          awal (x > 2) adalah root.

S

sampling dengan penggantian

#df

Metode memilih item dari kumpulan item kandidat tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode invers, sampling tanpa penggantian, berarti item kandidat hanya dapat dipilih satu kali.

Misalnya, pertimbangkan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan sampling dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, itu adalah kumpulan yang sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan sampling tanpa penggantian, setelah dipilih, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai contoh pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem memilih sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

penyusutan

#df

Hyperparameter dalam gradient boosting yang mengontrol overfitting. Pengecilan dalam boosting gradien analog dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah mengurangi overfitting lebih dari nilai penyusutan yang lebih besar.

bagian

#df

Dalam pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritma) bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

S

uji

#df

Dalam pohon keputusan, nama lain untuk kondisi.

nilai minimum (untuk pohon keputusan)

#df

Dalam kondisi yang sejajar dengan sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:

grade >= 75

V

kepentingan variabel

#df

Kumpulan skor yang menunjukkan nilai penting relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur dihitung menjadi {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Ada berbagai metrik tingkat kepentingan variabel, yang dapat memberi tahu ahli ML tentang berbagai aspek model.

W

kebijaksanaan massa

#df

Gagasan bahwa rata-rata pendapat atau estimasi dari sekelompok besar orang ("kerumunan") sering kali menghasilkan hasil yang sangat baik. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah jelly bean yang dikemas dalam toples besar. Meskipun sebagian besar tebakan individu tidak akurat, rata-rata dari semua tebakan telah ditunjukkan secara empiris ternyata mendekati jumlah sebenarnya jelly bean dalam toples.

Ensembel adalah analog software dari kebijaksanaan massa. Meskipun setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering kali menghasilkan prediksi yang sangat baik. Misalnya, meskipun setiap pohon keputusan mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.