Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Hutan Keputusan. Untuk semua istilah glosarium, klik di sini.

A

sampling atribut

#df

Taktik untuk melatih hutan keputusan yang masing-masing pohon keputusan hanya mempertimbangkan subset acak dari fitur saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, ketika melatih pohon keputusan tanpa sampling atribut, semua fitur yang mungkin akan dipertimbangkan untuk setiap node.

kondisi sejajar sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka berikut ini adalah kondisi yang sejajar sumbu:

area > 200

Berbeda dengan kondisi miring.

B

mengantongi

#df

Metode untuk melatih ensemble di mana masing-masing model konstituen dilatih pada subset pelatihan acak contoh diambil sampel dengan pengganti. Misalnya, random forest adalah kumpulan dari pohon keputusan yang dilatih dengan pengangkutan.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

C

kondisi

#df

Dalam hierarki keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian berikutnya dari pohon keputusan mengandung dua syarat:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Membandingkan kondisi dengan leaf.

Lihat juga:

D

hutan keputusan

#df

Model yang dibuat dari beberapa hierarki keputusan. {i>Forest<i} keputusan membuat prediksi dengan menggabungkan prediksi dari pohon keputusannya. Jenis hutan keputusan yang populer antara lain forest acak dan pohon yang ditingkatkan gradien.

pohon keputusan (decision tree)

#df

Model supervised learning yang terdiri dari serangkaian conditions dan leaf diatur secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari 
empat kondisi yang diatur
          secara hierarkis, yang 
menghasilkan lima daun.

E

entropi

#df

Di beberapa teori informasi, deskripsi tentang bagaimana tingkat probabilitas yang tidak dapat diprediksi distribusinya. Atau, entropi juga didefinisikan sebagai berapa banyak informasi yang terdapat dalam setiap contoh. Suatu distribusi memiliki entropi tertinggi ketika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label pada masalah klasifikasi biner) memiliki formula berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari "1" contoh.
  • q adalah pecahan dari "0" contoh. Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, entropi sedikit.

Misalnya, anggap saja hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropinya adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Set yang seimbang sempurna (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Dalam pohon keputusan, entropi membantu merumuskan pengumpulan informasi untuk membantu pemisah pilih kondisi selama pertumbuhan pohon keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

F

tingkat kepentingan fitur

#df

Sinonim dari variabel penting.

G

ketidakmurnian gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari ketidakmurnian gini atau entropi untuk menyusun kondisi untuk klasifikasi hierarki keputusan. Pengumpulan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari ketidakmurnian gini; Namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran gini juga disebut indeks gini, atau gini saja.

gradient boosted (decision) tree (GBT)

#df

Jenis hutan keputusan yang:

peningkatan gradien

#df

Algoritma pelatihan di mana model yang lemah dilatih secara iteratif meningkatkan kualitas (mengurangi kerugian) dari model yang kuat. Misalnya, model yang lemah bisa menjadi model pohon keputusan linear atau kecil. Model kuat menjadi jumlah dari semua model lemah yang dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Lalu, output model kuat diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model kuat awal.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0,0 dan 1,0 yang disebut penyusutan, yang setara dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari peningkatan gradien juga mencakup turunan kedua (Hessian) tentang kerugian dalam komputasi mereka.

Pohon keputusan biasanya digunakan sebagai model yang lemah dalam penguatan gradien. Lihat pohon (keputusan) yang ditingkatkan gradien.

I

jalur inferensi

#df

Dalam pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari root ke kondisi lain, yang diakhiri dengan daun. Misalnya, dalam pohon keputusan berikut, model panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melalui tiga kondisi sebelum mencapai daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root adalah (x > 0). Karena jawabannya adalah Ya,
          jalur inferensi dimulai dari {i>root<i} ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian bergerak ke
          kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensinya
          sampai ke {i>node<i} terminalnya, yaitu {i>leaf<i} (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan bobot (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu simpul turunan dengan 16 contoh yang relevan = 0,2
  • entropi simpul turunan lain dengan 24 contoh yang relevan = 0,1

Jadi 40% dari contoh ada di satu simpul turunan dan 60% ada di node turunan lainnya. Jadi:

  • jumlah entropi tertimbang node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, informasi yang diperoleh adalah:

  • perolehan informasi = entropi node induk - jumlah entropi tertimbang dari node turunan
  • perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

kondisi dalam ditetapkan

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam set item. Misalnya, berikut ini adalah kondisi dalam set:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, maka kondisi ini bernilai Ya. Jika nilai fitur gaya rumah adalah hal lain (misalnya, ranch), maka kondisi ini bernilai Tidak.

Kondisi yang telah ditetapkan biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur enkode one-hot.

L

daun

#df

Endpoint apa pun dalam hierarki keputusan. Tidak seperti condition, leaf tidak melakukan pengujian. Sebaliknya, sebuah leaf adalah prediksi yang mungkin. {i>Leaf<i} juga merupakan terminal node dari jalur inferensi.

Misalnya, pohon keputusan berikut memiliki tiga daun:

Pohon keputusan dengan dua kondisi yang menyebabkan tiga daun.

T

node (pohon keputusan)

#df

Di pohon keputusan, setiap condition atau leaf.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (number_of_legs = ?) yang menghasilkan tiga kemungkinan
          hasil pengujian tersebut. Satu hasil (number_of_legs = 8) mengarah ke daun
          yang dinamakan spider. Hasil kedua (number_of_legs = 4) mengarah ke
          daun bernama {i>dog<i}. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

O

kondisi miring

#df

Dalam pohon keputusan, condition yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar merupakan fitur, maka berikut ini adalah kondisi miring:

  height > width

Berbeda dengan kondisi rata sumbu.

evaluasi luar biasa (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan tentang pohon keputusan tersebut. Misalnya, di kolom berikut ini, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasinya berdasarkan sepertiga dari contoh yang tersisa.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan mempelajari dua pertiga contoh
          dan kemudian menggunakan sepertiga sisanya 
untuk evaluasi OOB.
          Pohon keputusan kedua dilatih di dua pertiga yang berbeda
          contoh dari pohon keputusan sebelumnya, dan kemudian
          menggunakan sepertiga yang berbeda untuk evaluasi OOB
          pohon keputusan sebelumnya.

Evaluasi {i>out-of-bag<i} adalah metode konservatif yang efisien dan konservatif perkiraan mekanisme validasi silang. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena pengisian menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat data itu untuk memperkirakan validasi silang.

P

tingkat kepentingan variabel permutation

#df

Jenis variabel kepentingan yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Nilai penting variabel permutasi adalah variabel independen model metrik.

R

hutan acak

#df

Ansambel pohon keputusan dalam di mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti pengisian bagasi.

Forest acak adalah jenis hutan keputusan.

root

#df

Node awal (node pertama kondisi) dalam hierarki keputusan. Berdasarkan konvensi, diagram menempatkan {i>root<i} di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Tujuan
          kondisi awal (x > 2) adalah {i>root<i}.

S

pengambilan sampel dengan penggantian

#df

Metode untuk memilih item dari kumpulan item kandidat yang item dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pilihan, item yang dipilih akan dikembalikan ke kumpulan item kandidat. Metode terbalik, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, pertimbangkan himpunan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem memilih fig secara acak sebagai item pertama. Jika menggunakan pengambilan sampel dengan pengganti, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, kelompok itu sama seperti sebelumnya, jadi sistem berpotensi untuk pilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah diambil, sampel tidak dapat dipilih lagi. Misalnya, jika sistem memilih fig secara acak sebagai sampel pertama, lalu fig tidak dapat dipilih lagi. Oleh karena itu, mengambil sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

penyusutan

#df

Hyperparameter di peningkatan gradien yang mengontrol overfitting. Penyusutan pada peningkatan gradien setara dengan kecepatan pembelajaran di penurunan gradien. Penyusutan adalah desimal nilai antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi overfitting nilai penyusutan yang lebih besar.

bagian

#df

Di pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas tersebut (dan algoritma) yang bertanggung jawab untuk menemukan condition di setiap node.

S

uji

#df

Di pohon keputusan, nama lain untuk kondisi.

ambang batas (untuk pohon keputusan)

#df

Dalam kondisi rata sumbu, nilai yang fitur sedang dibandingkan. Misalnya, 75 adalah nilai minimum dalam kondisi berikut:

grade >= 75

V

tingkat kepentingan variabel

#df

Sekumpulan skor yang menunjukkan kepentingan relatif masing-masing skor feature ke model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika set tingkat kepentingan variabel untuk ketiga fitur tersebut dihitung {size=5.8, age=2.5, style=4.7}, maka ukuran lebih penting pohon keputusan daripada usia atau gaya.

Terdapat berbagai metrik nilai penting variabel, yang dapat memberikan informasi Pakar ML terkait berbagai aspek model.

W

kebijaksanaan orang banyak

#df

Gagasan bahwa rata-rata opini atau perkiraan kelompok besar ("kerumunan") sering memberikan hasil yang sangat baik. Misalnya, pertimbangkan permainan di mana orang menebak jumlah kacang jeli yang dikemas ke dalam stoples besar. Meskipun sebagian besar tidak akurat, rata-rata semua tebakan yang secara empiris terbukti sangat mendekati dengan jumlah kacang jeli dalam stoples.

Ensembles adalah analog software dari kebijaksanaan banyak orang. Bahkan jika masing-masing model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering menghasilkan prediksi yang baik. Misalnya, meskipun seorang individu pohon keputusan dapat membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.