Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Forest Forest. Untuk semua istilah glosarium, klik di sini.

A

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan tempat setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur saat mempelajari kondisi. Secara umum, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang mungkin dipertimbangkan untuk setiap node.

kondisi rata sumbu

#df

Pada pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, maka kondisi berikut adalah sumbu yang selaras:

area > 200

Berbeda dengan kondisi miring.

B

mengantongi

#df

Metode untuk melatih ensemble tempat setiap model konstituen berlatih pada subset acak contoh pelatihan diambil sampelnya sebagai pengganti. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih dengan bagging.

Istilah bagging adalah singkatan dari bootstrap aggregating.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

C

kondisi

#df

Pada pohon keputusan, setiap node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan leaf.

Lihat juga:

D

hutan keputusan

#df

Model yang dibuat dari beberapa pohon keputusan. Hutan keputusan membuat prediksi dengan menggabungkan prediksi pohon keputusannya. Jenis hutan keputusan yang populer meliputi hutan acak dan pohon yang ditingkatkan gradien.

pohon keputusan

#df

Model pembelajaran yang diawasi dan terdiri dari serangkaian kondisi dan keluaran yang diatur secara hierarkis. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi disusun
          secara hierarkis, yang menghasilkan lima daun.

E

entropi

#df

Dalam teori informasi, deskripsi tentang cara distribusi probabilitas tidak dapat diprediksi. Atau, entropi juga didefinisikan sebagai jumlah informasi yang dimiliki setiap contoh. Distribusi memiliki entropi tertinggi yang dimungkinkan jika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki rumus berikut:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari "1" contoh.
  • q adalah pecahan dari "0" contoh. Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, unit entropi sedikit.

Misalnya, anggaplah hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropi adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang diseimbangkan sempurna (misalnya, 200 "0"s dan 200 "1"s) akan memiliki entropi 1,0 bit per contoh. Seiring perubahan ini menjadi semakin tidak seimbang, entropinya akan bergerak menuju 0,0.

Di pohon keputusan, entropi membantu merumuskan pengumpulan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan hierarki keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

F

tingkat kepentingan fitur

#df

Sinonim dari nilai penting variabel.

G

kotoran gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotor gini atau entropi untuk menulis kondisi untuk klasifikasi pohon keputusan. Peroleh informasi berasal dari entropi. Tidak ada istilah yang setara secara universal yang diterima untuk metrik yang berasal dari kotoran gini; namun, metrik tanpa nama ini sama pentingnya dengan perolehan informasi.

Kotoran Gini juga disebut indeks gini, atau hanya gini.

peningkatan gradien

#df

Algoritme pelatihan yang mana model yang lemah dilatih untuk secara berulang meningkatkan kualitas (mengurangi kehilangan) model yang kuat. Misalnya, model yang lemah dapat berupa model hierarki keputusan yang kecil atau linear. Model yang kuat menjadi jumlah semua model lemah yang dilatih sebelumnya.

Dalam bentuk penguatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model awal yang kuat.
  • $F_{i+1}$ adalah model yang kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0.0 dan 1.0 yang disebut penyingkatan, yang sejalan dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern peningkatan gradien juga mencakup turunan kedua (Hessian) dari kerugian dalam komputasinya.

Pohon keputusan biasanya digunakan sebagai model lemah dalam peningkatan gradien. Lihat pohon gradien yang ditingkatkan (keputusan).

pohon yang dikuatkan (keputusan) gradien (GBT)

#df

Jenis hutan keputusan yang:

I

jalur inferensi

#df

Pada pohon keputusan, selama inferensi, rute yang dilakukan contoh tertentu dari root ke kondisi lainnya, yang diakhiri dengan daun. Misalnya, pada pohon keputusan berikut, panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melintasi tiga kondisi sebelum mencapai daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root adalah (x > 0). Karena jawabannya adalah Ya, jalur inferensi berpindah dari root ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian menuju ke kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi melakukan perjalanan ke node terminalnya, yang merupakan daun (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan bobot (menurut jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh dalam node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node turunan dengan 16 contoh yang relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi berbobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi berbobot node turunan
  • perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

kondisi dalam kumpulan

#df

Di pohon keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, hal berikut adalah kondisi dalam-kumpulan:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah nilai lainnya (misalnya, ranch), kondisi ini bernilai No.

Kondisi dalam kumpulan biasanya menghasilkan hierarki keputusan yang lebih efisien daripada kondisi yang menguji fitur yang dienkode dengan satu kali klik.

L

daun

#df

Endpoint apa pun di pohon keputusan. Berbeda dengan kondisi, leaf tidak melakukan pengujian. Sebaliknya, daun merupakan kemungkinan prediksi. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

T

node (pohon keputusan)

#df

Pada pohon keputusan, setiap kondisi atau daun.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (jumlah_kaki = ?) yang menghasilkan tiga kemungkinan hasil. Satu hasil (angka_kaki = 8) menghasilkan daun
          yang diberi nama spider. Hasil kedua (number_of_legs = 4) mengarah ke
 anjing bernama daun. Hasil ketiga (number_of_legs = 2) menghasilkan daun bernama penguin.

O

kondisi miring

#df

Pada pohon keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, maka berikut ini adalah kondisi yang miring:

  height > width

Berbeda dengan kondisi yang disesuaikan sumbu.

evaluasi di luar tas (evaluasi OOO)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh tidak digunakan selama pelatihan dari pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga contoh, lalu mengevaluasi terhadap sepertiga bagian lainnya dari contoh.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan dilatih pada dua pertiga contoh
          lalu menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih pada dua pertiga
          contoh yang berbeda dari pohon keputusan sebelumnya, lalu
          menggunakan sepertiga berbeda untuk evaluasi OOB dibandingkan
          pohon keputusan sebelumnya.

Evaluasi yang tidak dilakukan adalah perkiraan komputasi yang efisien dan konservatif dari mekanisme cross-validasi. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, model tunggal dilatih. Karena bagging menyimpan beberapa data dari setiap hierarki selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

P

Tingkat kepentingan variabel permutasi

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Pentingnya variabel permutasi adalah metrik diagnostik model.

R

hutan acak

#df

Ansambel pohon keputusan tempat setiap pohon keputusan dilatih dengan derau acak tertentu, seperti balap.

Hutan acak adalah salah satu jenis hutan keputusan.

root

#df

Node awal (kondisi pertama) dalam pohon keputusan. Berdasarkan konvensi, diagram menempatkan root di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi awal (x > 2) adalah root.

S

pengambilan sampel dengan penggantian

#df

Metode pemilihan item dari kumpulan item kandidat tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti bahwa setelah setiap pemilihan, item yang dipilih akan ditampilkan ke kumpulan item kandidat. Metode invers, pengambilan sampel tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih satu kali.

Misalnya, pertimbangkan himpunan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalnya, sistem secara acak memilih fig sebagai item pertama. Jika menggunakan pengambilan sampel dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, setelan tersebut sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan pengambilan sampel tanpa penggantian, setelah dipilih, sampel tidak dapat dipilih lagi. Misalnya, jika sistem secara acak memilih fig sebagai sampel pertama, fig tidak dapat dipilih lagi. Oleh karena itu, sistem akan mengambil sampel kedua dari kumpulan berikut (berkurang):

fruit = {kiwi, apple, pear, cherry, lime, mango}

penyusutan

#df

hyperparameter dalam peningkatan gradien yang mengontrol overfit. Penyusutan dalam peningkatan gradien mirip dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah mengurangi kelebihan ukuran lebih besar daripada nilai penyusutan yang lebih besar.

bagian

#df

Pada pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritme) yang bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

T

tes

#df

Pada pohon keputusan, nama lain untuk kondisi.

nilai minimum (untuk pohon keputusan)

#df

Dalam kondisi yang diselaraskan dengan sumbu, nilai yang dibandingkan dengan fitur. Misalnya, 75 adalah nilai ambang batas dalam kondisi berikut:

grade >= 75

V

nilai penting variabel

#df

Sekumpulan skor yang menunjukkan tingkat kepentingan relatif dari setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalnya, pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika kumpulan nilai penting variabel untuk ketiga fitur dihitung menjadi {size=5.8, age=2.5, style=4.7}, ukuran lebih penting bagi pohon keputusan daripada usia atau gaya.

Ada berbagai metrik urgensi, yang dapat memberi tahu pakar ML tentang berbagai aspek model.

W

pengetahuan banyak orang

#df

Ide yang menyatakan bahwa rata-rata opini atau perkiraan sekelompok besar orang ("kerumunan") sering memberikan hasil yang sangat bagus. Misalnya, pertimbangkan game yang mengharuskan orang menebak jumlah kacang jeli yang dikemas ke dalam stoples besar. Meskipun sebagian besar tebakan individual tidak akan akurat, rata-rata dari semua tebakan telah terbukti secara empiris sangat dekat dengan jumlah sebenarnya kacang jeli dalam jar.

Ensembles adalah analog software dari kebijaksanaan orang banyak. Meskipun setiap model melakukan prediksi yang sangat tidak akurat, rata-rata prediksi banyak model sering kali menghasilkan prediksi yang sangat bagus. Misalnya, meskipun pohon keputusan individual mungkin membuat prediksi yang buruk, hutan keputusan sering membuat prediksi yang sangat baik.