Glosarium Machine Learning: Hutan Keputusan

Halaman ini berisi istilah glosarium Forest Forest. Untuk semua istilah glosarium, klik di sini.

A

pengambilan sampel atribut

#df

Taktik untuk melatih hutan keputusan tempat setiap pohon keputusan hanya mempertimbangkan subset acak dari fitur yang memungkinkan saat mempelajari kondisi. Umumnya, subset fitur yang berbeda diambil sampelnya untuk setiap node. Sebaliknya, saat melatih pohon keputusan tanpa pengambilan sampel atribut, semua fitur yang memungkinkan dipertimbangkan untuk setiap node.

kondisi rata sumbu

#df

Dalam pohon keputusan, kondisi yang hanya melibatkan satu fitur. Misalnya, jika area adalah fitur, hal berikut adalah kondisi yang disejajarkan dengan sumbu:

area > 200

Berbeda dengan kondisi miring.

M

mengantongi

#df

Metode untuk melatih ensemble tempat setiap model konstituen berlatih di subset acak contoh pelatihan diambil sampelnya dengan penggantian. Misalnya, hutan acak adalah kumpulan pohon keputusan yang dilatih untuk mengantongi.

Istilah mengandung adalah kependekan dari bootstrap aggregating.

kondisi biner

#df

Dalam pohon keputusan, kondisi yang hanya memiliki dua kemungkinan hasil, biasanya ya atau tidak. Misalnya, berikut ini adalah kondisi biner:

temperature >= 100

Berbeda dengan kondisi non-biner.

C

kondisi

#df

Pada pohon keputusan, semua node yang mengevaluasi ekspresi. Misalnya, bagian pohon keputusan berikut berisi dua kondisi:

Pohon keputusan yang terdiri dari dua kondisi: (x > 0) dan
          (y > 0).

Kondisi juga disebut pemisahan atau pengujian.

Kondisi kontras dengan leaf.

Lihat juga:

D

hutan keputusan

#df

Model yang dibuat dari beberapa pohon keputusan. Forest keputusan membuat prediksi dengan menggabungkan prediksi hierarki keputusannya. Jenis hutan keputusan yang populer mencakup hutan acak dan pohon yang didorong gradien.

pohon keputusan

#df

Model pembelajaran yang diawasi dan terdiri dari kumpulan kondisi dan keluar yang disusun secara hierarki. Misalnya, berikut ini adalah pohon keputusan:

Pohon keputusan yang terdiri dari empat kondisi disusun secara hierarkis, yang menghasilkan lima daun.

E

entropi

#df

Dalam teori informasi, deskripsi tentang seberapa tidak terduganya distribusi distribusi. Selain itu, entropi juga didefinisikan sebagai jumlah informasi yang dimiliki setiap contoh. Distribusi memiliki entropi setinggi mungkin jika semua nilai variabel acak memiliki kemungkinan yang sama.

Entropi kumpulan dengan dua kemungkinan nilai "0" dan "1" (misalnya, label dalam masalah klasifikasi biner) memiliki formula berikut:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dalam hal ini:

  • H adalah entropi.
  • p adalah pecahan dari contoh "1".
  • q adalah pecahan dari contoh "0". Perhatikan bahwa q = (1 - p)
  • log umumnya adalah log2. Dalam hal ini, unit entropi sedikit.

Misalnya, anggaplah hal berikut:

  • 100 contoh berisi nilai "1"
  • 300 contoh berisi nilai "0"

Oleh karena itu, nilai entropi adalah:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per contoh

Kumpulan yang seimbang (misalnya, 200 "0" dan 200 "1") akan memiliki entropi 1,0 bit per contoh. Saat kumpulan menjadi lebih tidak seimbang, entropinya bergerak menuju 0,0.

Di pohon keputusan, entropi membantu merumuskan perolehan informasi untuk membantu pemisah memilih kondisi selama pertumbuhan hierarki keputusan klasifikasi.

Bandingkan entropi dengan:

Entropi sering disebut entropi Shannon.

F

tingkat kepentingan fitur

#df

Sinonim untuk nilai penting variabel.

G

kotoran gini

#df

Metrik yang mirip dengan entropi. Pemisah menggunakan nilai yang berasal dari pengotor gini atau entropi untuk membuat kondisi klasifikasi pohon keputusan. Perolehan informasi berasal dari entropi. Tidak ada istilah setara yang diterima secara universal untuk metrik yang berasal dari pengumpulan gini; namun, metrik tanpa nama ini sama pentingnya dengan pengumpulan informasi.

Pengotor Gini juga disebut indeks gini, atau hanya gini.

peningkatan gradien

#df

Algoritme pelatihan tempat model lemah dilatih untuk secara berulang meningkatkan kualitas (mengurangi kerugian) model yang kuat. Misalnya, model lemah dapat berupa model pohon keputusan linear atau kecil. Model yang kuat menjadi jumlah dari semua model lemah yang telah dilatih sebelumnya.

Dalam bentuk peningkatan gradien yang paling sederhana, pada setiap iterasi, model yang lemah dilatih untuk memprediksi gradien kerugian dari model yang kuat. Kemudian, output model yang kuat akan diperbarui dengan mengurangi gradien yang diprediksi, mirip dengan penurunan gradien.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dalam hal ini:

  • $F_{0}$ adalah model awal yang kuat.
  • $F_{i+1}$ adalah model kuat berikutnya.
  • $F_{i}$ adalah model kuat saat ini.
  • $\xi$ adalah nilai antara 0.0 dan 1.0 yang disebut penyingkatan, yang serupa dengan kecepatan pembelajaran dalam penurunan gradien.
  • $f_{i}$ adalah model lemah yang dilatih untuk memprediksi gradien kerugian $F_{i}$.

Variasi modern dari peningkatan gradien juga mencakup turunan kedua (Hessian) dari kerugian dalam komputasinya.

Hierarki keputusan umumnya digunakan sebagai model lemah dalam peningkatan gradien. Lihat hierarki (keputusan) gradien yang ditingkatkan.

pohon yang diperkuat gradien (keputusan) (GBT)

#df

Jenis hutan keputusan yang:

I

jalur inferensi

#df

Pada pohon keputusan, selama inferensi, rute yang diambil contoh tertentu dari root ke kondisi lainnya, yang diakhiri dengan daun. Misalnya, dalam pohon keputusan berikut, panah yang lebih tebal menunjukkan jalur inferensi untuk contoh dengan nilai fitur berikut:

  • x = 7
  • y = 12
  • z = -3

Jalur inferensi dalam ilustrasi berikut melewati tiga kondisi sebelum mencapai ikon daun (Zeta).

Pohon keputusan yang terdiri dari empat kondisi dan lima daun.
          Kondisi root adalah (x > 0). Karena jawabannya adalah
          Ya, jalur inferensi melakukan perjalanan dari root ke kondisi berikutnya (y > 0).
          Karena jawabannya adalah Ya, jalur inferensi kemudian beralih ke
          kondisi berikutnya (z > 0). Karena jawabannya adalah Tidak, jalur inferensi melakukan perjalanan ke node terminalnya, yang merupakan daun (Zeta).

Tiga panah tebal menunjukkan jalur inferensi.

perolehan informasi

#df

Di hutan keputusan, perbedaan antara entropi node dan jumlah (berdasarkan jumlah contoh) jumlah entropi node turunannya. Entropi node adalah entropi contoh pada node tersebut.

Misalnya, pertimbangkan nilai entropi berikut:

  • entropi node induk = 0,6
  • entropi satu node anak dengan 16 contoh relevan = 0,2
  • entropi node turunan lain dengan 24 contoh yang relevan = 0,1

Jadi, 40% contoh berada di satu node turunan dan 60% berada di node turunan lainnya. Jadi:

  • jumlah entropi berbobot node turunan = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Jadi, perolehan informasinya adalah:

  • perolehan informasi = entropi node induk - jumlah entropi berbobot node turunan
  • perolehan informasi = 0,6 - 0,14 = 0,46

Sebagian besar pemisah berupaya membuat kondisi yang memaksimalkan perolehan informasi.

kondisi dalam kumpulan

#df

Dalam pohon keputusan, kondisi yang menguji keberadaan satu item dalam kumpulan item. Misalnya, berikut ini adalah kondisi yang ditetapkan:

  house-style in [tudor, colonial, cape]

Selama inferensi, jika nilai fitur gaya rumah adalah tudor, atau colonial atau cape, kondisi ini akan bernilai Ya. Jika nilai fitur gaya rumah adalah sesuatu yang lain (misalnya, ranch), kondisi ini bernilai No.

Kondisi dalam set biasanya menghasilkan pohon keputusan yang lebih efisien daripada kondisi yang menguji fitur yang dienkode satu kali.

L

daun

#df

Endpoint di hierarki keputusan. Tidak seperti kondisi, leaf tidak melakukan pengujian. Sebaliknya, leaf adalah prediksi yang mungkin. Daun juga merupakan node terminal dari jalur inferensi.

Misalnya, pohon keputusan berikut berisi tiga daun:

Pohon keputusan dengan dua kondisi yang mengarah ke tiga daun.

N

node (pohon keputusan)

#df

Pada pohon keputusan, setiap kondisi atau daun.

Pohon keputusan dengan dua kondisi dan tiga daun.

kondisi non-biner

#df

Kondisi yang berisi lebih dari dua kemungkinan hasil. Misalnya, kondisi non-biner berikut berisi tiga kemungkinan hasil:

Kondisi (number_of_legs = ?) yang menghasilkan tiga kemungkinan hasil. Satu hasil (number_of_legs = 8) menghasilkan daun
          bernama spider. Hasil kedua (number_of_legs = 4) menghasilkan
          hewan peliharaan yang bernama daun. Hasil ketiga (number_of_legs = 2) mengarah ke
          daun bernama penguin.

O

kondisi miring

#df

Dalam pohon keputusan, kondisi yang melibatkan lebih dari satu fitur. Misalnya, jika tinggi dan lebar adalah fitur, berikut adalah kondisi yang miring:

  height > width

Berbeda dengan kondisi yang sejajar dengan sumbu.

evaluasi di luar kantong (evaluasi OOB)

#df

Mekanisme untuk mengevaluasi kualitas hutan keputusan dengan menguji setiap pohon keputusan terhadap contoh yang tidak digunakan selama pelatihan dari pohon keputusan tersebut. Misalnya, dalam diagram berikut, perhatikan bahwa sistem melatih setiap pohon keputusan pada sekitar dua pertiga dari contoh, lalu mengevaluasi sepertiga sisanya.

Hutan keputusan yang terdiri dari tiga pohon keputusan.
          Satu pohon keputusan dilatih pada dua pertiga contoh,
          kemudian menggunakan sepertiga sisanya untuk evaluasi OOB.
          Pohon keputusan kedua dilatih dengan dua per tiga
          contoh yang berbeda dari contoh pohon keputusan sebelumnya, lalu
          menggunakan sepertiga berbeda untuk evaluasi OOB dibandingkan
          pohon keputusan sebelumnya.

Evaluasi di luar tas adalah pendekatan yang efisien secara komputasi dan konservatif dari mekanisme cross-validasi. Dalam validasi silang, satu model dilatih untuk setiap putaran validasi silang (misalnya, 10 model dilatih dalam validasi silang 10 kali lipat). Dengan evaluasi OOB, satu model dilatih. Karena mengandung menahan beberapa data dari setiap pohon selama pelatihan, evaluasi OOB dapat menggunakan data tersebut untuk memperkirakan validasi silang.

P

nilai penting variabel permutasi

#df

Jenis nilai penting variabel yang mengevaluasi peningkatan error prediksi model setelah mengubah nilai fitur. Pentingnya variabel permutasi adalah metrik agnostik model.

R

hutan acak

#df

Ansambel pohon keputusan di mana setiap pohon keputusan dilatih dengan derau acak tertentu, seperti mengandung.

Hutan acak adalah jenis hutan keputusan.

root

#df

Node awal (kondisi pertama) dalam pohon keputusan. Berdasarkan konvensi, diagram menempatkan root di bagian atas pohon keputusan. Contoh:

Pohon keputusan dengan dua kondisi dan tiga daun. Kondisi awal (x > 2) adalah root.

4

pengambilan sampel dengan penggantian

#df

Metode untuk memilih item dari kumpulan item kandidat, tempat item yang sama dapat dipilih beberapa kali. Frasa "dengan penggantian" berarti setelah setiap pilihan, item yang dipilih ditampilkan ke kumpulan item kandidat. Metode terbalik, sampling tanpa penggantian, berarti bahwa item kandidat hanya dapat dipilih sekali.

Misalnya, pertimbangkan kumpulan buah berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Misalkan sistem secara acak memilih fig sebagai item pertama. Jika menggunakan pengambilan sampel dengan penggantian, sistem akan memilih item kedua dari kumpulan berikut:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ya, set tersebut sama seperti sebelumnya, sehingga sistem berpotensi memilih fig lagi.

Jika menggunakan sampling tanpa penggantian, setelah dipilih, sampel tidak dapat diambil lagi. Misalnya, jika sistem memilih fig secara acak sebagai sampel pertama, fig tidak dapat diambil lagi. Oleh karena itu, sistem mengambil sampel kedua dari kumpulan (dikurangi) berikut:

fruit = {kiwi, apple, pear, cherry, lime, mango}

penyusutan

#df

Hiperparameter dalam peningkatan gradien yang mengontrol overover. Penyingkatan peningkatan gradien disamakan dengan kecepatan pembelajaran dalam penurunan gradien. Penyusutan adalah nilai desimal antara 0,0 dan 1,0. Nilai penyusutan yang lebih rendah akan mengurangi kelebihan lebih dari nilai penyusutan yang lebih besar.

bagian

#df

Di pohon keputusan, nama lain untuk kondisi.

pemisah

#df

Saat melatih pohon keputusan, rutinitas (dan algoritme) yang bertanggung jawab untuk menemukan kondisi terbaik di setiap node.

T

tes

#df

Di pohon keputusan, nama lain untuk kondisi.

nilai minimum (untuk pohon keputusan)

#df

Dalam kondisi yang diselaraskan dengan sumbu, nilai fitur yang dibandingkan. Misalnya, 75 adalah nilai ambang batas dalam kondisi berikut:

grade >= 75

V

nilai penting variabel

#df

Kumpulan skor yang menunjukkan kepentingan relatif setiap fitur terhadap model.

Misalnya, pertimbangkan pohon keputusan yang memperkirakan harga rumah. Misalkan pohon keputusan ini menggunakan tiga fitur: ukuran, usia, dan gaya. Jika serangkaian nilai penting variabel untuk ketiga fitur tersebut dihitung menjadi {size=5.8, age=2.5, style=4.7}, ukuran akan lebih penting bagi pohon keputusan daripada usia atau gaya.

Terdapat berbagai metrik nilai penting yang bervariasi, yang dapat memberi tahu pakar ML tentang berbagai aspek model.

W

pengetahuan orang banyak

#df

Gagasan bahwa merata-rata opini atau perkiraan sekelompok besar orang ("kerumun") sering kali memberikan hasil yang sangat mengejutkan. Misalnya, bayangkan game yang mengharuskan orang menebak jumlah batang kacang yang dikemas ke dalam stoples berukuran besar. Meskipun sebagian besar tebakan individu tidak akurat, rata-rata semua tebakan telah terbukti secara mengejutkan mendekati jumlah sebenarnya dari kacang jeli di stoples.

Ensemble adalah analog software dari kebijaksanaan orang banyak. Meski setiap model membuat prediksi yang sangat tidak akurat, rata-rata prediksi dari banyak model sering menghasilkan prediksi yang sangat bagus. Misalnya, meskipun setiap individu pohon keputusan mungkin membuat prediksi yang buruk, hutan keputusan sering kali membuat prediksi yang sangat baik.