Glosarium Machine Learning: Penguatan Penguatan

Halaman ini berisi istilah glosarium Penguatan Belajar. Untuk semua istilah glosarium, klik di sini.

A

action

#rl

Dalam pembelajaran penguatan, mekanisme transisi agen antarstatus lingkungan. Agen memilih tindakan tersebut menggunakan kebijakan.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan pengembalian yang diharapkan, yang diperoleh dari transisi antara status dari lingkungan.

B

Persamaan Bellman

#rl

Dalam pembelajaran penguatan, identitas berikut dipenuhi oleh fungsi Q yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritme Pembelajaran penguatan menerapkan identitas ini untuk membuat Q-learning melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Selain pembelajaran penguatan, persamaan Bellman memiliki penerapan pada pemrograman dinamis. Lihat entri Wikipedia untuk Persamaan Bellman.

C

kritikus

#rl

Sinonim untuk Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

Dalam Q-learning, jaringan neural dalam yang memprediksi Q-functions.

Critic adalah sinonim untuk Deep Q-Network.

DQN

#rl

Singkatan dari Deep Q-Network.

E

lingkungan

#rl

Dalam pembelajaran penguatan, dunia yang berisi agen dan memungkinkan agen untuk mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.

episode

#rl

Dalam pembelajaran penguatan, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

kebijakan epsilon serakah

#rl

Dalam pembelajaran penguatan, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah jika tidak. Misalnya, jika epsilon adalah 0,9, kebijakan akan mengikuti kebijakan acak 90% dari waktu tersebut dan kebijakan serakah 10% dari waktu tersebut.

Pada episode yang berurutan, algoritme akan mengurangi nilai epsilon agar dapat beralih dari mengikuti kebijakan acak menjadi mengikuti kebijakan serakah. Dengan mengubah kebijakan, pertama-tama agen akan mempelajari lingkungan secara acak, lalu memanfaatkan hasil eksplorasi acak secara berlebihan.

putar ulang pengalaman

#rl

Dalam pembelajaran penguatan, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer pemutaran ulang, lalu mengambil sampel transisi dari buffering replay untuk membuat data pelatihan.

G

kebijakan rakus

#rl

Dalam pembelajaran penguatan, kebijakan yang selalu memilih tindakan dengan pengembalian tertinggi yang diharapkan.

S

Proses keputusan Markov (MDP)

#rl

Grafik yang merepresentasikan model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk melihat urutan status dengan asumsi bahwa properti Markov berada. Dalam pembelajaran penguatan, transisi antarstatus ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, tempat transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

P

kebijakan

#rl

Dalam pembelajaran penguatan, pemetaan probabilistik agen dari status menjadi tindakan.

Q

Fungsi q

#rl

Dalam pembelajaran penguatan, fungsi yang memprediksi pengembalian yang diharapkan agar tidak mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi q juga dikenal sebagai fungsi nilai tindakan status.

Pembelajaran Kuartalan

#rl

Dalam pembelajaran penguatan, algoritme yang memungkinkan agen mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov membuat model lingkungan.

R

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

pembelajaran penguatan (RL)

#rl

Sekumpulan algoritme yang mempelajari kebijakan optimal, yang sasarannya adalah memaksimalkan kembali saat berinteraksi dengan lingkungan. Misalnya, reward akhir dari kebanyakan game adalah kemenangan. Sistem pembelajaran penguatan dapat menjadi pakar dalam memainkan game yang kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kerugian.

Pembelajaran Penguatan dari Masukan Manusia (RLHF)

#generatifAI
#rl

Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau ccTLD. Selanjutnya, sistem dapat menyesuaikan responsnya mendatang berdasarkan masukan tersebut.

replay buffer

#rl

Dalam algoritme yang mirip dengan DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.

melakukan return

#rl

Dalam pembelajaran penguatan, berdasarkan kebijakan tertentu dan status tertentu, pengembaliannya adalah jumlah dari semua reward yang diharapkan oleh agen saat menerima kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskonnya adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, perhitungan hasil yang ditampilkan adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

bonus

#rl

Dalam pembelajaran penguatan, hasil numerik dari pengambilan tindakan dalam status, seperti yang ditentukan oleh lingkungan.

M

dengan status tersembunyi akhir

#rl

Dalam pembelajaran penguatan, parameter value yang mendeskripsikan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.

fungsi nilai tindakan status

#rl

Sinonim untuk Fungsi Q.

T

Q-learning berbentuk tabel

#rl

Dalam pembelajaran penguatan, terapkan Q-learning dengan menggunakan tabel untuk menyimpan Q-functions untuk setiap kombinasi status dan action.

jaringan target

#rl

Di Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama dilatih pada nilai Q yang diprediksi dengan sendirinya. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

ketentuan penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah nilai minimum transisi status. Misalnya, dalam tic-tac-toe (yang juga dikenal sebagai nnues dan crosses), episode akan berakhir ketika pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.

lintasan

#rl

Dalam pembelajaran penguatan, urutan tupel yang mewakili urutan transisi status dari agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.