Halaman ini berisi istilah glosarium Penguatan Pembelajaran. Untuk semua istilah glosarium, klik di sini.
A
action
Dalam pembelajaran penguatan, mekanisme agen yang bertransisi di antara status lingkungan. Agen memilih tindakan dengan menggunakan kebijakan.
agen
Dalam pembelajaran penguatan, entity yang menggunakan kebijakan untuk memaksimalkan pengembalian yang diharapkan diperoleh dari transisi antara status dari lingkungan.
B
Persamaan Bellman
Dalam pembelajaran penguatan, identitas berikut terpenuhi oleh fungsi Q yang optimal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Algoritme Pembelajaran penguatan menerapkan identitas ini untuk membuat Q-learning melalui aturan pembaruan berikut:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Selain pembelajaran penguatan, persamaan Bellman memiliki penerapan pada pemrograman dinamis. Lihat entri Wikipedia untuk Persamaan Bellman.
C
kritikus
Sinonim dari Deep Q-Network.
D
Jaringan Q Dalam (DQN)
Dalam Q-learning, jaringan neural dalam yang memprediksi Q-functions.
Kritik adalah sinonim dari Deep Q-Network.
DQN
Singkatan dari Deep Q-Network.
E
lingkungan
Dalam pembelajaran penguatan, dunia yang berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.
episode
Dalam pembelajaran penguatan, setiap upaya berulang oleh agen untuk mempelajari lingkungan.
kebijakan terkait keserakahan epsilon
Dalam pembelajaran penguatan, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan keserakahan jika tidak memilikinya. Misalnya, jika epsilon bernilai 0,9, kebijakan tersebut akan mengikuti kebijakan acak sebanyak 90% dari waktu tersebut dan kebijakan yang paling umum dalam waktu 10%.
Melalui episode yang berurutan, algoritme akan mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan yang umum. Dengan mengubah kebijakan, agen akan menjelajahi lingkungan secara acak terlebih dahulu, lalu mengeksploitasi hasil eksplorasi acak.
putar ulang pengalaman
Dalam pembelajaran penguatan, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.
G
kebijakan serakah
Dalam pembelajaran penguatan, kebijakan yang selalu memilih tindakan dengan pengembalian tertinggi yang diharapkan.
M
Proses keputusan Markov (MDP)
Grafik yang menunjukkan model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk membuka urutan status dengan asumsi properti Markov berlaku. Dalam pembelajaran penguatan, transisi antar-status ini menampilkan reward numerik.
Properti Markov
Properti lingkungan tertentu, tempat transisi status sepenuhnya ditentukan oleh informasi implisit dalam status saat ini dan tindakan agen.
P
kebijakan
Dalam pembelajaran penguatan, pemetaan probabilistik agen dari status ke tindakan.
T
Fungsi Q
Dalam pembelajaran berbasis kekuatan, fungsi yang memprediksi pengembalian yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.
Fungsi q juga dikenal sebagai fungsi nilai tindakan status.
Pembelajaran Kuartal-K
Dalam pembelajaran penguatan, algoritme yang memungkinkan agen untuk mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov memodelkan lingkungan.
R
kebijakan acak
Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.
pembelajaran penguatan (RL)
Jenis algoritme yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan return saat berinteraksi dengan lingkungan. Misalnya, reward akhir dari sebagian besar game adalah kemenangan. Sistem pembelajaran penguatan dapat menjadi ahli dalam memainkan game yang kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kerugian.
buffering pemutaran
Dalam algoritme seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.
return
Dalam pembelajaran penguatan, dengan kebijakan tertentu dan status tertentu, pengembaliannya adalah jumlah dari semua reward yang diharapkan oleh agen untuk diterima saat mengikuti kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda dari reward yang diharapkan dengan memberikan diskon pada reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.
Oleh karena itu, jika faktor diskonnya adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, maka perhitungan pengembaliannya adalah sebagai berikut:
bonus
Dalam pembelajaran penguatan, hasil numerik dari pengambilan tindakan di status, seperti yang ditentukan oleh lingkungan.
S
status
Dalam pembelajaran penguatan, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agent untuk memilih tindakan.
fungsi nilai tindakan status
Sinonim dari Fungsi Q.
T
Q-learning berbentuk tabel
Dalam pembelajaran penguatan, terapkan Q-learning dengan menggunakan tabel untuk menyimpan Q-functions untuk setiap kombinasi state dan action.
jaringan target
Dalam Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan Q-function atau policy. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama melatih nilai Q yang diprediksi dengan sendirinya. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.
kondisi penghentian
Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah ambang batas transisi status. Misalnya, dalam tic-tac-toe (disebut juga sebagai nned and crosses), sebuah episode akan berakhir saat pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.
lintasan
Dalam pembelajaran penguatan, urutan tupel yang mewakili urutan transisi status dari agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.