Halaman ini berisi istilah glosarium Reinforcement Learning. Untuk semua istilah glosarium, klik di sini.
A
action
Dalam reinforcement learning, mekanisme yang digunakan agen untuk bertransisi di antara status lingkungan. Agen memilih tindakan menggunakan kebijakan.
agen
Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan hasil yang diharapkan diperoleh dari transisi antara status lingkungan.
Secara lebih umum, agen adalah software yang secara otonom merencanakan dan menjalankan serangkaian tindakan untuk mencapai sasaran, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen berbasis LLM dapat menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.
B
Persamaan Bellman
Dalam reinforcement learning, identitas berikut dipenuhi oleh fungsi-Q yang optimal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Algoritma pembelajaran penguatan menerapkan identitas ini untuk membuat pembelajaran Q melalui aturan pembaruan berikut:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Selain reinforcement learning, persamaan Bellman memiliki aplikasi untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.
C
kritikus
Sinonim dari Deep Q-Network.
D
Deep Q-Network (DQN)
Dalam pembelajaran Q, jaringan neural dalam deep yang memprediksi fungsi Q.
Critic adalah sinonim untuk Deep Q-Network.
DQN
Singkatan dari Deep Q-Network.
E
lingkungan
Dalam reinforcement learning, dunia yang berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.
episode
Dalam reinforcement learning, setiap upaya berulang oleh agen untuk mempelajari lingkungan.
kebijakan epsilon greedy
Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah. Misalnya, jika epsilon adalah 0,9, kebijakan akan mengikuti kebijakan acak 90% waktu dan kebijakan greedy 10% waktu.
Selama episode berturut-turut, algoritma mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan rakus. Dengan mengubah kebijakan, agen pertama-tama menjelajahi lingkungan secara acak, lalu mengeksploitasi hasil eksplorasi acak secara rakus.
pemutaran ulang pengalaman
Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.
G
kebijakan rakus
Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan hasil yang diharapkan tertinggi.
M
Proses keputusan Markov (MDP)
Grafik yang mewakili model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Dalam pembelajaran penguatan, transisi antara status ini menampilkan reward numerik.
Properti Markov
Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.
P
kebijakan
Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.
T
Fungsi Q
Dalam pembelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.
Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.
Pemelajaran Q
Dalam reinforcement learning, algoritma yang memungkinkan agen mempelajari fungsi Q optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov membuat model lingkungan.
R
kebijakan acak
Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.
reinforcement learning (RL)
Sekelompok algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan hasil saat berinteraksi dengan lingkungan. Misalnya, imbalan akhir dari kebanyakan game adalah kemenangan. Sistem pembelajaran berbasis imbalan dapat menjadi pakar dalam bermain game kompleks, dengan mengevaluasi urutan gerakan dari game sebelumnya yang akhirnya mengakibatkan kemenangan dan urutan yang akhirnya mengakibatkan kekalahan.
Reinforcement Learning from Human Feedback (RLHF)
Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 👎. Sistem kemudian dapat menyesuaikan responsnya di masa mendatang berdasarkan masukan tersebut.
replay buffer
Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam rekaman ulang pengalaman.
pengembalian
Dalam reinforcement learning, dengan kebijakan tertentu dan status tertentu, return adalah jumlah dari semua reward yang diharapkan agen untuk menerima saat mengikuti kebijakan dari status hingga akhir episode. Agen mempertimbangkan sifat reward yang tertunda dengan memberikan diskon reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.
Oleh karena itu, jika faktor diskon adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, penghitungan pengembalian adalah sebagai berikut:
reward
Dalam reinforcement learning, hasil numerik dari mengambil tindakan dalam status, seperti yang ditentukan oleh lingkungan.
S
dengan status tersembunyi akhir
Dalam reinforcement learning, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.
fungsi nilai tindakan status
Sinonim dari fungsi Q.
S
pembelajaran Q tabulasi
Dalam reinforcement learning, menerapkan Q-learning dengan menggunakan tabel untuk menyimpan fungsi Q untuk setiap kombinasi status dan tindakan.
jaringan target
Dalam Deep Q-learning, jaringan neural yang merupakan aproksimasi stabil dari jaringan neural utama, dengan jaringan neural utama menerapkan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah loop masukan yang terjadi saat jaringan utama dilatih pada nilai Q yang diprediksi oleh dirinya sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.
kondisi penghentian
Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah minimum transisi status. Misalnya, dalam tic-tac-toe (juga dikenal sebagai noughts and crosses), episode berakhir saat pemain menandai tiga ruang berturut-turut atau saat semua ruang ditandai.
lintasan
Dalam pembelajaran penguatan, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.