Glosarium Machine Learning: Reinforcement Learning

Halaman ini berisi istilah glosarium Reinforcement Learning. Untuk semua istilah glosarium, klik di sini.

J

action

#rl

Dalam pembelajaran penguatan, mekanisme yang digunakan agen untuk bertransisi antar-status di lingkungan. Agen memilih tindakan menggunakan kebijakan.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan laba yang diharapkan yang diperoleh dari transisi antara status lingkungan.

Secara lebih umum, agen adalah software yang secara mandiri merencanakan dan menjalankan serangkaian tindakan untuk mencapai tujuan, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen yang berbasis LLM dapat menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

B

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut dipenuhi oleh Q-function yang optimal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algoritma Reinforcement learning menerapkan identitas ini untuk membuat Q-learning melalui aturan pembaruan berikut:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Selain reinforcement learning, persamaan Bellman juga memiliki penerapan untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.

C

kritikus

#rl

Sinonim dari Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

Dalam Q-learning, jaringan neural mendalam yang memprediksi fungsi Q.

Critic adalah sinonim dari Deep Q-Network.

DQN

#rl

Singkatan dari Deep Q-Network.

E

environment

#rl

Dalam reinforcement learning, dunia berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang diwakili dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan beralih antar-status.

episode

#rl

Dalam reinforcement learning, setiap percobaan berulang oleh agen untuk mempelajari lingkungan.

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan rakus jika tidak. Misalnya, jika epsilon bernilai 0,9, maka kebijakan akan mengikuti kebijakan acak 90% dan kebijakan serakah 10% dari waktu tersebut.

Selama episode yang berurutan, algoritme akan mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak menjadi mengikuti kebijakan yang berlebihan. Dengan mengalihkan kebijakan, agen pertama-tama akan menjelajahi lingkungan secara acak, lalu dengan serakah mengeksploitasi hasil eksplorasi acak.

putar ulang pengalaman

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi sementara dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu contoh transisi dari buffer replay untuk membuat data pelatihan.

G

kebijakan serakah

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan laba tertinggi yang diharapkan.

S

Proses keputusan Markov (MDP)

#rl

Grafik yang merepresentasikan model pengambilan keputusan saat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Dalam reinforcement learning, transisi antarstatus ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

P

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

T

Fungsi Q

#rl

Dalam pembelajaran penguatan, fungsi yang memprediksi hasil yang diharapkan dari melakukan tindakan dalam status lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status tindakan.

{i>Q-learning<i}

#rl

Dalam pembelajaran penguatan, algoritma yang memungkinkan agen mempelajari fungsi Q yang optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov memodelkan lingkungan.

R

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

Reinforcement Learning (RL)

#rl

Sekumpulan algoritma yang mempelajari kebijakan optimal, yang tujuannya adalah memaksimalkan pengembalian saat berinteraksi dengan lingkungan. Misalnya, reward utama dari sebagian besar game adalah kemenangan. Sistem pembelajaran reinforcement dapat menjadi ahli dalam bermain game kompleks dengan mengevaluasi urutan gerakan game sebelumnya yang pada akhirnya menghasilkan kemenangan dan urutan yang pada akhirnya menyebabkan kekalahan.

Pembelajaran Penguatan dari Masukan Manusia (RLHF)

#AI generatif
#rl

Menggunakan masukan dari penilai manusia untuk meningkatkan kualitas respons model. Sebagai contoh, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 📰. Selanjutnya, sistem dapat menyesuaikan responsnya berdasarkan umpan balik tersebut.

buffer replay

#rl

Dalam algoritma yang menyerupai DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam replay pengalaman.

return

#rl

Dalam reinforcement learning, dengan mempertimbangkan kebijakan dan status tertentu, hasilnya adalah jumlah dari semua reward yang diharapkan akan diterima oleh agen saat mengikuti kebijakan dari status hingga akhir episode. Agen memperhitungkan sifat tertunda reward yang diharapkan dengan memberikan diskon reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskon adalah \(\gamma\), dan \(r_0, \ldots, r_{N}\) menunjukkan reward hingga akhir episode, penghitungan pengembalian adalah sebagai berikut:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

bonus

#rl

Dalam reinforcement learning, hasil numerik dari pengambilan tindakan dalam status, seperti yang ditentukan oleh lingkungan.

S

state

#rl

Dalam reinforcement learning, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.

fungsi nilai state-action

#rl

Sinonim dari fungsi Q.

T

Q-learning tabel

#rl

Dalam reinforcement learning, terapkan Q-learning menggunakan tabel untuk menyimpan Q-functions untuk setiap kombinasi status dan tindakan.

jaringan target

#rl

Di dalam Deep Q-learning, jaringan neural yang merupakan perkiraan stabil dari jaringan neural utama, tempat jaringan neural utama mengimplementasikan Q-function atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah feedback loop yang terjadi saat jaringan utama berlatih berdasarkan nilai Q yang diprediksi sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

ketentuan penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan sebuah episode berakhir, seperti saat agen mencapai status tertentu atau melebihi batas jumlah transisi status. Misalnya, dalam tic-tac-toe (juga dikenal sebagai noughts dan crosses), episode berakhir saat pemain menandai tiga spasi berturut-turut atau saat semua spasi ditandai.

lintasan

#rl

Dalam reinforcement learning, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.