Halaman ini diterjemahkan oleh Cloud Translation API.

Glosarium Machine Learning: Reinforcement Learning

Halaman ini berisi istilah glosarium Reinforcement Learning. Untuk semua istilah glosarium, klik di sini.

A

action

#rl

Dalam reinforcement learning, mekanisme yang digunakan agen untuk bertransisi di antara status lingkungan. Agen memilih tindakan menggunakan kebijakan.

agen

#rl

Dalam pembelajaran penguatan, entitas yang menggunakan kebijakan untuk memaksimalkan hasil yang diharapkan diperoleh dari transisi antara status lingkungan.

Secara lebih umum, agen adalah software yang secara otonom merencanakan dan menjalankan serangkaian tindakan untuk mencapai sasaran, dengan kemampuan untuk beradaptasi dengan perubahan di lingkungannya. Misalnya, agen berbasis LLM dapat menggunakan LLM untuk membuat rencana, bukan menerapkan kebijakan reinforcement learning.

B

Persamaan Bellman

#rl

Dalam reinforcement learning, identitas berikut dipenuhi oleh fungsi-Q yang optimal:

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

Algoritma pembelajaran penguatan menerapkan identitas ini untuk membuat pembelajaran Q menggunakan aturan update berikut:

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

Selain reinforcement learning, persamaan Bellman memiliki aplikasi untuk pemrograman dinamis. Lihat entri Wikipedia untuk persamaan Bellman.

C

kritikus

#rl

Sinonim dari Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

Dalam pembelajaran Q, jaringan neural dalam deep yang memprediksi fungsi Q.

Critic adalah sinonim untuk Deep Q-Network.

DQN

#rl

Singkatan dari Deep Q-Network.

E

lingkungan

#rl

Dalam reinforcement learning, dunia yang berisi agen dan memungkinkan agen mengamati status dunia tersebut. Misalnya, dunia yang direpresentasikan dapat berupa game seperti catur, atau dunia fisik seperti labirin. Saat agen menerapkan tindakan ke lingkungan, lingkungan akan bertransisi antar-status.

episode

#rl

Dalam reinforcement learning, setiap upaya berulang oleh agen untuk mempelajari lingkungan.

kebijakan epsilon greedy

#rl

Dalam reinforcement learning, kebijakan yang mengikuti kebijakan acak dengan probabilitas epsilon atau kebijakan serakah. Misalnya, jika epsilon adalah 0,9, kebijakan akan mengikuti kebijakan acak 90% dari waktu dan kebijakan greedy 10% dari waktu.

Selama episode berturut-turut, algoritma mengurangi nilai epsilon untuk beralih dari mengikuti kebijakan acak ke mengikuti kebijakan rakus. Dengan mengubah kebijakan, agen pertama-tama menjelajahi lingkungan secara acak, lalu mengeksploitasi hasil eksplorasi acak secara rakus.

pemutaran ulang pengalaman

#rl

Dalam reinforcement learning, teknik DQN digunakan untuk mengurangi korelasi temporal dalam data pelatihan. Agen menyimpan transisi status dalam buffer replay, lalu mengambil sampel transisi dari buffer replay untuk membuat data pelatihan.

G

kebijakan rakus

#rl

Dalam reinforcement learning, kebijakan yang selalu memilih tindakan dengan hasil yang diharapkan tertinggi.

M

Proses keputusan Markov (MDP)

#rl

Grafik yang mewakili model pengambilan keputusan tempat keputusan (atau tindakan) diambil untuk menavigasi urutan status dengan asumsi bahwa properti Markov berlaku. Dalam reinforcement learning, transisi antara status ini menampilkan reward numerik.

Properti Markov

#rl

Properti lingkungan tertentu, dengan transisi status sepenuhnya ditentukan oleh informasi yang implisit dalam status saat ini dan tindakan agen.

P

kebijakan

#rl

Dalam reinforcement learning, pemetaan probabilistik agen dari status ke tindakan.

T

Fungsi Q

#rl

Dalam reinforcement learning, fungsi yang memprediksi return yang diharapkan dari mengambil tindakan dalam status, lalu mengikuti kebijakan tertentu.

Fungsi Q juga dikenal sebagai fungsi nilai status-tindakan.

Pemelajaran Q

#rl

Dalam reinforcement learning, algoritma yang memungkinkan agen mempelajari fungsi Q optimal dari proses keputusan Markov dengan menerapkan persamaan Bellman. Proses keputusan Markov membuat model lingkungan.

R

kebijakan acak

#rl

Dalam pembelajaran penguatan, kebijakan yang memilih tindakan secara acak.

reinforcement learning (RL)

#rl

Sekumpulan algoritma yang mempelajari kebijakan yang optimal, yang tujuannya adalah memaksimalkan hasil saat berinteraksi dengan lingkungan. Misalnya, imbalan akhir dari kebanyakan game adalah kemenangan. Sistem pembelajaran berbasis imbalan dapat menjadi pakar dalam bermain game kompleks, dengan mengevaluasi urutan gerakan dari game sebelumnya yang akhirnya mengakibatkan kemenangan dan urutan yang akhirnya mengakibatkan kekalahan.

Reinforcement Learning from Human Feedback (RLHF)

#generativeAI

#rl

Menggunakan masukan dari penilai manual untuk meningkatkan kualitas respons model. Misalnya, mekanisme RLHF dapat meminta pengguna untuk menilai kualitas respons model dengan emoji 👍 atau 👎. Sistem kemudian dapat menyesuaikan responsnya di masa mendatang berdasarkan masukan tersebut.

replay buffer

#rl

Dalam algoritma seperti DQN, memori yang digunakan oleh agen untuk menyimpan transisi status untuk digunakan dalam rekaman ulang pengalaman.

pengembalian

#rl

Dalam reinforcement learning, dengan kebijakan tertentu dan status tertentu, return adalah jumlah dari semua reward yang diharapkan agen untuk menerima saat mengikuti kebijakan dari status hingga akhir episode. Agen mempertimbangkan sifat reward yang diharapkan yang tertunda dengan memberikan diskon reward sesuai dengan transisi status yang diperlukan untuk mendapatkan reward.

Oleh karena itu, jika faktor diskon adalah $\gamma$ , dan $r_0, \ldots, r_{N}$ menunjukkan reward hingga akhir episode, penghitungan pengembalian adalah sebagai berikut:

$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$

reward

#rl

Dalam reinforcement learning, hasil numerik dari pengambilan tindakan dalam status, seperti yang ditentukan oleh lingkungan.

S

dengan status tersembunyi akhir

#rl

Dalam reinforcement learning, parameter value yang menjelaskan konfigurasi lingkungan saat ini, yang digunakan agen untuk memilih tindakan.

fungsi nilai tindakan status

#rl

Sinonim dari fungsi Q.

S

pembelajaran Q tabulasi

#rl

Dalam reinforcement learning, menerapkan Q-learning dengan menggunakan tabel untuk menyimpan fungsi Q untuk setiap kombinasi status dan tindakan.

jaringan target

#rl

Dalam Deep Q-learning, jaringan neural yang merupakan aproksimasi stabil dari jaringan neural utama, dengan jaringan neural utama menerapkan fungsi Q atau kebijakan. Kemudian, Anda dapat melatih jaringan utama pada nilai Q yang diprediksi oleh jaringan target. Oleh karena itu, Anda mencegah loop masukan yang terjadi saat jaringan utama dilatih pada nilai Q yang diprediksi oleh dirinya sendiri. Dengan menghindari masukan ini, stabilitas pelatihan akan meningkat.

kondisi penghentian

#rl

Dalam pembelajaran penguatan, kondisi yang menentukan kapan episode berakhir, seperti saat agen mencapai status tertentu atau melebihi jumlah minimum transisi status. Misalnya, dalam tic-tac-toe (juga dikenal sebagai noughts and crosses), episode berakhir saat pemain menandai tiga ruang berturut-turut atau saat semua ruang ditandai.

lintasan

#rl

Dalam pembelajaran penguatan, urutan tuple yang mewakili urutan transisi status agen, dengan setiap tuple sesuai dengan status, tindakan, reward, dan status berikutnya untuk transisi status tertentu.