Makine Öğrenimi Sözlüğü: Pekiştirmeli Öğrenim

Bu sayfada, pekiştirmeli öğrenmeyle ilgili terimler yer almaktadır. Tüm terimler için burayı tıklayın.

A

işlem

#rl

Pekiştirmeli öğrenme'de, aracı'nın ortam durumları arasında geçiş yaptığı mekanizma. Temsilci, politika kullanarak işlemi seçer.

temsilci

#rl

Güçlendirme öğrenimi'nde, ortam durumları arasında geçişten elde edilen beklenen dönüşüm değerini en üst düzeye çıkarmak için politika kullanan varlık.

Daha genel bir ifadeyle, aracı, bir hedefe ulaşmak için bir dizi işlemi bağımsız olarak planlayan ve yürüten, çevresindeki değişikliklere uyum sağlayabilen bir yazılımdır. Örneğin, LLM tabanlı bir temsilci, pekiştirme öğrenme politikası uygulamak yerine plan oluşturmak için LLM kullanabilir.

B

Bellman denklemi

#rl

Güçlendirme öğrenimi, optimal Q işlevi tarafından aşağıdaki kimliği karşılar:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Güçlendirme öğrenimi algoritmaları, aşağıdaki güncelleme kuralı aracılığıyla Q-öğrenimi oluşturmak için bu kimliği uygular:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Bellman denklemi, pekiştirmeli öğrenmenin yanı sıra dinamik programlamada da kullanılır. Bellman denklemi için Wikipedia girişine göz atın.

C

eleştirmen

#rl

Derin Q Ağı ile eş anlamlıdır.

D

Deep Q-Network (DQN)

#rl

Q-öğrenme'de, Q işlevlerini tahmin eden derin bir sinir ağı.

Eleştirici, Deep Q ağının eş anlamlısıdır.

DQN

#rl

Derin Q Ağı kısaltması.

E

ortam

#rl

Güçlendirme öğrenimi, aracı içeren ve aracının bu dünyanın durumunu gözlemlemesine olanak tanıyan dünyadır. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Temsilci, ortama bir işlem uyguladığında ortam, durumlar arasında geçiş yapar.

bölüm

#rl

Güçlendirme öğrenimi sürecinde, öğrenen tarafından ortamı öğrenmek için yapılan her deneme.

epsilon açgözlü politikası

#rl

Güçlendirme öğrenimi, epsilon olasılığıyla rastgele bir politika veya aksi takdirde açgözlü bir politika izleyen bir politikadır. Örneğin, epsilon 0,9 ise politika, zamanın% 90'ında rastgele bir politika ve zamanın% 10'unda açgözlü bir politika izler.

Algoritma, rastgele bir politikayı izlemekten açgözlü bir politikayı izlemeye geçmek için art arda bölümler boyunca epsilon değerini azaltır. Politikayı değiştirerek, temsilci önce ortamı rastgele keşfeder ve ardından rastgele keşfin sonuçlarından açgözlü bir şekilde yararlanır.

deneyimi yeniden oynatma

#rl

Güçlendirme öğrenimi, eğitim verilerindeki zamansal korelasyonları azaltmak için kullanılan bir DQN tekniğidir. Aracı, durum geçişlerini yeniden oynatma arabelleğinde depolar ve ardından eğitim verileri oluşturmak için yeniden oynatma arabelleğindeki geçişleri örnekler.

G

açgözlü politika

#rl

Güçlendirme öğrenimi, her zaman beklenen en yüksek dönüş sağlayan işlemi seçen bir politikadır.

M

Markov karar süreci (MDP)

#rl

Markov özelliğinin geçerli olduğu varsayımı altında, durumlar arasında gezinmek için kararların (veya işlemlerin) alındığı karar verme modelini temsil eden bir grafik. Güçlendirme öğrenimi'nde, durumlar arasındaki bu geçişler sayısal bir ödül döndürür.

Markov özelliği

#rl

Durum geçişlerinin tamamen mevcut durum ve aracının işlemine dahil olan bilgilere göre belirlendiği belirli ortamların bir özelliğidir.

P

policy

#rl

Pekiştirmeli öğrenmede, aracı durumlardan işlemlere olasılıksal eşleme yapar.

S

Q işlevi

#rl

Güçlendirme öğrenimi'nde, durumda işlem gerçekleştirip ardından belirli bir politikayı uygulamanın beklenen döndürümünü tahmin eden işlev.

Q işlevi, durum-işlem değer işlevi olarak da bilinir.

Q-öğrenme

#rl

Güçlendirme öğrenimi'nde, aracı'nın Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesine olanak tanıyan bir algoritmadır. Markov karar süreci, bir ortamı modeller.

K

rastgele politika

#rl

Güçlendirme öğrenimi'nde, işlem seçen rastgele bir politika.

pekiştirmeli öğrenme (RL)

#rl

Bir ortam ile etkileşimde bulunurken getiriyi en üst düzeye çıkarmak amacıyla en uygun politikayı öğrenen bir algoritma ailesi. Örneğin, çoğu oyunda nihai ödül zaferdir. Pekiştirmeli öğrenme sistemleri, önceki oyun hareketlerinin kazanca veya kayba yol açan sıralarını değerlendirerek karmaşık oyunlarda uzman olabilir.

Gerçek Kullanıcı Geri Bildirimlerinden Pekiştirmeli Öğrenme (RLHF)

#generativeAI
#rl

Modelin yanıtlarının kalitesini iyileştirmek için gerçek kişilerden gelen geri bildirimleri kullanma Örneğin, bir RLHF mekanizması kullanıcılardan bir modelin yanıtının kalitesini 👍 veya 👎 emojisiyle değerlendirmelerini isteyebilir. Sistem daha sonra gelecekteki yanıtlarını bu geri bildirime göre ayarlayabilir.

tekrar oynatma arabelleği

#rl

DQN benzeri algoritmalarda, deneyim yeniden oynatma sırasında kullanılmak üzere durum geçişlerini depolamak için aracı tarafından kullanılan bellek.

return

#rl

Güçlendirme öğrenimi sırasında, belirli bir politika ve belirli bir durum verildiğinde getiri, aracı durumdan bölüm sonuna kadar politikayı uygularken almasını beklediği tüm ödüllerin toplamıdır. Temsilci, ödülü almak için gereken durum geçişlerine göre ödülleri indirimli olarak hesaplayarak beklenen ödüllerin gecikmeli yapısını hesaba katar.

Bu nedenle, indirim faktörü \(\gamma\)ise ve \(r_0, \ldots, r_{N}\), bölümün sonuna kadar kazanılan ödülleri gösteriyorsa getiri hesaplaması aşağıdaki gibidir:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

ödül

#rl

Pekiştirmeli öğrenmede, ortam tarafından tanımlanan bir durumda işlem gerçekleştirmenin sayısal sonucu.

S

durum

#rl

Güçlendirme öğrenimi, aracı'nın işlem seçmek için kullandığı, ortamın mevcut yapılandırmasını tanımlayan parametre değerleridir.

durum-işlem değer fonksiyonu

#rl

Q işlevi için eş anlamlı.

T

tablolu Q öğrenme

#rl

Güçlendirme öğrenimi'nde, her durum ve işlem kombinasyonu için Q işlevlerini depolamak üzere bir tablo kullanarak Q öğrenme uygulanır.

hedef ağ

#rl

Derin Q öğrenme'de, ana sinir ağının Q işlevi veya politika uyguladığı ana sinir ağının kararlı bir kestirmesi olan bir sinir ağı. Ardından, ana ağı hedef ağ tarafından öngörülen Q değerleriyle eğitebilirsiniz. Bu nedenle, ana ağ kendi tahmin ettiği Q değerleriyle eğitilirken ortaya çıkan geri bildirim döngüsünü önlersiniz. Bu geri bildirimden kaçınarak eğitim kararlılığı artar.

fesih koşulu

#rl

Güçlendirme öğrenimi'nde, bir bölüm'ün ne zaman sona ereceğini belirleyen koşullar (ör. aracı belirli bir duruma ulaştığında veya belirli bir durum geçişi eşiğini aştığında). Örneğin, tik tak (eşkenar çarpı olarak da bilinir) oyununda bir bölüm, bir oyuncu art arda üç kareyi işaretlediğinde veya tüm kareler işaretlendiğinde sona erer.

yörünge

#rl

Güçlendirme öğrenimi'nde, öğrenen durum geçişlerinin bir sırasını temsil eden tuple dizisi. Her tuple, durum, işlem, ödül ve belirli bir durum geçişi için sonraki duruma karşılık gelir.