Bu sayfada, pekiştirmeli öğrenmeyle ilgili terimler yer almaktadır. Tüm terimler için burayı tıklayın.
A
işlem
Pekiştirmeli öğrenme'de, aracı'nın ortam durumları arasında geçiş yaptığı mekanizma. Temsilci, politika kullanarak işlemi seçer.
temsilci
Güçlendirme öğrenimi'nde, ortam durumları arasında geçişten elde edilen beklenen dönüşüm değerini en üst düzeye çıkarmak için politika kullanan varlık.
Daha genel bir ifadeyle, aracı, bir hedefe ulaşmak için bir dizi işlemi bağımsız olarak planlayan ve yürüten, çevresindeki değişikliklere uyum sağlayabilen bir yazılımdır. Örneğin, LLM tabanlı bir temsilci, pekiştirme öğrenme politikası uygulamak yerine plan oluşturmak için LLM kullanabilir.
B
Bellman denklemi
Güçlendirme öğrenimi, optimal Q işlevi tarafından aşağıdaki kimliği karşılar:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Güçlendirme öğrenimi algoritmaları, aşağıdaki güncelleme kuralı aracılığıyla Q-öğrenimi oluşturmak için bu kimliği uygular:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Bellman denklemi, pekiştirmeli öğrenmenin yanı sıra dinamik programlamada da kullanılır. Bellman denklemi için Wikipedia girişine göz atın.
C
eleştirmen
Derin Q Ağı ile eş anlamlıdır.
D
Deep Q-Network (DQN)
Q-öğrenme'de, Q işlevlerini tahmin eden derin bir sinir ağı.
Eleştirici, Deep Q ağının eş anlamlısıdır.
DQN
Derin Q Ağı kısaltması.
E
ortam
Güçlendirme öğrenimi, aracı içeren ve aracının bu dünyanın durumunu gözlemlemesine olanak tanıyan dünyadır. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Temsilci, ortama bir işlem uyguladığında ortam, durumlar arasında geçiş yapar.
bölüm
Güçlendirme öğrenimi sürecinde, öğrenen tarafından ortamı öğrenmek için yapılan her deneme.
epsilon açgözlü politikası
Güçlendirme öğrenimi, epsilon olasılığıyla rastgele bir politika veya aksi takdirde açgözlü bir politika izleyen bir politikadır. Örneğin, epsilon 0,9 ise politika, zamanın% 90'ında rastgele bir politika ve zamanın% 10'unda açgözlü bir politika izler.
Algoritma, rastgele bir politikayı izlemekten açgözlü bir politikayı izlemeye geçmek için art arda bölümler boyunca epsilon değerini azaltır. Politikayı değiştirerek, temsilci önce ortamı rastgele keşfeder ve ardından rastgele keşfin sonuçlarından açgözlü bir şekilde yararlanır.
deneyimi yeniden oynatma
Güçlendirme öğrenimi, eğitim verilerindeki zamansal korelasyonları azaltmak için kullanılan bir DQN tekniğidir. Aracı, durum geçişlerini yeniden oynatma arabelleğinde depolar ve ardından eğitim verileri oluşturmak için yeniden oynatma arabelleğindeki geçişleri örnekler.
G
açgözlü politika
Güçlendirme öğrenimi, her zaman beklenen en yüksek dönüş sağlayan işlemi seçen bir politikadır.
M
Markov karar süreci (MDP)
Markov özelliğinin geçerli olduğu varsayımı altında, durumlar arasında gezinmek için kararların (veya işlemlerin) alındığı karar verme modelini temsil eden bir grafik. Güçlendirme öğrenimi'nde, durumlar arasındaki bu geçişler sayısal bir ödül döndürür.
Markov özelliği
Durum geçişlerinin tamamen mevcut durum ve aracının işlemine dahil olan bilgilere göre belirlendiği belirli ortamların bir özelliğidir.
P
policy
Pekiştirmeli öğrenmede, aracı durumlardan işlemlere olasılıksal eşleme yapar.
S
Q işlevi
Güçlendirme öğrenimi'nde, durumda işlem gerçekleştirip ardından belirli bir politikayı uygulamanın beklenen döndürümünü tahmin eden işlev.
Q işlevi, durum-işlem değer işlevi olarak da bilinir.
Q-öğrenme
Güçlendirme öğrenimi'nde, aracı'nın Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesine olanak tanıyan bir algoritmadır. Markov karar süreci, bir ortamı modeller.
K
rastgele politika
Güçlendirme öğrenimi'nde, işlem seçen rastgele bir politika.
pekiştirmeli öğrenme (RL)
Bir ortam ile etkileşimde bulunurken getiriyi en üst düzeye çıkarmak amacıyla en uygun politikayı öğrenen bir algoritma ailesi. Örneğin, çoğu oyunda nihai ödül zaferdir. Pekiştirmeli öğrenme sistemleri, önceki oyun hareketlerinin kazanca veya kayba yol açan sıralarını değerlendirerek karmaşık oyunlarda uzman olabilir.
Gerçek Kullanıcı Geri Bildirimlerinden Pekiştirmeli Öğrenme (RLHF)
Modelin yanıtlarının kalitesini iyileştirmek için gerçek kişilerden gelen geri bildirimleri kullanma Örneğin, bir RLHF mekanizması kullanıcılardan bir modelin yanıtının kalitesini 👍 veya 👎 emojisiyle değerlendirmelerini isteyebilir. Sistem daha sonra gelecekteki yanıtlarını bu geri bildirime göre ayarlayabilir.
tekrar oynatma arabelleği
DQN benzeri algoritmalarda, deneyim yeniden oynatma sırasında kullanılmak üzere durum geçişlerini depolamak için aracı tarafından kullanılan bellek.
return
Güçlendirme öğrenimi sırasında, belirli bir politika ve belirli bir durum verildiğinde getiri, aracı durumdan bölüm sonuna kadar politikayı uygularken almasını beklediği tüm ödüllerin toplamıdır. Temsilci, ödülü almak için gereken durum geçişlerine göre ödülleri indirimli olarak hesaplayarak beklenen ödüllerin gecikmeli yapısını hesaba katar.
Bu nedenle, indirim faktörü \(\gamma\)ise ve \(r_0, \ldots, r_{N}\), bölümün sonuna kadar kazanılan ödülleri gösteriyorsa getiri hesaplaması aşağıdaki gibidir:
ödül
Pekiştirmeli öğrenmede, ortam tarafından tanımlanan bir durumda işlem gerçekleştirmenin sayısal sonucu.
S
durum
Güçlendirme öğrenimi, aracı'nın işlem seçmek için kullandığı, ortamın mevcut yapılandırmasını tanımlayan parametre değerleridir.
durum-işlem değer fonksiyonu
Q işlevi için eş anlamlı.
T
tablolu Q öğrenme
Güçlendirme öğrenimi'nde, her durum ve işlem kombinasyonu için Q işlevlerini depolamak üzere bir tablo kullanarak Q öğrenme uygulanır.
hedef ağ
Derin Q öğrenme'de, ana sinir ağının Q işlevi veya politika uyguladığı ana sinir ağının kararlı bir kestirmesi olan bir sinir ağı. Ardından, ana ağı hedef ağ tarafından öngörülen Q değerleriyle eğitebilirsiniz. Bu nedenle, ana ağ kendi tahmin ettiği Q değerleriyle eğitilirken ortaya çıkan geri bildirim döngüsünü önlersiniz. Bu geri bildirimden kaçınarak eğitim kararlılığı artar.
fesih koşulu
Güçlendirme öğrenimi'nde, bir bölüm'ün ne zaman sona ereceğini belirleyen koşullar (ör. aracı belirli bir duruma ulaştığında veya belirli bir durum geçişi eşiğini aştığında). Örneğin, tik tak (eşkenar çarpı olarak da bilinir) oyununda bir bölüm, bir oyuncu art arda üç kareyi işaretlediğinde veya tüm kareler işaretlendiğinde sona erer.
yörünge
Güçlendirme öğrenimi'nde, öğrenen durum geçişlerinin bir sırasını temsil eden tuple dizisi. Her tuple, durum, işlem, ödül ve belirli bir durum geçişi için sonraki duruma karşılık gelir.