Bu sayfada, Pekiştirmeli Öğrenme sözlük terimleri bulunmaktadır. Tüm sözlük terimleri için burayı tıklayın.
CEVAP
işlem
Pekiştirmeli öğrenmede, aracının ortam durumları arasında geçişini sağlayan mekanizma. Temsilci, bir politika kullanarak işlemi seçer.
temsilci
Pekiştirmeli öğrenmede, ortamın durumları arasında geçişten elde edilen beklenen getiriyi en üst düzeye çıkarmak için bir politika kullanan varlık.
Daha genel anlamda, aracı, bir hedef doğrultusunda bir dizi eylemi otomatik olarak planlayan ve yürüten, ayrıca çevresindeki değişikliklere uyum sağlayabilme yeteneğine sahip olan bir yazılımdır. Örneğin, LLM tabanlı aracılar, pekiştirmeli öğrenme politikası uygulamak yerine bir plan oluşturmak için LLM'yi kullanabilir.
B
Bellman denklemi
Pekiştirmeli öğrenmede optimum Q işlevi ile aşağıdaki kimlik karşılanır:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Pekiştirmeli öğrenme algoritmaları, bu kimliği aşağıdaki güncelleme kuralı aracılığıyla Q-learning oluşturmak için uygular:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Bellman denklemi, pekiştirmeli öğrenmenin ötesinde dinamik programlama için de kullanılabilir. Belman denklemi için Wikipedia girişine bakın.
C
eleştirmen
Derin Q-Ağı ile eş anlamlı.
D
Derin Q-Ağı (DQN)
Q-learning'de Q işlevlerini tahmin eden derin bir nöral ağ.
Eleştirmen, Derin Q-Network ile eş anlamlıdır.
VKN
Derin Q-Network'ün kısaltmasıdır.
E
ortam
Pekiştirmeli öğrenmede, aracıyı içeren ve temsilcinin söz konusu devleti gözlemlemesine olanak tanıyan dünya kullanılır. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Aracı, ortama bir işlem uyguladığında, ortam durumlar arasında geçiş yapar.
bölüm
Pekiştirmeli öğrenmede, temsilcinin bir ortam öğrenmesi için tekrarlanan denemelerin her biri.
epsilon greedy politikası
Pekiştirmeli öğrenmede, epsilon olasılık içeren rastgele bir politikayı veya aksi halde aç gözlülük politikasını izleyen bir politika söz konusudur. Örneğin, epsilon 0,9 ise politika% 90 rastgele bir politika, %10 oranında açgözlü politika uygular.
Algoritma, birbirini takip eden bölümler üzerinden rastgele bir politika uygulamaktan açgözlü politika uygulamaya geçmek için epsilon'un değerini düşürür. Aracı, politikayı değiştirerek önce ortamı rastgele keşfeder ve rastgele keşif sonuçlarını aç gözle kullanır.
deneyimi tekrar oynatma
Pekiştirmeli öğrenmede, eğitim verilerindeki zamansal korelasyonları azaltmak için kullanılan bir DQN tekniği kullanılır. Aracı, durum geçişlerini bir tekrar oynatma arabelleğinde depolar. Daha sonra, eğitim verileri oluşturmak için tekrar oynatma arabelleğindeki geçişleri örnekler.
G
açgözlü politika
Pekiştirmeli öğrenmede, her zaman beklenen getiri en yüksek işlemi seçen bir politika kullanılır.
M
Markov karar süreci (MDP)
Markov mülkünün sahip olduğu varsayımıyla bir durum dizisinde gezinmek için kararların (veya eylemlerin) alındığı karar verme modelini temsil eden grafik. Pekiştirmeli öğrenmede, eyaletler arasındaki bu geçişler sayısal bir ödül döndürür.
Markov mülkü
Eyalet geçişlerinin tamamen geçerli durum ve temsilcinin işleminde örtülü bilgilere göre belirlendiği belirli ortamların mülkü.
P
policy
Pekiştirmeli öğrenmede, aracının durumlardan eylemlere olasılık eşleştirmesi yapılır.
SORU
Q işlevi
Pekiştirmeli öğrenmede, bir durum içindeyken ve ardından belirli bir politikayı izleyerek elde edilmesi beklenen dönüşü tahmin eden işlev.
Q işlevi, durum işlemi değer işlevi olarak da bilinir.
Q-öğrenim
Pekiştirmeli öğrenmede, bir aracının Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesini sağlayan bir algoritmadır. Markov karar süreci bir ortam modeller.
R
rastgele politika
Pekiştirmeli öğrenmede rastgele bir işlem seçen bir politika kullanılır.
pekiştirmeli öğrenme (RL)
Optimum politikayı öğrenen, amacı bir ortam ile etkileşim sırasında getiriyi en üst düzeye çıkarmak olan algoritma ailesi. Örneğin, çoğu oyunun nihai ödülü zaferdir. Pekiştirmeli öğrenme sistemleri, nihayetinde kayıplara yol açan önceki oyun hareketleri dizisini değerlendirerek karmaşık oyunları oynama konusunda uzmanlaşabilir.
İnsan geri bildirimlerinden yola çıkarak pekiştirmeli öğrenme (RLHF)
Bir modelin yanıtlarının kalitesini artırmak için gerçek kişi olan değerlendiricilerden gelen geri bildirimleri kullanma. Örneğin, RLHF mekanizması, kullanıcılardan bir modelin yanıtının kalitesini bir 👍 veya 👎 emojisiyle derecelendirmelerini isteyebilir. Sistem daha sonra bu geri bildirime göre gelecek yanıtlarını ayarlayabilir.
tekrar oynatma arabelleği
DQN benzeri algoritmalarda, aracı tarafından deneyim yeniden oynatma için durum geçişlerini depolamak üzere kullanılan bellek.
return
Pekiştirmeli öğrenmede ise belirli bir politika ve belirli bir durum verildiğinde getiri, temsilcinin politikayı eyaletten sonuna kadar bölüm sonuna kadar uygulayarak almayı beklediği tüm ödüllerin toplamıdır. Temsilci, ödülü almak için gereken durum geçişlerine göre ödüllerde indirim yaparak beklenen ödüllerin gecikmeli niteliğini hesaba katar.
Bu nedenle, indirim faktörü \(\gamma\)ise ve \(r_0, \ldots, r_{N}\)bölümün sonuna kadar ödülleri belirtiyorsa iade hesaplaması şu şekilde yapılır:
ödül
Pekiştirmeli öğrenmede, ortam tarafından tanımlanan şekilde bir durum içinde bir eylem almanın sayısal sonucu.
S
state
Pekiştirmeli öğrenmede, aracının bir işlem seçmek için kullandığı ortamın mevcut yapılandırmasını tanımlayan parametre değerleridir.
durum işlem değeri işlevi
Q-fonksiyonu ile eş anlamlı.
T
tablo biçiminde Q-öğrenim
Pekiştirmeli öğrenmede, her durum ve eylem kombinasyonu için Q işlevlerini depolayacak bir tablo kullanarak Q-learning'i uygulama.
hedef ağ
Derin Q-learning'de, ana nöral ağın bir Q işlevi veya politika uyguladığı, ana nöral ağın sabit bir yaklaşık gösterimi olan nöral ağ kullanılır. Ardından, ana ağı, hedef ağın tahmin ettiği Q değerleriyle ilgili eğitebilirsiniz. Bu nedenle, ana ağ kendi tahmin ettiği Q değerleriyle eğitildiğinde oluşan geri bildirim döngüsünü engellersiniz. Bu geri bildirimlerden kaçındığınızda eğitim kararlılığı artar.
sonlandırma koşulu
Pekiştirmeli öğrenmede, aracının belirli bir duruma ulaşması veya belirli bir durum geçişi sayısını aşması gibi bir bölümün ne zaman sona ereceğini belirleyen koşullar. Örneğin, tik-tac-toe tekniğinde (noughts ve çarpma olarak da bilinir), bir oyuncu art arda üç boşluk işaretlediğinde veya tüm boşluklar işaretlendiğinde bölüm sonlandırılır.
yörünge
Pekiştirmeli öğrenmede, aracı için bir durum geçiş sırasını temsil eden tuple dizisidir. Her unsur, belirli bir durum geçişinin durum, işlem, ödül ve sonraki duruma karşılık gelir.