Makine Öğrenimi Sözlüğü: Güçlendirme Öğrenimi

Bu sayfada, pekiştirmeli öğrenme sözlüğü terimleri yer alır. Tüm sözlük terimleri için burayı tıklayın.

A

işlem

#rl

Pekiştirmeli öğrenmede aracının ortamının eyaletleri arasında nasıl geçiş yaptığını belirtir. Temsilci bir politika kullanarak işlemi seçer.

temsilci

#rl

Destek eğitiminde, politikayı kullanarak ortamın durumları arasında geçiş yapıldığında beklenen tahmini değeri en üst düzeye çıkaran varlık.

B

Bellman denklemi

#rl

Pekiştirmeli öğrenmede aşağıdaki kimlik optimum Q işlevinden memnun olur:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Pekiştirmeli öğrenme algoritmaları bu kimliği aşağıdaki güncelleme kuralıyla Q-learning oluşturmak için uygular:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Pekiştirmeli öğrenmenin ötesinde, Bellman denkleminin dinamik programlama için uygulamaları vardır. Bingman Denklemi için Wikipedia girişine bakın.

C

eleştiri

#rl

Derin Q-Network için eş anlamlıdır.

D

Derin Q Ağı (DQN)

#rl

Q-learning'de, Q işlevlerini tahmin eden derin bir nöral ağ vardır.

Kritik, Derin Q Ağı ile eş anlamlıdır.

DQN

#rl

Derin Q Ağı'nın kısaltması.

E

ortam

#rl

Pekiştirmeli öğrenmede aracıyı içeren ve temsilcinin, söz konusu dünyanın durumunu gözlemleyebileceği dünya. Örneğin, temsil edilen dünya satranç gibi bir oyun, labirent gibi fiziksel bir dünya olabilir. Temsilci ortama bir action uyguladığında ortam, eyaletler arasında geçiş yapar.

bölüm

#rl

Pekiştirici öğrenimde, aracı tarafından bir ortam öğrenmek için yapılan tekrarlanan denemeler.

epsilon açgözlülük politikası

#rl

Pekiştirmeli öğrenmede rastgele politikaya uygun, epilepsi olasılığı olan bir politika ya da açlık politikası. Örneğin, epsilon %0,9 olduğunda politika, %90 rastgele bir politikaya ve %10'luk bir açış politikasına uyar.

Algoritma, arka arkaya bölümler üzerinde rastgele bir politikayı izlemekten açgözlü bir politika izlemeye geçmek için epsilon'un değerini düşürür. Aracı, politikayı değiştirerek ilk olarak rastgele bir ortam keşfeder ve ardından rastgele keşfin sonuçlarını huzursuz bir şekilde kullanır.

tekrar oynatma deneyimi

#rl

Pekiştirmeli öğrenmede, eğitim verilerindeki geçici korelasyonları azaltmak için bir DQN tekniği kullanılır. agent, durum geçişlerini bir tekrar oynatma arabelleğinde saklar ve ardından eğitim verilerini oluşturmak için tekrar oynatma arabelleğinden geçişleri örnekler.

G

açgöz politikası

#rl

Pekiştirmeli öğrenmede, her zaman beklenen en yüksek dönüşe sahip işlemi seçen bir politika.

M

Markov karar süreci (ÇMY)

#rl

Markov özelliğinin varsayımları doğrultusunda bir dizi eyaletde gezinmek için alınan kararların (veya işlemlerin) alındığı karar verme modelini temsil eden grafik. Pekiştirmeli öğrenmede eyaletler arasındaki bu geçişler sayısal bir ödül döndürür.

Markov mülkü

#rl

Eyalet geçişlerinin tamamen, mevcut eyalet içinde yer alan bilgilere ve temsilcinin işlemine göre belirlendiği belirli bir ortamın mülkü.

P

policy

#rl

Pekiştirmeli öğrenmede aracının eyaletlerden işlemlere kadar olasılıksal eşlemesi.

SORU

Q fonksiyonu

#rl

Pekiştirme öğrenmede, bir işlemin eyaletde gerçekleştirilmesi ve ardından belirli bir politikanın uygulanması beklendiğini döndürme tahmininde bulunan işlevdir.

Q işlevi, eylem değeri değeri işlevi olarak da bilinir.

Q öğrenme

#rl

Pekiştirme öğrenmede bir aracının Markov karar sürecininQ işlevini öğrenmesini sağlayan bir algoritmadır. Bunu Bellman denklemini uygulayarak yapabilirsiniz. Markov karar süreci bir ortam oluşturur.

balon

rastgele politika

#rl

Pekiştirmeli öğrenmede bir politika rastgele bir işlem seçer.

pekiştirmeli öğrenme (RL)

#rl

Bir ortamla etkileşimde bulunurken getiri artırmayı amaçlayan optimum bir politika öğrenen algoritma ailesi. Örneğin, çoğu oyunun nihai ödülü zaferdir. Pekiştirmeli öğrenme sistemleri, önceki oyun hareketlerinin sonuç olarak zaferle sonuçlanan sıralarını değerlendirerek karmaşık oyunları oynama konusunda uzmanlaşabilir ve nihayetinde kayıplara yol açabilir.

İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF)

#jeneratifAI
#rl

Bir modele verilen yanıtların kalitesini iyileştirmek için gerçek kişilerden oluşan değerlendirme ekiplerinden gelen geri bildirimleri kullanma. Örneğin, bir RLHF mekanizması, bir modelin verdiği yanıtın kalitesini 👍 veya 👎 emojiyle değerlendirmenizi isteyebilir. Daha sonra, sistem bu geri bildirimlere göre gelecekteki yanıtlarını ayarlayabilir.

arabelleği yeniden oynat

#rl

DQN benzeri algoritmalarda, temsilci tarafından deneyimi tekrar oynatma işleminde kullanılmak üzere durum geçişlerini depolamak için kullanılan bellek.

return

#rl

Pekiştirmeli öğrenmede, belirli bir politika ve belirli bir durum dikkate alındığında getiri, aracının politikayı takip ederken bölümün sonuna kadar aldığı tüm ödüllerin toplamıdır. Temsilci, ödülleri almak için gerekli olan eyalet geçişlerine göre ödüllerde indirim yaparak beklenen ödüllerin gecikmiş durumunu hesaba katar.

Bu durumda, indirim faktörü \(\gamma\)ve \(r_0, \ldots, r_{N}\), bölüm sonuna kadar ödülleri belirtiyorsa iade hesaplaması aşağıdaki şekilde yapılır:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

ödül

#rl

Pekiştirmeli öğrenmede, bir işlemin durum içinde ortam tarafından tanımlanan sayısal sonucu.

C

state

#rl

Pekiştirmeli öğrenmede, ortamın mevcut yapılandırmasını açıklayan ve agent'ın bir action seçmek için kullandığı parametre değerleridir.

durum-işlem değeri işlevi

#rl

Q-işlevi ile eş anlamlı.

T

tablo biçiminde Q eğitimi

#rl

Pekiştirmeli öğrenmede, eyalet ve işlem öğelerinin her kombinasyonu için Q işlevlerini depolamak üzere bir tablo kullanarak Q-learning'i uygulama.

hedef ağ

#rl

Derin Q öğrenme özelliğinde, ana nöral ağın sabit bir yaklaşık değeri olan bir nöral ağ kullanılır. Bu nöral ağ, bir Q işlevi veya bir politika uygular. Ardından, ana ağı hedef ağın tahmin ettiği Q değerleri hakkında eğitebilirsiniz. Bu nedenle, ana ağ kendiliğinden tahmin ettiği Q değerleri hakkında eğitim verdiğinde gerçekleşen geri bildirim döngüsünü önlersiniz. Bu geri bildirimlerden kaçınarak eğitim kararlılığı artar.

fesih koşulu

#rl

pekiştirmeli öğrenmede bir bölümün ne zaman sona ereceğini belirleyen koşullar (örneğin, temsilci belirli bir duruma ulaştığında veya bir eşik geçiş sayısı sınırını aştığında). Örneğin, tick-tac-toe (çivi ve haç) olarak da bilinen bölüm, oyuncu art arda üç alanı işaretlediğinde veya tüm alanlar işaretlendiğinde sonlandırılır.

yörünge

#rl

Pekiştirme öğrenmede, aracının eyalet geçişlerinden oluşan bir sıralamayı temsil eden kuyruklar; her bir unsurun duruma, işleme, ödüle ve belirli bir eyalet geçişi için sonraki duruma karşılık gelir.