อภิธานศัพท์ของแมชชีนเลิร์นนิง: การเรียนรู้แบบเสริมกำลัง

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Reinforcement Learning ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่

A

การดำเนินการ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ กลไกที่เอเจนต์เปลี่ยนระหว่างสถานะของสภาพแวดล้อม โดยตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อม เช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

B

สมการของ Bellman

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ฟังก์ชัน Q ที่ดีที่สุดจะเป็นไปตามเอกลักษณ์ต่อไปนี้

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมของการเรียนรู้เพื่อเสริมแรงจะใช้ข้อมูลประจําตัวนี้เพื่อสร้างการเรียนรู้ด้วย Q-Learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้ด้วยการทำซ้ำแล้ว สมการของ Bellman ยังนำไปใช้กับโปรแกรมแบบไดนามิกได้อีกด้วย ดูหัวข้อ สมการของ Bellman ใน Wikipedia

C

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

D

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

DQN

#rl

ตัวย่อของ Deep Q-Network

E

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกคือสิ่งที่มีเอเจนต์ และช่วยให้เอเจนต์สังเกตสถานะของโลกนั้นได้ เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกแห่งความเป็นจริงอย่างเขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เอเจนต์จะพยายามเรียนรู้สภาพแวดล้อมซ้ำๆ แต่ละครั้ง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็น epsilon หรือนโยบายแบบโลภ เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

เล่นซ้ำ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เทคนิค DQN ใช้เพื่อลดความเกี่ยวข้องตามช่วงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึก จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกเพื่อสร้างข้อมูลการฝึก

G

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

M

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งใช้การตัดสินใจ (หรือการดําเนินการ) เพื่อไปยังลําดับสถานะโดยสมมติว่าสมบัติ Markov มีผล ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการ ซึ่งการเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของเอเจนต์

P

policy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ การแมปแบบมีแนวโน้มของเอเจนต์จากสถานะไปยังการดำเนินการ

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการทำซ้ำ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการของ Bellman กระบวนการตัดสินใจแบบ Markov เป็นแบบจำลองสภาพแวดล้อม

R

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการแบบสุ่ม

การเรียนรู้ด้วยการทำซ้ำ (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบกลับในอนาคตโดยอิงตามความคิดเห็นนั้น

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมประเภท DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

รีเทิร์น

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เมื่อพิจารณาจากนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดหวังว่าจะได้รับเมื่อทำตามนโยบายจากสถานะจนถึงสิ้นสุดตอน ตัวแทนจะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดไว้โดยการหักรางวัลตามการเปลี่ยนสถานะที่จำเป็นต่อการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\)บ่งบอกถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทนจะมีลักษณะดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่สภาพแวดล้อมกำหนด

S

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะการดําเนินการ

#rl

คำพ้องความหมายของฟังก์ชัน Q

T

การเรียนรู้ด้วย Q แบบตาราง

#rl

ในการเรียนรู้เพื่อเสริมแรง ให้ใช้การเรียนรู้ Q โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สําหรับชุดค่าผสมของสถานะและการดําเนินการ ทั้งหมด

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทเป็นค่าประมาณที่เสถียรของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลักใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงการแสดงผลความคิดเห็นนี้จะช่วยเพิ่มความเสถียรของการฝึก

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ เช่น ในเกมตีฉิ่ง (หรือเรียกอีกอย่างว่าเกมหมากฮอส) เกมจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องติดต่อกัน 3 ช่องหรือเมื่อทำเครื่องหมายทุกช่องแล้ว

เส้นทาง

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ลำดับของ tuple ที่แสดงถึงลำดับการเปลี่ยนสถานะของเอเจนต์ โดยที่แต่ละ tuple สอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะหนึ่งๆ