อภิธานศัพท์ของแมชชีนเลิร์นนิง: การเรียนรู้แบบเสริมกำลัง

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Reinforcement Learning ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่

การดำเนินการ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ กลไกที่เอเจนต์เปลี่ยนระหว่างสถานะของสภาพแวดล้อม โดยตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อม เช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

B

สมการของ Bellman

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ฟังก์ชัน Q ที่ดีที่สุดจะเป็นไปตามเอกลักษณ์ต่อไปนี้

Q(s,a)=r(s,a)+γEs|s,amaxaQ(s,a)

อัลกอริทึมของการเรียนรู้เพื่อเสริมแรงจะใช้ข้อมูลประจําตัวนี้เพื่อสร้างการเรียนรู้แบบ Q โดยใช้กฎการอัปเดตต่อไปนี้

Q(s,a)Q(s,a)+α[r(s,a)+γmaxa1Q(s,a)Q(s,a)]

นอกเหนือจากการเรียนรู้ด้วยการทำซ้ำแล้ว สมการของ Bellman ยังนำไปใช้กับโปรแกรมแบบไดนามิกได้อีกด้วย ดูหัวข้อ สมการของ Bellman ใน Wikipedia

C

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

D

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

DQN

#rl

ตัวย่อของ Deep Q-Network

E

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกคือสิ่งที่มีเอเจนต์ และช่วยให้เอเจนต์สังเกตสถานะของโลกนั้นได้ เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกแห่งความเป็นจริงอย่างเขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ตัวแทนจะพยายามเรียนรู้สภาพแวดล้อมซ้ำๆ แต่ละครั้ง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็น epsilon หรือนโยบายแบบโลภ เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

เล่นซ้ำ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เทคนิค DQN ใช้เพื่อลดความเกี่ยวข้องตามช่วงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึก จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกเพื่อสร้างข้อมูลการฝึก

G

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

M

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งใช้การตัดสินใจ (หรือการดําเนินการ) เพื่อไปยังลําดับสถานะโดยสมมติว่าสมบัติ Markov มีผล ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการ ซึ่งการเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของเอเจนต์

P

policy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ การแมปแบบมีแนวโน้มของตัวแทนจากสถานะไปยังการดำเนินการ

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการทำซ้ำ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการของ Bellman กระบวนการตัดสินใจแบบ Markov เป็นแบบจำลองสภาพแวดล้อม

R

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการแบบสุ่ม

การเรียนรู้ด้วยการทำซ้ำ (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบกลับในอนาคตโดยอิงตามความคิดเห็นนั้น

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมประเภท DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

รีเทิร์น

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เมื่อพิจารณาจากนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดหวังว่าจะได้รับเมื่อทำตามนโยบายจากสถานะจนถึงสิ้นสุดตอน ตัวแทนจะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดไว้โดยการหักรางวัลตามการเปลี่ยนสถานะที่จำเป็นต่อการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ γและ r0,,rNบ่งบอกถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทนจะมีลักษณะดังนี้

Return=r0+γr1+γ2r2++γN1rN1

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่สภาพแวดล้อมกำหนด

S

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะ-การดำเนินการ

#rl

คำพ้องความหมายของ ฟังก์ชัน Q

T

การเรียนรู้ด้วย Q แบบตาราง

#rl

ในการเรียนรู้เพื่อเสริมแรง ให้ใช้การเรียนรู้ Q โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สําหรับชุดค่าผสมของสถานะและการดําเนินการ ทั้งหมด

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทเป็นค่าประมาณที่เสถียรของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลักใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงการแสดงผลความคิดเห็นนี้จะช่วยเพิ่มความเสถียรของการฝึก

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ เช่น ในเกมตีฉิ่ง (หรือเรียกอีกอย่างว่าเกมหมากฮอต) เกมจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องติดต่อกัน 3 ช่องหรือเมื่อทำเครื่องหมายทุกช่องแล้ว

เส้นทาง

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ลำดับของ tuple ที่แสดงถึงลำดับการเปลี่ยนสถานะของเอเจนต์ โดยที่แต่ละ tuple สอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะหนึ่งๆ