หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Reinforcement Learning หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การดำเนินการ
ในการเรียนรู้แบบเสริมการเรียนรู้ กลไกที่ agent เปลี่ยนไปมาระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย
ตัวแทน
ในการเรียนรู้แบบสนับสนุน เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดว่าจะได้รับจากการเปลี่ยนผ่านระหว่างรัฐของสภาพแวดล้อม
หรือกล่าวอีกอย่างก็คือ ตัวแทนคือซอฟต์แวร์ที่วางแผนและดำเนินการต่างๆ อย่างอิสระเพื่อให้บรรลุเป้าหมาย โดยมีความสามารถในการปรับตัวให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อมของตน เช่น ตัวแทนที่ใช้ LLM อาจใช้ LLM เพื่อสร้างแผนแทนการใช้นโยบายการเรียนรู้แบบเสริมแรง
B
สมการเบลล์แมน
ในการเรียนรู้แบบเสริม ข้อมูลประจำตัวต่อไปนี้ตาม ฟังก์ชัน Q ที่เหมาะสมที่สุด
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
อัลกอริทึมการเรียนรู้แบบเสริมการเรียนรู้จะนำข้อมูลระบุตัวตนนี้ไปใช้สร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
นอกเหนือจากการเรียนรู้แบบเสริมแรงแล้ว สมการของ Bellman ยังนำมาใช้กับการเขียนโปรแกรมแบบไดนามิกด้วย ดู รายการ Wikipedia สำหรับสมการของ Bellman
C
วิจารณ์
คำพ้องความหมายของ Deep Q-Network
D
Q-Network เชิงลึก (DQN)
ใน Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมระดับลึกที่คาดการณ์ฟังก์ชัน Q
Critic เป็นคำพ้องความหมายของ Deep Q-Network
DQN
เป็นตัวย่อของDeep Q-Network
จ.
สภาพแวดล้อม
ในการเรียนรู้แบบเสริมกำลัง โลกที่มี agent และอนุญาตให้ตัวแทนสังเกตรัฐของโลกได้ เช่น โลกจำลองอาจเป็นเกมหมากรุก หรือโลกจริงอย่างเขาวงกต เมื่อ Agent ใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนระหว่างสถานะ
ตอน
ในการเรียนรู้แบบเสริมกำลัง ตัวแทนพยายามทำหลายครั้งเพื่อเรียนรู้สภาพแวดล้อม
นโยบายความโลภของ epsilon
ในการสนับสนุนการเรียนรู้ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของ epsilon หรือนโยบายละเลยในกรณีอื่นๆ ตัวอย่างเช่น หาก epsilon เป็น 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% จากทั้งหมดและนโยบายความโลภ 10% ของเวลาทั้งหมด
ในตอนที่ต่อเนื่องกัน อัลกอริทึมจะลดค่าของ epsilon เพื่อเปลี่ยนจากการทำตามนโยบายแบบสุ่มไปเป็นการทำตามนโยบายโลภ เมื่อเปลี่ยนนโยบาย ตัวแทนจะสุ่มสำรวจสภาพแวดล้อมก่อน แล้วจึงใช้ประโยชน์จากผลลัพธ์ที่ได้จากการสำรวจแบบสุ่ม
สัมผัสประสบการณ์การเล่นซ้ำ
ในการเรียนรู้แบบเสริมการเรียนรู้ มีการใช้เทคนิค DQN ในการลดความสัมพันธ์ด้านเวลาในข้อมูลการฝึก agent จะจัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้นสุ่มตัวอย่างการเปลี่ยนจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก
G
นโยบายความโลภ
ในการเรียนรู้แบบเสริม นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้มากที่สุดเสมอ
M
กระบวนการตัดสินใจของมาร์คอฟ (MDP)
กราฟที่แสดงรูปแบบการตัดสินใจที่ใช้การตัดสินใจ (หรือการดำเนินการ) เพื่อไปยังลำดับของสถานะภายใต้สมมติฐานที่ว่าพร็อพเพอร์ตี้ Markov เก็บไว้ ในการเรียนรู้แบบเสริมการเรียนรู้ การเปลี่ยนระหว่างสถานะเหล่านี้จะแสดงผลเป็นรางวัลเป็นตัวเลข
ทรัพย์สินของมาร์คอฟ
พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง ซึ่งการเปลี่ยนแปลงสถานะจะขึ้นอยู่กับข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของตัวแทน
คะแนน
policy
ในการเรียนรู้แบบเสริม การจับคู่ความน่าจะเป็นของตัวแทนจากสถานะไปจนถึงการดำเนินการ
Q
ฟังก์ชัน Q
ในการเรียนรู้แบบเสริมการเรียนรู้ ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดหวังจากการดำเนินการการดำเนินการในสถานะ แล้วทำตามนโยบายที่ระบุ
Q-Function เรียกอีกอย่างว่าฟังก์ชันค่าการดำเนินการที่ระบุสถานะ
การเรียนรู้แบบ Q
ในการเรียนรู้แบบเสริมการเรียนรู้ อัลกอริทึมที่ช่วยให้ agent เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจของ Markov โดยใช้สมการ Bellman กระบวนการตัดสินใจของมาร์คอฟ เป็นสภาพแวดล้อม
R
นโยบายแบบสุ่ม
ในการเรียนรู้แบบเสริมกำลัง นโยบายจะเลือกการดำเนินการแบบสุ่ม
การเรียนรู้แบบเสริมแรง (RL)
ชุดอัลกอริทึมที่เรียนรู้นโยบายที่ดีที่สุด โดยมีเป้าหมายคือการเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสุดยอดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมกำลังความเชี่ยวชาญในการเล่นเกมที่ซับซ้อนโดยการประเมินลำดับการเคลื่อนไหวของเกมก่อนหน้าที่นำไปสู่ชัยชนะและลำดับที่จะนำไปสู่การแพ้ในท้ายที่สุด
การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)
การใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF จะขอให้ผู้ใช้ให้คะแนนคุณภาพคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้น ระบบจะปรับการตอบสนองในอนาคต ตามความคิดเห็นนั้น
บัฟเฟอร์การเล่นซ้ำ
ในอัลกอริทึมที่คล้ายกับ DQN คือหน่วยความจำที่ Agent ใช้เก็บการเปลี่ยนสถานะเพื่อใช้ในการเล่นซ้ำ
return
ในการเรียนรู้แบบเสริมกำลัง โดยขึ้นอยู่กับนโยบายที่เฉพาะเจาะจงและบางสถานะ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่ ตัวแทน คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายตั้งแต่สถานะจนถึงตอนท้ายของตอน ตัวแทนจะเป็นผู้พิจารณารางวัลที่คาดว่าจะได้รับล่าช้า โดยการลดราคารางวัลตามการเปลี่ยนแปลงของสถานะที่จำเป็นเพื่อให้ได้รับรางวัล
ดังนั้น หากปัจจัยส่วนลดเป็น \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลจนกว่าจะจบตอน การคำนวณการคืนสินค้าจะเป็นดังนี้
รางวัล
ในการเรียนรู้แบบเสริมกำลัง ผลลัพธ์ที่เป็นตัวเลขของการดำเนินการในสถานะ ตามที่กำหนดโดยสภาพแวดล้อม
S
state
ในการเรียนรู้แบบเสริมประสิทธิภาพ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เพื่อเลือกการดำเนินการ
ฟังก์ชันค่าการกระทำสถานะ
คำพ้องความหมายของ Q-function
T
ตาราง Q-learning
ในการเรียนรู้แบบเสริม การนำ Q-learning ไปใช้โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สำหรับชุดค่าผสมของ สถานะและการดำเนินการทุกชุด
เครือข่ายเป้าหมาย
ใน Deep Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมโดยประมาณที่มีความเสถียรของโครงข่ายประสาทหลัก เครือข่ายระบบประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นจึงจะฝึกเครือข่ายหลักเกี่ยวกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้นคุณจึงป้องกันไม่ให้เกิดลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกเกี่ยวกับค่า Q ที่คาดการณ์ด้วยตัวเอง การหลีกเลี่ยงความคิดเห็นนี้ จะทำให้ความเสถียรของการฝึกเพิ่มขึ้น
เงื่อนไขการสิ้นสุด
ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่จะเป็นตัวกำหนดว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อ Agent มีสถานะหนึ่งหรือเกินเกณฑ์ของการเปลี่ยนสถานะ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่เรียกว่า noughts และกากบาท) ตอนจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องว่างติดกัน 3 ช่องหรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด
วิถี
ในการเรียนรู้แบบเสริมการเรียนรู้ ลำดับของ Tuples ที่แสดงลำดับของการเปลี่ยนสถานะของ agent โดยแต่ละ Tuple จะสอดคล้องกับสถานะ, การดำเนินการ, reward และสถานะถัดไปของการเปลี่ยนสถานะหนึ่งๆ