อภิธานศัพท์ของแมชชีนเลิร์นนิง: การเรียนรู้แบบเสริมกำลัง

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Reinforcement Learning หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ กลไกที่ agent เปลี่ยนไปมาระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ตัวแทน

#rl

ในการเรียนรู้แบบสนับสนุน เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดว่าจะได้รับจากการเปลี่ยนผ่านระหว่างรัฐของสภาพแวดล้อม

หรือกล่าวอีกอย่างก็คือ ตัวแทนคือซอฟต์แวร์ที่วางแผนและดำเนินการต่างๆ อย่างอิสระเพื่อให้บรรลุเป้าหมาย โดยมีความสามารถในการปรับตัวให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อมของตน เช่น ตัวแทนที่ใช้ LLM อาจใช้ LLM เพื่อสร้างแผนแทนการใช้นโยบายการเรียนรู้แบบเสริมแรง

B

สมการเบลล์แมน

#rl

ในการเรียนรู้แบบเสริม ข้อมูลประจำตัวต่อไปนี้ตาม ฟังก์ชัน Q ที่เหมาะสมที่สุด

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมการเรียนรู้จะนำข้อมูลระบุตัวตนนี้ไปใช้สร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมแรงแล้ว สมการของ Bellman ยังนำมาใช้กับการเขียนโปรแกรมแบบไดนามิกด้วย ดู รายการ Wikipedia สำหรับสมการของ Bellman

C

วิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

D

Q-Network เชิงลึก (DQN)

#rl

ใน Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมระดับลึกที่คาดการณ์ฟังก์ชัน Q

Critic เป็นคำพ้องความหมายของ Deep Q-Network

DQN

#rl

เป็นตัวย่อของDeep Q-Network

จ.

สภาพแวดล้อม

#rl

ในการเรียนรู้แบบเสริมกำลัง โลกที่มี agent และอนุญาตให้ตัวแทนสังเกตรัฐของโลกได้ เช่น โลกจำลองอาจเป็นเกมหมากรุก หรือโลกจริงอย่างเขาวงกต เมื่อ Agent ใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนระหว่างสถานะ

ตอน

#rl

ในการเรียนรู้แบบเสริมกำลัง ตัวแทนพยายามทำหลายครั้งเพื่อเรียนรู้สภาพแวดล้อม

นโยบายความโลภของ epsilon

#rl

ในการสนับสนุนการเรียนรู้ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของ epsilon หรือนโยบายละเลยในกรณีอื่นๆ ตัวอย่างเช่น หาก epsilon เป็น 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% จากทั้งหมดและนโยบายความโลภ 10% ของเวลาทั้งหมด

ในตอนที่ต่อเนื่องกัน อัลกอริทึมจะลดค่าของ epsilon เพื่อเปลี่ยนจากการทำตามนโยบายแบบสุ่มไปเป็นการทำตามนโยบายโลภ เมื่อเปลี่ยนนโยบาย ตัวแทนจะสุ่มสำรวจสภาพแวดล้อมก่อน แล้วจึงใช้ประโยชน์จากผลลัพธ์ที่ได้จากการสำรวจแบบสุ่ม

สัมผัสประสบการณ์การเล่นซ้ำ

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ มีการใช้เทคนิค DQN ในการลดความสัมพันธ์ด้านเวลาในข้อมูลการฝึก agent จะจัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้นสุ่มตัวอย่างการเปลี่ยนจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก

G

นโยบายความโลภ

#rl

ในการเรียนรู้แบบเสริม นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้มากที่สุดเสมอ

M

กระบวนการตัดสินใจของมาร์คอฟ (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจที่ใช้การตัดสินใจ (หรือการดำเนินการ) เพื่อไปยังลำดับของสถานะภายใต้สมมติฐานที่ว่าพร็อพเพอร์ตี้ Markov เก็บไว้ ในการเรียนรู้แบบเสริมการเรียนรู้ การเปลี่ยนระหว่างสถานะเหล่านี้จะแสดงผลเป็นรางวัลเป็นตัวเลข

ทรัพย์สินของมาร์คอฟ

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง ซึ่งการเปลี่ยนแปลงสถานะจะขึ้นอยู่กับข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของตัวแทน

คะแนน

policy

#rl

ในการเรียนรู้แบบเสริม การจับคู่ความน่าจะเป็นของตัวแทนจากสถานะไปจนถึงการดำเนินการ

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดหวังจากการดำเนินการการดำเนินการในสถานะ แล้วทำตามนโยบายที่ระบุ

Q-Function เรียกอีกอย่างว่าฟังก์ชันค่าการดำเนินการที่ระบุสถานะ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ อัลกอริทึมที่ช่วยให้ agent เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจของ Markov โดยใช้สมการ Bellman กระบวนการตัดสินใจของมาร์คอฟ เป็นสภาพแวดล้อม

R

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายจะเลือกการดำเนินการแบบสุ่ม

การเรียนรู้แบบเสริมแรง (RL)

#rl

ชุดอัลกอริทึมที่เรียนรู้นโยบายที่ดีที่สุด โดยมีเป้าหมายคือการเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสุดยอดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมกำลังความเชี่ยวชาญในการเล่นเกมที่ซับซ้อนโดยการประเมินลำดับการเคลื่อนไหวของเกมก่อนหน้าที่นำไปสู่ชัยชนะและลำดับที่จะนำไปสู่การแพ้ในท้ายที่สุด

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#GenerativeAI
#rl

การใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF จะขอให้ผู้ใช้ให้คะแนนคุณภาพคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้น ระบบจะปรับการตอบสนองในอนาคต ตามความคิดเห็นนั้น

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมที่คล้ายกับ DQN คือหน่วยความจำที่ Agent ใช้เก็บการเปลี่ยนสถานะเพื่อใช้ในการเล่นซ้ำ

return

#rl

ในการเรียนรู้แบบเสริมกำลัง โดยขึ้นอยู่กับนโยบายที่เฉพาะเจาะจงและบางสถานะ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่ ตัวแทน คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายตั้งแต่สถานะจนถึงตอนท้ายของตอน ตัวแทนจะเป็นผู้พิจารณารางวัลที่คาดว่าจะได้รับล่าช้า โดยการลดราคารางวัลตามการเปลี่ยนแปลงของสถานะที่จำเป็นเพื่อให้ได้รับรางวัล

ดังนั้น หากปัจจัยส่วนลดเป็น \(\gamma\)และ \(r_0, \ldots, r_{N}\) แสดงถึงรางวัลจนกว่าจะจบตอน การคำนวณการคืนสินค้าจะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้แบบเสริมกำลัง ผลลัพธ์ที่เป็นตัวเลขของการดำเนินการในสถานะ ตามที่กำหนดโดยสภาพแวดล้อม

S

state

#rl

ในการเรียนรู้แบบเสริมประสิทธิภาพ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าการกระทำสถานะ

#rl

คำพ้องความหมายของ Q-function

T

ตาราง Q-learning

#rl

ในการเรียนรู้แบบเสริม การนำ Q-learning ไปใช้โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สำหรับชุดค่าผสมของ สถานะและการดำเนินการทุกชุด

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมโดยประมาณที่มีความเสถียรของโครงข่ายประสาทหลัก เครือข่ายระบบประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นจึงจะฝึกเครือข่ายหลักเกี่ยวกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้นคุณจึงป้องกันไม่ให้เกิดลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกเกี่ยวกับค่า Q ที่คาดการณ์ด้วยตัวเอง การหลีกเลี่ยงความคิดเห็นนี้ จะทำให้ความเสถียรของการฝึกเพิ่มขึ้น

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่จะเป็นตัวกำหนดว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อ Agent มีสถานะหนึ่งหรือเกินเกณฑ์ของการเปลี่ยนสถานะ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่เรียกว่า noughts และกากบาท) ตอนจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องว่างติดกัน 3 ช่องหรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด

วิถี

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ ลำดับของ Tuples ที่แสดงลำดับของการเปลี่ยนสถานะของ agent โดยแต่ละ Tuple จะสอดคล้องกับสถานะ, การดำเนินการ, reward และสถานะถัดไปของการเปลี่ยนสถานะหนึ่งๆ