Trang này chứa các thuật ngữ trong từ điển về Học tăng cường. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.
A
hành động
Trong học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Tác nhân chọn hành động bằng cách sử dụng một chính sách.
nhân viên hỗ trợ
Trong học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ việc chuyển đổi giữa các trạng thái của môi trường.
Nói chung, tác nhân là phần mềm tự động lập kế hoạch và thực thi một loạt hành động để đạt được mục tiêu, đồng thời có khả năng thích ứng với những thay đổi trong môi trường của nó. Ví dụ: một tác nhân dựa trên LLM có thể sử dụng LLM để tạo kế hoạch, thay vì áp dụng chính sách học tăng cường.
B
Phương trình Bellman
Trong học tăng cường, hàm-Q tối ưu thỏa mãn bản sắc sau:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Các thuật toán Học tăng cường áp dụng giá trị nhận dạng này để tạo Học Q thông qua quy tắc cập nhật sau:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Ngoài việc học tăng cường, phương trình Bellman còn có ứng dụng cho lập trình động. Xem bài viết trên Wikipedia về phương trình Bellman.
C
nhà phê bình
Đồng nghĩa với Mạng Q sâu.
D
Mạng Q sâu (DQN)
Trong học Q, một mạng nơron sâu dự đoán hàm Q.
Critic (Thẩm định viên) là từ đồng nghĩa với Deep Q-Network.
DQN
Viết tắt của Mạng Q sâu.
E
môi trường
Trong học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được biểu thị có thể là một trò chơi như cờ vua hoặc một thế giới thực như mê cung. Khi tác nhân áp dụng một hành động cho môi trường, môi trường sẽ chuyển đổi giữa các trạng thái.
tập
Trong phương pháp học tăng cường, mỗi lần lặp lại của tác nhân là một lần học môi trường.
chính sách tham lam epsilon
Trong học tăng cường, chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam nếu không. Ví dụ: nếu epsilon là 0, 9, thì chính sách sẽ tuân theo chính sách ngẫu nhiên 90% thời gian và chính sách tham lam 10% thời gian.
Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ việc tuân theo chính sách ngẫu nhiên sang tuân theo chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá môi trường một cách ngẫu nhiên, sau đó khai thác kết quả của hoạt động khám phá ngẫu nhiên một cách tham lam.
phát lại trải nghiệm
Trong học tăng cường, kỹ thuật DQN được dùng để giảm mối tương quan theo thời gian trong dữ liệu huấn luyện. Tác nhân lưu trữ các quá trình chuyển đổi trạng thái trong vùng đệm phát lại, sau đó lấy mẫu các quá trình chuyển đổi từ vùng đệm phát lại để tạo dữ liệu huấn luyện.
G
chính sách tham lam
Trong học tăng cường, chính sách luôn chọn hành động có lợi tức dự kiến cao nhất.
M
Quy trình quyết định Markov (MDP)
Biểu đồ thể hiện mô hình ra quyết định, trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi trạng thái với giả định rằng thuộc tính Markov được giữ nguyên. Trong học tăng cường, các quá trình chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.
Thuộc tính Markov
Một thuộc tính của một số môi trường nhất định, trong đó các quá trình chuyển đổi trạng thái được xác định hoàn toàn bằng thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.
Điểm
policy
Trong học tăng cường, bản đồ xác suất của tác nhân từ trạng thái đến hành động.
Hỏi
Hàm Q
Trong học tăng cường, hàm dự đoán giá trị trả về dự kiến từ việc thực hiện một hành động trong một trạng thái, sau đó tuân theo một chính sách nhất định.
Hàm Q còn được gọi là hàm giá trị hành động trạng thái.
Học quy tắc Q
Trong học tăng cường, thuật toán cho phép tác nhân học hàm Q tối ưu của quy trình quyết định Markov bằng cách áp dụng biểu thức Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.
Điểm
chính sách ngẫu nhiên
Trong học tăng cường, một chính sách chọn một hành động ngẫu nhiên.
học tăng cường (RL)
Một nhóm thuật toán học được một chính sách tối ưu, mục tiêu của chính sách này là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết các trò chơi là chiến thắng. Hệ thống học tăng cường có thể trở thành chuyên gia chơi các trò chơi phức tạp bằng cách đánh giá các chuỗi các nước đi trước đó trong trò chơi, cuối cùng dẫn đến chiến thắng và các chuỗi dẫn đến thất bại.
Học tăng cường từ phản hồi của con người (RLHF)
Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng phản hồi của một mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các phản hồi trong tương lai dựa trên ý kiến phản hồi đó.
vùng đệm phát lại
Trong các thuật toán giống như DQN, bộ nhớ mà tác nhân sử dụng để lưu trữ các quá trình chuyển đổi trạng thái để sử dụng trong tái hiện trải nghiệm.
phím return
Trong học tăng cường, với một chính sách và trạng thái nhất định, giá trị trả về là tổng của tất cả phần thưởng mà tác nhân dự kiến nhận được khi tuân theo chính sách từ trạng thái đến cuối giai đoạn. Tác nhân tính đến bản chất bị trì hoãn của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các lượt chuyển đổi trạng thái cần thiết để nhận phần thưởng.
Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\) thể hiện phần thưởng cho đến khi kết thúc tập, thì cách tính lợi tức là như sau:
phần thưởng
Trong học tăng cường, kết quả dạng số của việc thực hiện một hành động trong một trạng thái, như được xác định bởi môi trường.
S
tiểu bang
Trong học tăng cường, các giá trị thông số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một hành động.
hàm giá trị trạng thái-hành động
Đồng nghĩa với hàm Q.
T
học Q dạng bảng
Trong học tăng cường, hãy triển khai học Q bằng cách sử dụng bảng để lưu trữ hàm Q cho mọi tổ hợp trạng thái và hành động.
mạng mục tiêu
Trong Deep Q-learning, mạng nơron là một giá trị gần đúng ổn định của mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn sẽ ngăn vòng lặp phản hồi xảy ra khi mạng chính huấn luyện dựa trên các giá trị Q do chính mạng dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.
điều kiện chấm dứt
Trong học tăng cường, các điều kiện xác định thời điểm kết thúc một tập, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lượng chuyển đổi trạng thái ngưỡng. Ví dụ: trong trò tic-tac-toe (còn gọi là trò ô ăn quan), một ván chơi kết thúc khi người chơi đánh dấu 3 ô liên tiếp hoặc khi tất cả ô đều được đánh dấu.
quỹ đạo
Trong học tăng cường, một trình tự các bộ dữ liệu đại diện cho một trình tự chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, hành động, phần thưởng và trạng thái tiếp theo cho một quá trình chuyển đổi trạng thái nhất định.