[ad_1]
Sử dụng hàm mất mát của thuật toán Coverage Gradient làm chìa khóa để hiểu các thuật toán học tăng cường khác nhau: REINFORCE, Actor-Critic và PPO, đây là những phần chuẩn bị về mặt lý thuyết để hiểu thuật toán Học tăng cường từ phản hồi của con người (RLHF) được sử dụng để xây dựng ChatGPT.
Nghiên cứu về học tăng cường có thể gây khó chịu vì lĩnh vực này có rất nhiều thuật ngữ khó hiểu và các thuật toán có sự khác biệt tinh tế.
Tôi đã đấu tranh, cho đến một ngày người đồng nghiệp tuyệt vời của tôi Peter Vrancs đã nhanh chóng viết ra phép suy ra hàm mất mát cho thuật toán Coverage Gradient REINFORCE cho tôi. Sử dụng phép suy ra này, bài viết này liên kết các thuật toán sau với nhau:
- TĂNG CƯỜNG
- Khái niệm về lợi thế để giảm phương sai và thuật toán Actor-Critic
- Tối ưu hóa chính sách gần (PPO)
Mặc dù có nhiều bài viết đề cập đến các thuật toán này, bài viết này cung cấp góc nhìn độc đáo để nghiên cứu chúng cùng một lúc, giúp bạn tiết kiệm thời gian học!
Theo tôi, việc hiểu được ba thuật toán này là nền tảng lý thuyết cơ bản…
[ad_2]
Source link