[ad_1]
Học tăng cường (RL) là một lĩnh vực phụ hấp dẫn của Machine Studying. Bạn có thể đã biết đến nó qua các ứng dụng như chơi Go (1), lái xe tự động (2) và nhiều ứng dụng khác.
Theo tôi, cuốn sách nổi tiếng của Sutton và Barto, “Reinforcement Studying” (3) cũng hấp dẫn không kém. Tôi nghĩ đây là một cuốn sách giới thiệu tuyệt vời về chủ đề này, nhưng cũng đi sâu và giới thiệu tất cả các chủ đề lý thuyết quan trọng của lĩnh vực này. Tuy nhiên, có thể đọc rất nhiều, và đặc biệt là khi đọc lần đầu có thể trông hơi giống toán học.
Vì vậy, tôi quyết định bắt đầu một loạt bài đăng tóm tắt từng chương của cuốn sách. Tôi tin rằng việc giải thích nội dung bằng các từ khác nhau sẽ giúp hiểu rõ hơn rất nhiều. Và tôi cũng sẽ triển khai tất cả (hầu hết) các thuật toán trong cuốn sách bằng Python và áp dụng chúng vào các vấn đề và môi trường được mô hình hóa thông qua (trước đây là) khuôn khổ phòng tập thể dục của OpenAI (4). Hai điểm này, theo như tôi biết, là mới lạ cho đến nay và làm cho loạt bài này trở nên độc đáo.
Bài đăng này là bài đầu tiên trong loạt bài và sẽ giới thiệu ngắn gọn về RL nói chung, sau đó cung cấp tổng quan nhanh về cấu trúc cuốn sách của Sutton — và cách…
[ad_2]
Source link