Học hỏi

/

Khoa Học

/

Deep Reinforcement Learning bằng Python

Connected

Bài tập

Huấn luyện thuật toán A2C

Đến lúc huấn luyện Lunar Lander bằng thuật toán A2C! Bạn đã có đủ các mảnh ghép, giờ là lúc kết nối chúng lại.

Các mạng actor và critic đã được khởi tạo là actor và critic, cùng với các optimizer của chúng là actor_optimizer và critic_optimizer.

Hàm REINFORCE select_action() và hàm calculate_losses() từ bài trước cũng đã sẵn sàng để bạn sử dụng ở đây.

Hướng dẫn

100 XP

Cho actor chọn action dựa trên state.
Tính loss cho cả actor và critic.