학습

/

강의

/

Python으로 배우는 Deep Reinforcement Learning

Connected

연습 문제

A2C 알고리즘 학습시키기

이제 A2C 알고리즘으로 Lunar Lander를 학습시켜 볼까요? 필요한 구성 요소는 모두 준비되어 있으니, 이제는 이것들을 하나로 잘 연결하는 일만 남았어요.

Actor와 Critic 네트워크는 각각 actor와 critic으로, 그리고 그들의 옵티마이저는 actor_optimizer와 critic_optimizer로 이미 생성되어 있어요.

REINFORCE에서 사용했던 select_action() 함수와 이전 연습 문제의 calculate_losses() 함수도 여기에서 그대로 사용할 수 있어요.

지침

100 XP

주어진 상태에서 actor가 행동을 선택하게 하세요.
Actor와 Critic 각각의 손실을 계산하세요.