学ぶ

/

コース

/

Python으로 배우는 Deep Reinforcement Learning

Connected

演習

PPO 알고리즘 학습시키기

이제 익숙한 A2C 학습 루프를 사용해 PPO 알고리즘을 학습시켜 보겠습니다.

이 학습 루프는 클리핑된 대리 목적 함수의 장점을 충분히 활용하지 못하므로, 성능이 A2C보다 크게 좋아지지는 않을 것입니다. 이 연습은 클리핑된 대리 목적 함수와 엔트로피 보너스 개념을 이해하는 데 초점을 둔 예시입니다.

指示

100 XP

actor 손실에서 엔트로피 보너스를 제거하고, \(c_{entropy}\) 파라미터는 0.01 값을 사용하세요.