1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

에이전트 전략의 할인된 반환 계산하기

할인된 반환(discounted return)은 시간이 지남에 따라 에이전트가 기대할 수 있는 보상의 총합을 평가할 때 사용하며, 미래 보상은 즉시 보상보다 가치가 낮다는 점을 반영합니다. RL 에이전트의 두 가지 서로 다른 전략(exp_rewards_strategy_1, exp_rewards_strategy_2)에 대한 기대 보상이 주어졌습니다. 각 전략의 할인된 반환을 계산하고, 어느 전략이 더 높은 반환을 내는지 판단해 보세요.

numpy 라이브러리는 np로 이미 임포트되어 있습니다.

지침 1/2

undefined XP
  • 1
    • 첫 번째 전략에 대한 할인 배열 discounts_strategy_1을 계산하세요.
    • discounted_return_strategy_1을 계산하세요.
  • 2
    • 두 번째 전략에 대한 할인 배열 discounts_strategy_2를 계산하세요.
    • discounted_return_strategy_2를 계산하세요.