1. 학습
  2. /
  3. 강의
  4. /
  5. Python 中的 Gymnasium 强化学习

Connected

연습 문제

实现 First-Visit Monte Carlo

Monte Carlo 算法的目标是估计 Q 表,从而导出最优策略。本练习中,您将实现 First-Visit Monte Carlo 方法来估计动作-价值函数 Q,然后计算最优策略以解决您在上一个练习中见到的自定义环境。计算回报时,假设折扣因子为 1。

已为您初始化并预加载了 numpy 数组 Q、returns_sum 和 returns_count,分别用于存储 Q 值、奖励的累积和,以及每个状态-动作对的访问次数。

지침

100 XP
  • 定义首次访问 Monte Carlo 算法中需要检查的 if 条件。
  • 更新回报(returns_sum)、其计数(returns_count)以及 visited_states。