학습

/

강의

/

Python 中的 Gymnasium 强化学习

Connected

연습 문제

实现 First-Visit Monte Carlo

Monte Carlo 算法的目标是估计 Q 表，从而导出最优策略。本练习中，您将实现 First-Visit Monte Carlo 方法来估计动作-价值函数 Q，然后计算最优策略以解决您在上一个练习中见到的自定义环境。计算回报时，假设折扣因子为 1。

已为您初始化并预加载了 numpy 数组 Q、returns_sum 和 returns_count，分别用于存储 Q 值、奖励的累积和，以及每个状态-动作对的访问次数。

지침

100 XP

定义首次访问 Monte Carlo 算法中需要检查的 if 条件。
更新回报（returns_sum）、其计数（returns_count）以及 visited_states。