1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning với Gymnasium trong Python

Connected

Exercise

Tính lợi ích chiết khấu cho các chiến lược của agent

Lợi ích chiết khấu giúp bạn ước lượng tổng phần thưởng mà một agent có thể tích lũy theo thời gian, với giả định rằng phần thưởng ở tương lai có giá trị thấp hơn phần thưởng nhận ngay. Bạn được cung cấp các giá trị phần thưởng kỳ vọng cho hai chiến lược khác nhau (exp_rewards_strategy_1 và exp_rewards_strategy_2) của một agent trong RL. Nhiệm vụ của bạn là tính lợi ích chiết khấu cho mỗi chiến lược và xác định chiến lược nào cho lợi ích cao hơn.

Thư viện numpy đã được nhập sẵn với bí danh np.

Instructions 1/2

undefined XP
  • 1
    • Tính mảng hệ số chiết khấu discounts_strategy_1 cho chiến lược thứ nhất.
    • Tính discounted_return_strategy_1.
  • 2
    • Tính mảng hệ số chiết khấu discounts_strategy_2 cho chiến lược thứ hai.
    • Tính discounted_return_strategy_2.