1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Výpočet diskontovaných výnosů pro strategie agenta

Diskontované výnosy pomáhají vyhodnotit celkové odměny, které agent může v průběhu času nashromáždit – s přihlédnutím k tomu, že budoucí odměny mají nižší hodnotu než odměny okamžité. Máš k dispozici očekávané odměny pro dvě různé strategie (exp_rewards_strategy_1 a exp_rewards_strategy_2) RL agenta. Tvým úkolem je vypočítat diskontovaný výnos pro každou strategii a určit, která z nich přináší vyšší výnos.

Knihovna numpy je už naimportovaná jako np.

Instrukce 1/2

undefined XP
  • 1
    • Vypočítej pole diskontů discounts_strategy_1 pro první strategii.
    • Vypočítej discounted_return_strategy_1.
  • 2
    • Vypočítej pole diskontů discounts_strategy_2 pro druhou strategii.
    • Vypočítej discounted_return_strategy_2.