1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Obliczanie zdyskontowanych zwrotów dla strategii agenta

Zdyskontowane zwroty pomagają ocenić łączną sumę nagród, jaką agent może zgromadzić w czasie – przy założeniu, że przyszłe nagrody są mniej wartościowe niż te natychmiastowe. Masz do dyspozycji oczekiwane nagrody dla dwóch różnych strategii agenta RL (exp_rewards_strategy_1 i exp_rewards_strategy_2). Twoim zadaniem jest obliczenie zdyskontowanego zwrotu dla każdej strategii i ustalenie, która z nich przynosi wyższy zwrot.

Biblioteka numpy została już zaimportowana jako np.

Instrukcje 1/2

undefined XP
  • 1
    • Oblicz tablicę dyskontów discounts_strategy_1 dla pierwszej strategii.
    • Oblicz wartość discounted_return_strategy_1.
  • 2
    • Oblicz tablicę dyskontów discounts_strategy_2 dla drugiej strategii.
    • Oblicz wartość discounted_return_strategy_2.