1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Zastosowanie iteracji polityki do znalezienia optymalnej polityki

Iteracja polityki to podstawowa technika w uczeniu przez wzmacnianie (RL), służąca do wyznaczania optymalnej polityki. Składa się z dwóch głównych kroków: ewaluacji polityki, w której obliczasz funkcję wartości stanu dla danej polityki, oraz poprawy polityki, w której aktualizujesz politykę na podstawie tych wartości. Oba kroki będziesz stosować iteracyjnie, aż do osiągnięcia zbieżności do optymalnej polityki w niestandardowym środowisku MyGridWorld.

Do wyświetlania kroków podejmowanych przez agenta zgodnie z daną polityką służy funkcja render_policy().

Funkcje compute_state_value(state, policy) oraz compute_q_value(state, action, policy) zostały wcześniej załadowane.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Uzupełnij funkcję policy_evaluation(), aby obliczała funkcję wartości stanu V dla danej polityki policy.