Zastosowanie iteracji polityki do znalezienia optymalnej polityki

Iteracja polityki to podstawowa technika w uczeniu przez wzmacnianie (RL), służąca do wyznaczania optymalnej polityki. Składa się z dwóch głównych kroków: ewaluacji polityki, w której obliczasz funkcję wartości stanu dla danej polityki, oraz poprawy polityki, w której aktualizujesz politykę na podstawie tych wartości. Oba kroki będziesz stosować iteracyjnie, aż do osiągnięcia zbieżności do optymalnej polityki w niestandardowym środowisku MyGridWorld.

Do wyświetlania kroków podejmowanych przez agenta zgodnie z daną polityką służy funkcja render_policy().

Funkcje compute_state_value(state, policy) oraz compute_q_value(state, action, policy) zostały wcześniej załadowane.

Uzupełnij funkcję policy_evaluation(), aby obliczała funkcję wartości stanu V dla danej polityki policy.

ćwiczenie

Zastosowanie iteracji polityki do znalezienia optymalnej polityki

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie