Implementacja iteracji wartości

Iteracja wartości to kluczowa metoda w uczeniu ze wzmocnieniem, służąca do wyznaczania optymalnej polityki. Polega na iteracyjnym ulepszaniu funkcji wartości dla każdego stanu aż do jej zbieżności, co prowadzi do odkrycia optymalnej polityki. Zaczniesz od zainicjalizowanej funkcji wartości V oraz policy – obie są już wczytane. Następnie będziesz je aktualizować w pętli, dopóki funkcja wartości nie osiągnie zbieżności, i zobaczysz politykę w działaniu.

Funkcja get_max_action_and_value(state, V) jest już wczytana.

Dla każdego stanu znajdź akcję z maksymalną wartością Q (max_action) oraz odpowiadającą jej wartość (max_q_value).
Zaktualizuj słownik new_V oraz policy na podstawie max_action i max_q_value.
Sprawdź zbieżność, weryfikując, czy różnica między new_v a V dla każdego stanu jest mniejsza niż threshold.

ćwiczenie

Implementacja iteracji wartości

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie