1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

अभ्यास

Implementacja reguły aktualizacji SARSA

SARSA to algorytm uczenia ze wzmocnieniem typu on-policy, który aktualizuje funkcję wartości akcji na podstawie podjętej akcji oraz akcji wybranej w następnym stanie. Metoda ta pozwala uczyć się wartości nie tylko bieżącej pary stan-akcja, ale także kolejnej – dzięki temu możliwe jest wyznaczanie strategii uwzględniających przyszłe działania. Poniżej przedstawiono regułę aktualizacji SARSA. Twoim zadaniem jest zaimplementowanie funkcji, która aktualizuje tablicę Q zgodnie z tą regułą.

Biblioteka NumPy została zaimportowana jako np.

Image showing the mathematical formula of the SARSA update rule.

निर्देश

100 XP
  • Pobierz bieżącą wartość Q dla danej pary stan-akcja.
  • Wyznacz wartość Q dla następnej pary stan-akcja.
  • Zaktualizuj wartość Q dla bieżącej pary stan-akcja, korzystając ze wzoru SARSA.
  • Zaktualizuj tablicę Q Q, przyjmując, że agent wykonuje akcję 0 w stanie 0, otrzymuje nagrodę równą 5, przechodzi do stanu 1 i wykonuje akcję 1.