1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

Exercise

Definiowanie funkcji epsilon-zachłannej

W uczeniu przez wzmacnianie strategia epsilon-zachłanna (epsilon-greedy) równoważy eksplorację i eksploatację. Polega na wyborze losowej akcji z prawdopodobieństwem epsilon oraz najlepszej znanej akcji z prawdopodobieństwem 1-epsilon. Implementacja funkcji epsilon_greedy() jest kluczowa dla algorytmów takich jak Q-learning czy SARSA – umożliwia agentowi uczenie się zarówno przez odkrywanie środowiska, jak i wykorzystywanie znanych nagród. To właśnie będzie celem tego ćwiczenia.

Biblioteka numpy została zaimportowana jako np.

Instrukcje

100 XP
  • Wewnątrz funkcji zapisz odpowiedni warunek, który pozwoli agentowi eksplorować środowisko.
  • Podczas eksploracji wybierz losową action.
  • Podczas eksploatacji wybierz najlepszą action zgodnie z wartościami w q_table.