1. 学ぶ
  2. /
  3. コース
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

演習

Generowanie epizodów dla metod Monte Carlo

Metody Monte Carlo wymagają generowania epizodów, aby wyznaczyć funkcję wartości. Teraz zaimplementujesz funkcję, która generuje epizody, losowo wybierając akcje aż do zakończenia epizodu. W kolejnych ćwiczeniach wywołasz tę funkcję, aby zastosować metody Monte Carlo na niestandardowym środowisku env, które zostało wstępnie załadowane.

Funkcja render() jest wstępnie załadowana.

指示

100 XP
  • Zresetuj środowisko, używając wartości seed równej 42.
  • W pętli epizodu wybieraj losową action w każdej iteracji.
  • Po zakończeniu iteracji zaktualizuj dane episode, dodając krotkę (state, action, reward).