1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Trénink algoritmu REINFORCE

Teď je čas natrénovat Lunar Lander pomocí algoritmu REINFORCE! Zbývá ti implementovat trénovací smyčku REINFORCE včetně výpočtu loss funkce.

Protože výpočet loss funkce zasahuje do vnitřní i vnější smyčky, tentokrát funkci calculate_loss() nepoužiješ.

Jakmile je epizoda dokončena, můžeš obě tyto hodnoty využít k výpočtu loss.

Pro přehled, tady je výraz pro loss funkci algoritmu REINFORCE:

Funkci describe_episode() znovu použiješ k výpisu průběhu učení agenta v každé epizodě.

Pokyny

100 XP
  • Přidej logaritmickou pravděpodobnost vybrané akce do seznamu log pravděpodobností epizody.
  • Přičti diskontovanou odměnu aktuálního kroku k výnosu epizody.
  • Vypočítej loss epizody podle algoritmu REINFORCE.