Trénink algoritmu REINFORCE

Teď je čas natrénovat Lunar Lander pomocí algoritmu REINFORCE! Zbývá ti implementovat trénovací smyčku REINFORCE včetně výpočtu loss funkce.

Protože výpočet loss funkce zasahuje do vnitřní i vnější smyčky, tentokrát funkci calculate_loss() nepoužiješ.

Jakmile je epizoda dokončena, můžeš obě tyto hodnoty využít k výpočtu loss.

Pro přehled, tady je výraz pro loss funkci algoritmu REINFORCE:

Funkci describe_episode() znovu použiješ k výpisu průběhu učení agenta v každé epizodě.

Přidej logaritmickou pravděpodobnost vybrané akce do seznamu log pravděpodobností epizody.
Přičti diskontovanou odměnu aktuálního kroku k výnosu epizody.
Vypočítej loss epizody podle algoritmu REINFORCE.