cvičení

A2C s dávkovými aktualizacemi

V tomto kurzu jsi zatím pracoval/a s různými variantami stejné základní tréninkové smyčky DRL. V praxi existuje řada způsobů, jak tuto strukturu rozšířit – například o dávkové aktualizace.

Vrátíme se k tréninkové smyčce A2C v prostředí Lunar Lander, ale tentokrát nebudeme sítě aktualizovat po každém kroku. Místo toho počkáme, dokud neproběhne 10 kroků, a teprve pak spustíme krok gradientního sestupu. Průměrováním ztrát přes 10 kroků dosáhneme o něco stabilnějších aktualizací.

Pokyny

100 XP

Přidej ztráty z každého kroku do tenzorů ztrát pro aktuální dávku.
Vypočítej ztráty pro celou dávku.
Znovu inicializuj tenzory ztrát.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení