cvičení

Síť kritika

Metody Actor-Critic vyžadují dvě velmi odlišné neuronové sítě.

Architektura sítě aktéra je totožná s architekturou sítě politiky, kterou jsi použil/a pro REINFORCE – třídu PolicyNetwork proto můžeš znovu využít.

Síť kritika je ale něco, co jsi zatím neimplementoval/a. Kritik se snaží aproximovat funkci hodnoty stavu \(V(s_t)\), nikoli funkci hodnoty akce \(Q(s_t, a_t)\), kterou aproximují Q-sítě.

Teď implementuješ modul Critic, který využiješ v A2C.

Pokyny

100 XP

Doplň požadovanou dimenzi druhé plně propojené vrstvy tak, aby vracela jednu hodnotu stavu.
Získej hodnotu vrácenou dopředným průchodem sítí kritika.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení