1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Síť kritika

Metody Actor-Critic vyžadují dvě velmi odlišné neuronové sítě.

Architektura sítě aktéra je totožná s architekturou sítě politiky, kterou jsi použil/a pro REINFORCE – třídu PolicyNetwork proto můžeš znovu využít.

Síť kritika je ale něco, co jsi zatím neimplementoval/a. Kritik se snaží aproximovat funkci hodnoty stavu \(V(s_t)\), nikoli funkci hodnoty akce \(Q(s_t, a_t)\), kterou aproximují Q-sítě.

Teď implementuješ modul Critic, který využiješ v A2C.

Pokyny

100 XP
  • Doplň požadovanou dimenzi druhé plně propojené vrstvy tak, aby vracela jednu hodnotu stavu.
  • Získej hodnotu vrácenou dopředným průchodem sítí kritika.