1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Řešení problému multi-armed bandit

V tomto cvičení implementuješ epsilon-greedy strategii pro řešení problému 10-ramenného bandity, přičemž hodnota epsilon se v průběhu času snižuje – agent se tak postupně přesouvá od průzkumu k využívání naučených znalostí.

Proměnné epsilon, min_epsilon a epsilon_decay jsou již předem definovány. Funkce epsilon_greedy() je také naimportována.

Pokyny

100 XP
  • Pomocí funkce create_multi_armed_bandit() inicializuj problém 10-ramenného bandity – funkce vrátí true_bandit_probs, counts, values, rewards a selected_arms.
  • Vyber rameno k tažení pomocí funkce epsilon_greedy().
  • Simuluj hodnotu reward na základě skutečných pravděpodobností bandity.
  • Sniž hodnotu epsilon tak, aby neklesla pod hodnotu min_epsilon.