Actieselectie in REINFORCE

Schrijf de REINFORCE-functie select_action, die je REINFORCE-agent bij elke stap gebruikt om een actie te kiezen.

Bij DQN gaf de forward pass van het netwerk Q-waarden terug; bij REINFORCE krijg je actiekansen terug, waaruit je direct een actie kunt sampelen.

Er zijn een policy-netwerk en een state in je omgeving geladen.

torch.distributions.Categorical is geïmporteerd als Categorical.

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

Oefeninstructies

Verkrijg de actiekansen als een torch-tensor.
Verkrijg de torch Distribution die hoort bij de actiekansen.
Sample een actie uit de verdeling.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def select_action(policy_network, state):
  # Obtain the action probabilities
  action_probs = ____
  print('Action probabilities:', action_probs)
  # Instantiate the action distribution
  action_dist = Categorical(____)
  # Sample an action from the distribution
  action = ____
  log_prob = action_dist.log_prob(action)
  return action.item(), log_prob.reshape(1)

state = torch.rand(8)
action, log_prob = select_action(policy_network, state)
print('Sampled action index:', action)
print(f'Log probability of sampled action: {log_prob.item():.2f}')

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Ontdek hoe deep reinforcement learning voortbouwt op traditioneel Reinforcement Learning terwijl je je eerste Deep Q Learning-algoritme bestudeert en implementeert.

Exercise 1: Introductie tot deep reinforcement learning Exercise 2: Omgeving en neuraal netwerk instellen Exercise 3: DRL-trainingslus Exercise 4: Introductie tot deep Q-learning Exercise 5: Deep learning en DQN Exercise 6: De Q-Network-architectuur Exercise 7: Het Q-netwerk instantiëren Exercise 8: Het kale DQN-algoritme Exercise 9: Barebone DQN-actie-selectie Exercise 10: Barebone DQN-verliesfunctie Exercise 11: Een barebone DQN trainen

Duik in Deep Q-learning door het originele DQN-algoritme te implementeren, met Experience Replay, epsilon-greediness en vaste Q-doelen. Voorbij DQN verken je daarna twee fascinerende uitbreidingen die de prestaties en stabiliteit van Deep Q-learning verbeteren: Double DQN en Prioritized Experience Replay.

Exercise 1: DQN met experience replay Exercise 2: De double-ended queue Exercise 3: Experience replay-buffer Exercise 4: DQN met experience replay Exercise 5: Het complete DQN-algoritme Exercise 6: Epsilon-greediness Exercise 7: Gefixeerde Q-targets Exercise 8: Het complete DQN-algoritme implementeren Exercise 9: Double DQN Exercise 10: Online netwerk en targetnetwerk in DDQN Exercise 11: De Double DQN trainen Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay-buffer Exercise 14: Steekproeven uit de PER-buffer Exercise 15: DQN met prioritaire experience replay

Leer de basisconcepten van policy gradient-methoden binnen DRL. Je begint met het policy gradient-theorema, de basis voor deze methoden. Vervolgens implementeer je het REINFORCE-algoritme, een krachtige aanpak om policies te leren. Daarna ga je door met Actor-Critic-methoden, met de focus op het Advantage Actor-Critic (A2C)-algoritme, dat de sterke punten van policy gradient- en value-based methoden combineert om leerefficiëntie en stabiliteit te vergroten.

Exercise 1: Introductie tot policy gradient Exercise 2: De architectuur van het policy-netwerk Exercise 3: Werken met discrete verdelingen Exercise 4: Policy gradient en REINFORCE Exercise 5: Actieselectie in REINFORCE

Huidige oefening

Exercise 6: De REINFORCE-algoritme trainen Exercise 7: Advantage Actor-Critic Exercise 8: Critic-netwerk Exercise 9: Actor-Critic: verliesberekeningen Exercise 10: Het A2C-algoritme trainen

Verken Proximal Policy Optimization (PPO) voor robuuste DRL-prestaties. Vervolgens bekijk je het gebruik van een entropiebonus in PPO, die exploratie stimuleert door voortijdige convergentie naar deterministische policies te voorkomen. Je leert ook over batchupdates in policy gradient-methoden. Tot slot leer je hyperparameteroptimalisatie met Optuna, een krachtige tool om de prestaties van je DRL-modellen te optimaliseren.

Exercise 1: Proximal policy optimization Exercise 2: De afgeknipte waarschijnlijkheidsratio Exercise 3: De geclipte surrogaatdoelfunctie Exercise 4: Entropiebonus en PPO Exercise 5: Entropie-speeltuin Exercise 6: De PPO-algoritme trainen Exercise 7: Batch-updates in policy gradient Exercise 8: Minibatch en DRL Exercise 9: A2C met batch-updates Exercise 10: Hyperparameteroptimalisatie met Optuna Exercise 11: Hyperparameter of niet?Exercise 12: Aan de slag met Optuna Exercise 13: Gefeliciteerd!