Barebone DQN-actie-selectie

De functie select_action() laat de agent bij elke stap de actie kiezen met de hoogste Q-waarde.

De functie krijgt het Q-netwerk en de huidige state als argument en geeft de index terug van de actie met de hoogste Q-waarde.

Het Q-netwerk is geïnstantieerd als q_network, en er is een willekeurige state in je omgeving geladen met state = torch.rand(8) zodat je voorbeelddata hebt om mee te werken.

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

Oefeninstructies

Bereken de Q-waarden die horen bij elke actie in de meegegeven state.
Haal de index op die hoort bij de actie met de hoogste Q-waarde.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def select_action(q_network, state):
    # Calculate the Q-values
    q_values = ____
    print("Q-values:", [round(x, 2) for x in q_values.tolist()])
    # Obtain the action index with highest Q-value
    action = torch.____.item()
    print(f"Action selected: {action}, with q-value {q_values[action]:.2f}")
    return action

select_action(q_network, state)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Ontdek hoe deep reinforcement learning voortbouwt op traditioneel Reinforcement Learning terwijl je je eerste Deep Q Learning-algoritme bestudeert en implementeert.

Exercise 1: Introductie tot deep reinforcement learning Exercise 2: Omgeving en neuraal netwerk instellen Exercise 3: DRL-trainingslus Exercise 4: Introductie tot deep Q-learning Exercise 5: Deep learning en DQN Exercise 6: De Q-Network-architectuur Exercise 7: Het Q-netwerk instantiëren Exercise 8: Het kale DQN-algoritme Exercise 9: Barebone DQN-actie-selectie

Huidige oefening

Exercise 10: Barebone DQN-verliesfunctie Exercise 11: Een barebone DQN trainen

Duik in Deep Q-learning door het originele DQN-algoritme te implementeren, met Experience Replay, epsilon-greediness en vaste Q-doelen. Voorbij DQN verken je daarna twee fascinerende uitbreidingen die de prestaties en stabiliteit van Deep Q-learning verbeteren: Double DQN en Prioritized Experience Replay.

Exercise 1: DQN met experience replay Exercise 2: De double-ended queue Exercise 3: Experience replay-buffer Exercise 4: DQN met experience replay Exercise 5: Het complete DQN-algoritme Exercise 6: Epsilon-greediness Exercise 7: Gefixeerde Q-targets Exercise 8: Het complete DQN-algoritme implementeren Exercise 9: Double DQN Exercise 10: Online netwerk en targetnetwerk in DDQN Exercise 11: De Double DQN trainen Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay-buffer Exercise 14: Steekproeven uit de PER-buffer Exercise 15: DQN met prioritaire experience replay

Leer de basisconcepten van policy gradient-methoden binnen DRL. Je begint met het policy gradient-theorema, de basis voor deze methoden. Vervolgens implementeer je het REINFORCE-algoritme, een krachtige aanpak om policies te leren. Daarna ga je door met Actor-Critic-methoden, met de focus op het Advantage Actor-Critic (A2C)-algoritme, dat de sterke punten van policy gradient- en value-based methoden combineert om leerefficiëntie en stabiliteit te vergroten.

Exercise 1: Introductie tot policy gradient Exercise 2: De architectuur van het policy-netwerk Exercise 3: Werken met discrete verdelingen Exercise 4: Policy gradient en REINFORCE Exercise 5: Actieselectie in REINFORCE Exercise 6: De REINFORCE-algoritme trainen Exercise 7: Advantage Actor-Critic Exercise 8: Critic-netwerk Exercise 9: Actor-Critic: verliesberekeningen Exercise 10: Het A2C-algoritme trainen

Verken Proximal Policy Optimization (PPO) voor robuuste DRL-prestaties. Vervolgens bekijk je het gebruik van een entropiebonus in PPO, die exploratie stimuleert door voortijdige convergentie naar deterministische policies te voorkomen. Je leert ook over batchupdates in policy gradient-methoden. Tot slot leer je hyperparameteroptimalisatie met Optuna, een krachtige tool om de prestaties van je DRL-modellen te optimaliseren.

Exercise 1: Proximal policy optimization Exercise 2: De afgeknipte waarschijnlijkheidsratio Exercise 3: De geclipte surrogaatdoelfunctie Exercise 4: Entropiebonus en PPO Exercise 5: Entropie-speeltuin Exercise 6: De PPO-algoritme trainen Exercise 7: Batch-updates in policy gradient Exercise 8: Minibatch en DRL Exercise 9: A2C met batch-updates Exercise 10: Hyperparameteroptimalisatie met Optuna Exercise 11: Hyperparameter of niet?Exercise 12: Aan de slag met Optuna Exercise 13: Gefeliciteerd!