Selezione dell'azione con DQN essenziale

La funzione select_action() permette all'agente di selezionare a ogni passo l'azione con il Q-value più alto.

La funzione prende come argomenti il Q-network e lo stato corrente e restituisce l'indice dell'azione con il Q-value più alto.

Il Q-network è istanziato come q_network, e un state casuale è stato caricato nel tuo ambiente con state = torch.rand(8) per fornirti dei dati di esempio su cui lavorare.

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Calcola i Q-value corrispondenti a ciascuna azione nello state fornito come argomento.
Ottieni l'indice corrispondente all'azione con il Q-value più alto.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def select_action(q_network, state):
    # Calculate the Q-values
    q_values = ____
    print("Q-values:", [round(x, 2) for x in q_values.tolist()])
    # Obtain the action index with highest Q-value
    action = torch.____.item()
    print(f"Action selected: {action}, with q-value {q_values[action]:.2f}")
    return action

select_action(q_network, state)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Scopri come il deep reinforcement learning migliora il Reinforcement Learning tradizionale mentre studi e implementi il tuo primo algoritmo di Deep Q Learning.

Exercise 1: Introduzione al deep reinforcement learning Exercise 2: Configurazione dell'ambiente e della rete neurale Exercise 3: Ciclo di training DRL Exercise 4: Introduzione al deep Q learning Exercise 5: Deep learning e DQN Exercise 6: L'architettura della Q-Network Exercise 7: Istanziamento della Q-Network Exercise 8: L'algoritmo DQN essenziale Exercise 9: Selezione dell'azione con DQN essenziale

Esercizio attuale

Exercise 10: Funzione di loss del DQN essenziale Exercise 11: Addestrare il DQN essenziale

Immergiti nel Deep Q-learning implementando l'algoritmo DQN originale, con Experience Replay, epsilon-greedy e Q-target fissi. Oltre al DQN, esplorerai poi due estensioni interessanti che migliorano le prestazioni e la stabilità del Deep Q-learning: Double DQN e Prioritized Experience Replay.

Exercise 1: DQN con experience replay Exercise 2: La coda a due estremità Exercise 3: Experience replay buffer Exercise 4: DQN con experience replay Exercise 5: L'algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Q-target fissi Exercise 8: Implementare l'algoritmo DQN completo Exercise 9: Double DQN Exercise 10: Rete online e rete target in DDQN Exercise 11: Addestrare il Double DQN Exercise 12: Prioritized experience replay Exercise 13: Prioritized experience replay buffer Exercise 14: Campionare dal buffer PER Exercise 15: DQN con prioritized experience replay

Apprendi i concetti fondamentali dei metodi policy gradient utilizzati nel DRL. Inizierai dal teorema del policy gradient, che è alla base di questi metodi. Poi implementerai l'algoritmo REINFORCE, un approccio potente per apprendere le policy. Il capitolo ti guiderà quindi nei metodi Actor-Critic, concentrandosi sull'algoritmo Advantage Actor-Critic (A2C), che unisce i punti di forza dei metodi basati su policy e di quelli basati su valore per migliorare efficienza e stabilità dell'apprendimento.

Exercise 1: Introduzione ai metodi policy gradient Exercise 2: L'architettura della rete di policy Exercise 3: Lavorare con distribuzioni discrete Exercise 4: Policy gradient e REINFORCE Exercise 5: Selezione dell'azione in REINFORCE Exercise 6: Addestrare l'algoritmo REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Rete del Critic Exercise 9: Calcolo delle loss di Actor-Critic Exercise 10: Addestrare l’algoritmo A2C

Esplora Proximal Policy Optimization (PPO) per ottenere prestazioni robuste nel DRL. In seguito, analizzerai l'uso dell'entropy bonus in PPO, che incoraggia l'esplorazione prevenendo una convergenza prematura verso policy deterministic. Imparerai anche gli aggiornamenti in batch nei metodi policy gradient. Infine, scoprirai l'ottimizzazione degli iperparametri con Optuna, uno strumento potente per ottimizzare le prestazioni dei tuoi modelli di DRL.

Exercise 1: Proximal Policy Optimization Exercise 2: Il rapporto di probabilità con clipping Exercise 3: La funzione obiettivo surrogata con clipping Exercise 4: Entropia aggiuntiva ed entro PPO Exercise 5: Gioca con l'entropia Exercise 6: Addestrare l'algoritmo PPO Exercise 7: Aggiornamenti in batch nel policy gradient Exercise 8: Minibatch e DRL Exercise 9: A2C con aggiornamenti in batch Exercise 10: Ottimizzazione degli iperparametri con Optuna Exercise 11: Iperparametro o no?Exercise 12: Mettiamo le mani su Optuna Exercise 13: Congratulazioni!