Implementando value iteration

Value iteration é um método fundamental em RL para encontrar a política ótima. Ele melhora iterativamente a função de valor de cada estado até convergir, o que leva à descoberta da política ótima. Você começará com uma função de valor V inicializada e uma policy, ambas já carregadas para você. Em seguida, você vai atualizá-las em um loop até a função de valor convergir e verá a política em ação.

A função get_max_action_and_value(state, V) já foi carregada para você.

Este exercicio faz parte do curso

Reinforcement Learning com Gymnasium em Python

Instruções do exercicio

Para cada estado, encontre a ação com o maior Q-value (max_action) e seu valor correspondente (max_q_value).
Atualize o dicionário new_V e a policy com base em max_action e max_q_value.
Verifique a convergência checando se a diferença entre new_v e V para cada estado é menor que threshold.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

threshold = 0.001
while True:
  new_V = {}
  for state in range(num_states-1):
    # Get action with maximum Q-value and its value 
    max_action, max_q_value = ____
    # Update the value function and policy
    new_V[state] = ____
    policy[state] = ____
  # Test if change in state values is negligeable
  if all(abs(____ - ____) < ____ for state in ____):
    break
  V = new_V
render_policy(policy)

Editar e Executar Código

Este exercicio faz parte do curso

Reinforcement Learning com Gymnasium em Python

AvançadoNível de habilidade

4.8+

Comece o curso gratuitamente

Mergulhe no mundo do Reinforcement Learning (RL) explorando seus conceitos, papéis e aplicações fundamentais. Navegue pelo framework de RL, entendendo a interação agente-ambiente. Você também vai aprender a usar a biblioteca Gymnasium para criar ambientes, visualizar estados e executar ações, construindo uma base prática em conceitos e aplicações de RL.

Exercise 1: Fundamentos de reinforcement learning Exercise 2: O que é Reinforcement Learning?Exercise 3: RL vs. outros subdomínios de ML Exercise 4: Cenários para aplicar RL Exercise 5: Navegando pelo framework de RL Exercise 6: Loop de interação em RL Exercise 7: Tarefas de RL episódicas e contínuas Exercise 8: Calculando retornos descontados para estratégias do agente Exercise 9: Interagindo com ambientes do Gymnasium Exercise 10: Configurando um ambiente Mountain Car Exercise 11: Visualizando o ambiente Mountain Car Exercise 12: Interagindo com o ambiente Frozen Lake

Aprofunde-se no mundo de RL com foco no aprendizado baseado em modelo. Desvende as complexidades dos Processos de Decisão de Markov (MDPs), entendendo seus componentes essenciais. Aprimore seu conjunto de habilidades aprendendo sobre políticas e funções de valor. Ganhe domínio em otimização de políticas com as técnicas de iteração de política e iteração de valor.

Exercise 1: Processos de Decisão de Markov Exercise 2: Componentes personalizados do MDP do Frozen Lake Exercise 3: Explorando os espaços de estados e ações Exercise 4: Probabilidades de transição e recompensas Exercise 5: Políticas e funções de valor de estado Exercise 6: Definindo uma política determinística Exercise 7: Calculando valores de estado para uma política Exercise 8: Comparando políticas Exercise 9: Funções valor-ação Exercise 10: Calculando valores-Q Exercise 11: Aprimorando uma política Exercise 12: Iteração de políticas e iteração de valores Exercise 13: Aplicando iteração de política para encontrar a política ótima Exercise 14: Implementando value iteration

Exercicio Atual

Embarque em uma jornada pelo dinâmico universo do aprendizado livre de modelo em RL. Conheça os métodos fundamentais de Monte Carlo e aplique os algoritmos de predição Monte Carlo de primeira visita e de todas as visitas. Em seguida, avance para o mundo do Aprendizado por Diferença Temporal, explorando o algoritmo SARSA. Por fim, mergulhe no Q-Learning e analise sua convergência em ambientes desafiadores.

Exercise 1: Métodos de Monte Carlo Exercise 2: Geração de episódios para métodos de Monte Carlo Exercise 3: Implementando Monte Carlo de primeira visita Exercise 4: Implementando Monte Carlo de todas as visitas Exercise 5: Aprendizado por diferença temporal Exercise 6: Implementando a regra de atualização do SARSA Exercise 7: Resolvendo o Frozen Lake 8x8 com SARSA Exercise 8: Q-learning Exercise 9: Implementando a regra de atualização do Q-learning Exercise 10: Resolvendo o Frozen Lake 8x8 com Q-learning Exercise 11: Avaliando a política em um Frozen Lake escorregadio

Mergulhe em estratégias avançadas em RL livre de modelo, com foco em aprimorar algoritmos de tomada de decisão. Aprenda sobre Expected SARSA para atualizações de política mais precisas e Double Q-learning para reduzir o viés de superestimação. Explore o equilíbrio entre exploração e exploração, dominando as estratégias epsilon-greedy e epsilon-decay para seleção de ações ideal. Enfrente o problema do bandido de múltiplos braços, aplicando estratégias para resolver desafios de decisão sob incerteza.

Exercise 1: Expected SARSA Exercise 2: Regra de atualização do Expected SARSA Exercise 3: Aplicando Expected SARSA Exercise 4: Double Q-learning Exercise 5: Implementando a regra de atualização do Double Q-learning Exercise 6: Aplicando Double Q-learning Exercise 7: Equilibrando exploração e aproveitamento Exercise 8: Definindo a função epsilon-greedy Exercise 9: Resolvendo CliffWalking com estratégia epsilon-greedy Exercise 10: Resolvendo CliffWalking com estratégia epsilon-greedy com decaimento Exercise 11: Caça-níqueis multiarmados Exercise 12: Criando um multi-armed bandit Exercise 13: Resolvendo um bandido de múltiplos braços Exercise 14: Avaliando a convergência em um problema de multi-armed bandit Exercise 15: Parabéns!