or
Este exercício faz parte do curso
Mergulhe no mundo do Reinforcement Learning (RL) explorando seus conceitos, papéis e aplicações fundamentais. Navegue pelo framework de RL, entendendo a interação agente-ambiente. Você também vai aprender a usar a biblioteca Gymnasium para criar ambientes, visualizar estados e executar ações, construindo uma base prática em conceitos e aplicações de RL.
Aprofunde-se no mundo de RL com foco no aprendizado baseado em modelo. Desvende as complexidades dos Processos de Decisão de Markov (MDPs), entendendo seus componentes essenciais. Aprimore seu conjunto de habilidades aprendendo sobre políticas e funções de valor. Ganhe domínio em otimização de políticas com as técnicas de iteração de política e iteração de valor.
Embarque em uma jornada pelo dinâmico universo do aprendizado livre de modelo em RL. Conheça os métodos fundamentais de Monte Carlo e aplique os algoritmos de predição Monte Carlo de primeira visita e de todas as visitas. Em seguida, avance para o mundo do Aprendizado por Diferença Temporal, explorando o algoritmo SARSA. Por fim, mergulhe no Q-Learning e analise sua convergência em ambientes desafiadores.
Exercício atual
Mergulhe em estratégias avançadas em RL livre de modelo, com foco em aprimorar algoritmos de tomada de decisão. Aprenda sobre Expected SARSA para atualizações de política mais precisas e Double Q-learning para reduzir o viés de superestimação. Explore o equilíbrio entre exploração e exploração, dominando as estratégias epsilon-greedy e epsilon-decay para seleção de ações ideal. Enfrente o problema do bandido de múltiplos braços, aplicando estratégias para resolver desafios de decisão sob incerteza.