연습 문제

Monte Carlo 방법을 위한 에피소드 생성

Monte Carlo 방법은 가치 함수를 도출하기 위해 에피소드 생성을 필요로 해요. 따라서 이제 에피소드가 종료될 때까지 무작위로 행동을 선택해 에피소드를 생성하는 함수를 구현해 보세요. 다음 연습 문제에서는 미리 로드된 사용자 정의 환경 env에 Monte Carlo 방법을 적용하기 위해 이 함수를 호출하게 돼요.

render() 함수는 미리 로드되어 있어요.

지침

100 XP

seed를 42로 설정해 환경을 리셋하세요.
에피소드 루프에서 각 반복마다 무작위 action을 선택하세요.
한 반복이 끝나면 (state, action, reward) 튜플을 episode 데이터에 추가해 업데이트하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제