Q-learning 업데이트 규칙 구현하기

Q-learning은 강화학습(RL)에서 현재 상태가 주어졌을 때 취할 수 있는 최적의 행동을 찾는 off-policy 알고리즘이에요. 실제로 다음에 취한 행동을 고려하는 SARSA와 달리, Q-learning은 어떤 행동을 했는지와 무관하게 미래 보상의 최댓값을 사용해 Q-값을 업데이트해요. 이 차이 덕분에 Q-learning은 탐색적이거나 심지어 무작위 정책을 따르면서도 최적 정책을 학습할 수 있어요. 아래의 Q-learning 규칙에 따라 Q-table을 업데이트하는 함수를 구현해 보세요. 다음은 Q-learning 업데이트 규칙이며, 이 규칙을 바탕으로 Q-table을 갱신하는 함수를 작성하는 것이 과제예요.

NumPy 라이브러리는 np로 임포트되어 있어요.

Image showing the mathematical formula of the Q-learning update rule.