이산 분포 다루기

이제 곧 확률적 정책을 다루게 됩니다. 확률적 정책은 특정 상태에서의 에이전트 행동을 행동들에 대한 확률분포로 표현합니다.

PyTorch는 torch.distributions.Categorical 클래스를 사용해 이산 분포를 표현할 수 있으며, 이번에 이를 실습해 보겠습니다.

입력으로 사용하는 숫자들이 확률처럼 합이 1이 아닐 필요는 없다는 것도 보게 됩니다. 값들은 자동으로 정규화됩니다.