Chọn hành động trong REINFORCE

Viết hàm select_action cho REINFORCE, hàm này sẽ được tác tử REINFORCE của bạn dùng để chọn hành động ở mỗi bước.

Trong DQN, lượt truyền xuôi của mạng trả về các giá trị Q; trong REINFORCE, nó trả về xác suất hành động, từ đó có thể lấy mẫu trực tiếp một hành động.

Một policy network và một state đã được nạp sẵn trong môi trường của bạn.