1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶDeep Reinforcement Learning

Connected

练习

最小構成DQNでの行動選択

select_action() 関数は、各ステップで最も高いQ値をもつ行動をエージェントに選ばせます。

この関数は、Qネットワークと現在の状態を引数に取り、最も高いQ値をもつ行動のインデックスを返します。

Qネットワークは q_network としてインスタンス化されており、作業用のサンプルとして state = torch.rand(8) でランダムな状態が環境に読み込まれています。

说明

100 XP
  • 引数として与えられた状態に対する、各行動に対応するQ値を計算します。
  • 最も高いQ値をもつ行動に対応するインデックスを取得します。