学ぶ

/

コース

/

Pythonで学ぶDeep Reinforcement Learning

Connected

演習

最小構成DQNでの行動選択

select_action() 関数は、各ステップで最も高いQ値をもつ行動をエージェントに選ばせます。

この関数は、Qネットワークと現在の状態を引数に取り、最も高いQ値をもつ行動のインデックスを返します。

Qネットワークは q_network としてインスタンス化されており、作業用のサンプルとして state = torch.rand(8) でランダムな状態が環境に読み込まれています。

指示

100 XP

引数として与えられた状態に対する、各行動に対応するQ値を計算します。
最も高いQ値をもつ行動に対応するインデックスを取得します。