決定的ポリシーを定義する

この演習では、動画で扱ったものと同じカスタム環境 MyGridWorld を使います。これはグリッドワールド環境で、エージェントの目標はできるだけ早くダイヤに到達することです。下図で指定されたとおりに、エージェントの行動を導くポリシーを定義してください。

Image showing the policy: states 0, 1, 6, 7 - action right. states 2, 3 - action down. states 4, 5 - action left.