エージェントの戦略に対する割引リターンを計算する

割引リターンは、将来の報酬は即時の報酬より価値が低いことを考慮しつつ、エージェントが時間とともに得られる総報酬の見込みを評価するために使います。ここでは、あるRLエージェントの2つの異なる戦略（exp_rewards_strategy_1 と exp_rewards_strategy_2）に対する期待報酬が与えられています。各戦略の割引リターンを計算し、どちらの戦略がより高いリターンをもたらすかを判断してください。

numpy ライブラリは np としてインポート済みです。