Das abgeschnittene Wahrscheinlichkeitsverhältnis
Du wirst nun das abgeschnittene Wahrscheinlichkeitsverhältnis implementieren, eine wesentliche Komponente der Zielfunktion PPO.
Zur Orientierung: Das Wahrscheinlichkeitsverhältnis ist definiert als: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$
Und das geclippte Wahrscheinlichkeitsverhältnis ist: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).
Diese Übung ist Teil des Kurses
Deep Reinforcement Learning in Python
Anleitung zur Übung
- Erhalte die Aktionswahrscheinlichkeit
prob
vonaction_log_prob
undprob_old
vonaction_log_prob_old
. - Löse das alte Aktionsprotokoll prob aus dem Graphen der Torch-Gradientenberechnung.
- Berechne das Wahrscheinlichkeitsverhältnis.
- Schneide das Ersatzziel ab.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
log_prob = torch.tensor(.5).log()
log_prob_old = torch.tensor(.4).log()
def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):
# Obtain prob and prob_old
prob = ____
prob_old = ____
# Detach the old action log prob
prob_old_detached = ____.____()
# Calculate the probability ratio
ratio = ____ / ____
# Apply clipping
clipped_ratio = torch.____(ratio, ____, ____)
print(f"+{'-'*29}+\n| Ratio: {str(ratio)} |\n| Clipped ratio: {str(clipped_ratio)} |\n+{'-'*29}+\n")
return (ratio, clipped_ratio)
_ = calculate_ratios(log_prob, log_prob_old, epsilon=.2)