Geçiş olasılıkları ve ödüller
Cliff Walking ortamında 48 durum (state) vardır; sol üst köşeden (0) sağ alt köşeye (47) doğru satır satır numaralandırılmıştır. Amacın, bu kurulumdaki geçiş olasılıklarının ve ödüllerin yapısını incelemek. Dikkat çekici biçimde, hedefe ulaşma ödülü dahil tüm ödüller bu ortamda negatiftir. Bu tasarım, her adımın bir ceza getirmesi nedeniyle atılan adım sayısını en aza indirmeyi vurgular; dolayısıyla verimli öğrenme algoritmaları tasarlarken etkinlik kilit bir unsurdur.
Gymnasium kütüphanesi gym olarak ve ortam env olarak içe aktarıldı. Ayrıca önceki egzersizden num_states ve num_actions da içe aktarıldı.

Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")