Geçiş olasılıkları ve ödüller
Cliff Walking ortamında 48 durum (state) vardır; sol üst köşeden (0) sağ alt köşeye (47) doğru satır satır numaralandırılmıştır. Amacın, bu kurulumdaki geçiş olasılıklarının ve ödüllerin yapısını incelemek. Dikkat çekici biçimde, hedefe ulaşma ödülü dahil tüm ödüller bu ortamda negatiftir. Bu tasarım, her adımın bir ceza getirmesi nedeniyle atılan adım sayısını en aza indirmeyi vurgular; dolayısıyla verimli öğrenme algoritmaları tasarlarken etkinlik kilit bir unsurdur.
Gymnasium kütüphanesi gym olarak ve ortam env olarak içe aktarıldı. Ayrıca önceki egzersizden num_states ve num_actions da içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır
Python ile Gymnasium'da Reinforcement Learning
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")