BaşlayınÜcretsiz başlayın

Geçiş olasılıkları ve ödüller

Cliff Walking ortamında 48 durum (state) vardır; sol üst köşeden (0) sağ alt köşeye (47) doğru satır satır numaralandırılmıştır. Amacın, bu kurulumdaki geçiş olasılıklarının ve ödüllerin yapısını incelemek. Dikkat çekici biçimde, hedefe ulaşma ödülü dahil tüm ödüller bu ortamda negatiftir. Bu tasarım, her adımın bir ceza getirmesi nedeniyle atılan adım sayısını en aza indirmeyi vurgular; dolayısıyla verimli öğrenme algoritmaları tasarlarken etkinlik kilit bir unsurdur.

Gymnasium kütüphanesi gym olarak ve ortam env olarak içe aktarıldı. Ayrıca önceki egzersizden num_states ve num_actions da içe aktarıldı.

Image showing the cliff walking environment.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Kodu Düzenle ve Çalıştır