BaşlayınÜcretsiz Başlayın

Geçiş olasılıkları ve ödüller

Cliff Walking ortamında 48 durum (state) vardır; sol üst köşeden (0) sağ alt köşeye (47) doğru satır satır numaralandırılmıştır. Amacın, bu kurulumdaki geçiş olasılıklarının ve ödüllerin yapısını incelemek. Dikkat çekici biçimde, hedefe ulaşma ödülü dahil tüm ödüller bu ortamda negatiftir. Bu tasarım, her adımın bir ceza getirmesi nedeniyle atılan adım sayısını en aza indirmeyi vurgular; dolayısıyla verimli öğrenme algoritmaları tasarlarken etkinlik kilit bir unsurdur.

Gymnasium kütüphanesi gym olarak ve ortam env olarak içe aktarıldı. Ayrıca önceki egzersizden num_states ve num_actions da içe aktarıldı.

Image showing the cliff walking environment.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Kodu Düzenle ve Çalıştır