MulaiMulai sekarang secara gratis

Probabilitas transisi dan reward

Lingkungan Cliff Walking memiliki 48 state, diberi nomor dari 0 hingga 47, baris demi baris, dari pojok kiri atas (0) hingga pojok kanan bawah (47). Tujuan Anda adalah menelusuri struktur probabilitas transisi dan reward di dalam pengaturan ini. Perhatikan bahwa semua reward, termasuk reward saat mencapai goal, bernilai negatif di lingkungan ini. Desain ini menekankan pada meminimalkan jumlah langkah, karena setiap langkah akan dikenai penalti, sehingga efisiensi menjadi aspek kunci dalam merancang algoritme pembelajaran yang efektif.

Pustaka gymnasium telah diimpor sebagai gym dan lingkungannya sebagai env. Selain itu, num_states dan num_actions dari latihan sebelumnya juga telah diimpor.

Image showing the cliff walking environment.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")
Edit dan Jalankan Kode