Probabilitas transisi dan reward
Lingkungan Cliff Walking memiliki 48 state, diberi nomor dari 0 hingga 47, baris demi baris, dari pojok kiri atas (0) hingga pojok kanan bawah (47). Tujuan Anda adalah menelusuri struktur probabilitas transisi dan reward di dalam pengaturan ini. Perhatikan bahwa semua reward, termasuk reward saat mencapai goal, bernilai negatif di lingkungan ini. Desain ini menekankan pada meminimalkan jumlah langkah, karena setiap langkah akan dikenai penalti, sehingga efisiensi menjadi aspek kunci dalam merancang algoritme pembelajaran yang efektif.
Pustaka gymnasium telah diimpor sebagai gym dan lingkungannya sebagai env. Selain itu, num_states dan num_actions dari latihan sebelumnya juga telah diimpor.

Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Choose the state
state = ____
# Extract transitions for each state-action pair
for action in range(num_actions):
transitions = ____
# Print details of each transition
for transition in transitions:
____, ____, ____, ____ = transition
print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")