MulaiMulai sekarang secara gratis

Membuat multi-armed bandit

Masalah multi-armed bandit adalah contoh klasik dalam reinforcement learning untuk menggambarkan skenario ketika sebuah agen harus memilih di antara beberapa aksi (atau "arm") tanpa mengetahui imbalan yang diharapkan dari masing-masing. Seiring waktu, agen mempelajari arm mana yang menghasilkan imbalan tertinggi dengan mengeksplorasi setiap opsi. Latihan ini melibatkan penyusunan struktur dasar untuk mensimulasikan masalah multi-armed bandit.

Pustaka numpy telah diimpor sebagai np.

Latihan ini adalah bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Lihat Kursus

Petunjuk latihan

  • Hasilkan array true_bandit_probs dengan probabilitas acak yang merepresentasikan laju keberhasilan sebenarnya untuk setiap bandit.
  • Inisialisasi dua array, counts dan values, dengan nol; counts melacak berapa kali setiap bandit dipilih, dan values merepresentasikan probabilitas kemenangan yang diperkirakan untuk setiap bandit.
  • Buat array rewards dan selected_arms untuk menyimpan imbalan yang diperoleh dan arm yang dipilih pada setiap iterasi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def create_multi_armed_bandit(n_bandits):
  	# Generate the true bandits probabilities
    true_bandit_probs = ____ 
    # Create arrays that store the count and value for each bandit
    counts = ____  
    values = ____  
    # Create arrays that store the rewards and selected arms each episode
    rewards = ____
    selected_arms = ____ 
    return true_bandit_probs, counts, values, rewards, selected_arms
Edit dan Jalankan Kode