Membuat multi-armed bandit
Masalah multi-armed bandit adalah contoh klasik dalam reinforcement learning untuk menggambarkan skenario ketika sebuah agen harus memilih di antara beberapa aksi (atau "arm") tanpa mengetahui imbalan yang diharapkan dari masing-masing. Seiring waktu, agen mempelajari arm mana yang menghasilkan imbalan tertinggi dengan mengeksplorasi setiap opsi. Latihan ini melibatkan penyusunan struktur dasar untuk mensimulasikan masalah multi-armed bandit.
Pustaka numpy telah diimpor sebagai np.
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Petunjuk latihan
- Hasilkan array
true_bandit_probsdengan probabilitas acak yang merepresentasikan laju keberhasilan sebenarnya untuk setiap bandit. - Inisialisasi dua array,
countsdanvalues, dengan nol;countsmelacak berapa kali setiap bandit dipilih, danvaluesmerepresentasikan probabilitas kemenangan yang diperkirakan untuk setiap bandit. - Buat array
rewardsdanselected_armsuntuk menyimpan imbalan yang diperoleh dan arm yang dipilih pada setiap iterasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def create_multi_armed_bandit(n_bandits):
# Generate the true bandits probabilities
true_bandit_probs = ____
# Create arrays that store the count and value for each bandit
counts = ____
values = ____
# Create arrays that store the rewards and selected arms each episode
rewards = ____
selected_arms = ____
return true_bandit_probs, counts, values, rewards, selected_arms