MulaiMulai sekarang secara gratis

Bootstrap dan Standard Error

Bayangkan sebuah Taman Nasional di mana para jagawana melakukan pendakian setiap hari sebagai bagian dari perawatan jalur. Mereka tidak selalu menempuh rute yang sama, tetapi mereka mencatat jarak akhir dan waktu tempuh. Kita ingin membangun model statistik atas variasi jarak harian yang ditempuh dari sampel data terbatas milik satu jagawana.

Tujuan Anda adalah menggunakan bootstrap resampling, menghitung satu mean untuk setiap resample, untuk membuat distribusi mean, lalu menghitung standard error sebagai cara mengukur "ketidakpastian" pada statistik sampel sebagai penaksir untuk statistik populasi.

Gunakan array sample_data yang sudah dimuat berisi 500 pengukuran independen atas jarak yang ditempuh. Untuk saat ini, kita menggunakan himpunan data simulasi untuk menyederhanakan pelajaran ini. Nanti, kita akan melihat data yang lebih realistis.

Latihan ini adalah bagian dari kursus

Pengantar Pemodelan Linear di Python

Lihat Kursus

Petunjuk latihan

  • Tetapkan sample_data sebagai model untuk populasi.

  • Ulangi sebanyak num_resamples kali:

    • Gunakan np.random.choice() setiap kali untuk membuat bootstrap_sample berukuran size=resample_size yang diambil dari population_model dan tentukan replace=True.
    • Hitung dan simpan mean sampel setiap kali.
  • Hitung dan cetak np.mean() dan np.std() dari bootstrap_means.

  • Gunakan plot_data_hist() yang telah disediakan dan visualisasikan distribusi bootstrap_means.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Use the sample_data as a model for the population
population_model = ____

# Resample the population_model 100 times, computing the mean each sample
for nr in range(num_resamples):
    bootstrap_sample = np.random.____(population_model, size=____, replace=____)
    bootstrap_means[nr] = np.____(bootstrap_sample)

# Compute and print the mean, stdev of the resample distribution of means
distribution_mean = np.mean(____)
standard_error = np.std(____)
print('Bootstrap Distribution: center={:0.1f}, spread={:0.1f}'.format(____, ____))

# Plot the bootstrap resample distribution of means
fig = plot_data_hist(____)
Edit dan Jalankan Kode