Bootstrap dan Standard Error
Bayangkan sebuah Taman Nasional di mana para jagawana melakukan pendakian setiap hari sebagai bagian dari perawatan jalur. Mereka tidak selalu menempuh rute yang sama, tetapi mereka mencatat jarak akhir dan waktu tempuh. Kita ingin membangun model statistik atas variasi jarak harian yang ditempuh dari sampel data terbatas milik satu jagawana.
Tujuan Anda adalah menggunakan bootstrap resampling, menghitung satu mean untuk setiap resample, untuk membuat distribusi mean, lalu menghitung standard error sebagai cara mengukur "ketidakpastian" pada statistik sampel sebagai penaksir untuk statistik populasi.
Gunakan array sample_data yang sudah dimuat berisi 500 pengukuran independen atas jarak yang ditempuh. Untuk saat ini, kita menggunakan himpunan data simulasi untuk menyederhanakan pelajaran ini. Nanti, kita akan melihat data yang lebih realistis.

Latihan ini adalah bagian dari kursus
Pengantar Pemodelan Linear di Python
Petunjuk latihan
Tetapkan
sample_datasebagai model untuk populasi.Ulangi sebanyak
num_resampleskali:- Gunakan
np.random.choice()setiap kali untuk membuatbootstrap_sampleberukuransize=resample_sizeyang diambil daripopulation_modeldan tentukanreplace=True. - Hitung dan simpan mean sampel setiap kali.
- Gunakan
Hitung dan cetak
np.mean()dannp.std()daribootstrap_means.Gunakan
plot_data_hist()yang telah disediakan dan visualisasikan distribusibootstrap_means.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Use the sample_data as a model for the population
population_model = ____
# Resample the population_model 100 times, computing the mean each sample
for nr in range(num_resamples):
bootstrap_sample = np.random.____(population_model, size=____, replace=____)
bootstrap_means[nr] = np.____(bootstrap_sample)
# Compute and print the mean, stdev of the resample distribution of means
distribution_mean = np.mean(____)
standard_error = np.std(____)
print('Bootstrap Distribution: center={:0.1f}, spread={:0.1f}'.format(____, ____))
# Plot the bootstrap resample distribution of means
fig = plot_data_hist(____)