Memvisualisasikan Statistik Uji
Dalam latihan ini, Anda akan mendekati hipotesis nol dengan membandingkan sebaran sebuah statistik uji yang diperoleh melalui dua cara berbeda.
Pertama, Anda akan menelaah dua "populasi" yang dikelompokkan berdasarkan waktu awal dan akhir, lalu menghitung sebaran statistik uji. Kedua, acak kedua populasi tersebut sehingga data tidak lagi berurutan berdasarkan waktu, dan masing-masing berisi campuran waktu awal dan akhir, kemudian hitung kembali sebaran statistik uji.
Agar Anda dapat langsung mulai, kami telah memuat dua kelompok durasi waktu, group_duration_short dan group_duration_long, serta dua fungsi, shuffle_and_split() dan plot_test_statistic().
Latihan ini adalah bagian dari kursus
Pengantar Pemodelan Linear di Python
Petunjuk latihan
- Gunakan
np.random.choice()untuk melakukan resampling padagroup_duration_shortdangroup_duration_long, lalu ambil selisih hasil resampling untuk menghitungtest_statistic_unshuffled. - Gunakan
shuffle_and_split()padagroup_duration_shortdangroup_duration_longasli (dituliskan dalam urutan ini) untuk membuat dua populasi campuran yang baru. - Lakukan resampling pada populasi yang telah diacak, dan kurangkan
resample_shortdariresample_longuntuk menghitungtest_statistic_shuffledyang baru. - Gunakan
plot_test_statistic()untuk memvisualisasikan kedua sebaran statistik uji, lalu bandingkan secara visual.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____
# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1
# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')