Memvisualisasikan P-Value
Dalam latihan ini, Anda akan memvisualisasikan p-value, yaitu peluang bahwa efek (atau "kecepatan") yang kita estimasi merupakan hasil variasi acak dalam sampel. Tujuan Anda adalah memvisualisasikannya sebagai fraksi titik dalam sebaran statistik uji yang diacak yang berada di sebelah kanan mean statistik uji ("ukuran efek") yang dihitung dari sampel yang tidak diacak.
Sebagai awalan, kami telah memuat group_duration_short dan group_duration_long serta fungsi compute_test_statistic(), shuffle_and_split(), dan plot_test_statistic_effect()
Latihan ini adalah bagian dari kursus
Pengantar Pemodelan Linear di Python
Petunjuk latihan
- Gunakan
compute_test_statistic()untuk memperolehtest_statistic_unshuffleddarigroup_duration_shortdangroup_duration_long; kemudian gunakannp.mean()untuk menghitung ukuran efek. - Gunakan
shuffle_and_split()untuk membuatshuffle_half1danshuffle_half2, lalu gunakancompute_test_statistic()untuk menghitungtest_statistic_shuffled. - Buat mask boolean
conditionsehingga nilaitest_statistic_shuffledlebih besar atau sama denganeffect_size, lalu gunakan mask ini untuk menghitungp_value. - Cetak
p_valuedan plot kedua statistik uji menggunakanplot_test_statistic_effect().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Compute the test stat distribution and effect size for two population groups
test_statistic_unshuffled = compute_test_statistic(____, ____)
effect_size = np.mean(____)
# Randomize the two populations, and recompute the test stat distribution
shuffled_half1, ____ = shuffle_and_split(group_duration_short, ____)
test_statistic_shuffled = compute_test_statistic(shuffled_half1, ____)
# Compute the p-value as the proportion of shuffled test stat values >= the effect size
condition = ____ >= ____
p_value = len(test_statistic_shuffled[____]) / len(test_statistic_shuffled)
# Print p-value and overplot the shuffled and unshuffled test statistic distributions
print("The p-value is = {}".format(____))
fig = plot_test_stats_and_pvalue(test_statistic_unshuffled, test_statistic_shuffled)