Visualizzare le statistiche di test
In questo esercizio, affronterai l’ipotesi nulla confrontando la distribuzione di una statistica di test ottenuta in due modi diversi.
Per prima cosa, esaminerai due "popolazioni", raggruppate per tempi iniziali e tardivi, calcolando la distribuzione della statistica di test. Poi mescolerai le due popolazioni, in modo che i dati non siano più ordinati nel tempo e ciascuna contenga un mix di tempi iniziali e tardivi, quindi ricalcolerai la distribuzione della statistica di test.
Per iniziare, abbiamo già caricato i due gruppi di durata, group_duration_short e group_duration_long, e due funzioni, shuffle_and_split() e plot_test_statistic().
Questo esercizio fa parte del corso
Introduzione alla modellazione lineare in Python
Istruzioni dell'esercizio
- Usa
np.random.choice()per eseguire il resampling digroup_duration_shortegroup_duration_long, e calcola la differenza tra i resample per otteneretest_statistic_unshuffled. - Usa
shuffle_and_split()sugli originaligroup_duration_shortegroup_duration_long(in questo ordine) per creare due nuove popolazioni miste. - Esegui il resampling delle popolazioni mescolate e sottrai
resample_shortdaresample_longper calcolare un nuovotest_statistic_shuffled. - Usa
plot_test_statistic()per tracciare entrambe le distribuzioni della statistica di test e confrontarle visivamente.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____
# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1
# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')