Visualizzare le statistiche di test

In questo esercizio, affronterai l’ipotesi nulla confrontando la distribuzione di una statistica di test ottenuta in due modi diversi.

Per prima cosa, esaminerai due "popolazioni", raggruppate per tempi iniziali e tardivi, calcolando la distribuzione della statistica di test. Poi mescolerai le due popolazioni, in modo che i dati non siano più ordinati nel tempo e ciascuna contenga un mix di tempi iniziali e tardivi, quindi ricalcolerai la distribuzione della statistica di test.

Per iniziare, abbiamo già caricato i due gruppi di durata, group_duration_short e group_duration_long, e due funzioni, shuffle_and_split() e plot_test_statistic().

Questo esercizio fa parte del corso

Introduzione alla modellazione lineare in Python

Visualizza corso

Istruzioni dell'esercizio

Usa np.random.choice() per eseguire il resampling di group_duration_short e group_duration_long, e calcola la differenza tra i resample per ottenere test_statistic_unshuffled.
Usa shuffle_and_split() sugli originali group_duration_short e group_duration_long (in questo ordine) per creare due nuove popolazioni miste.
Esegui il resampling delle popolazioni mescolate e sottrai resample_short da resample_long per calcolare un nuovo test_statistic_shuffled.
Usa plot_test_statistic() per tracciare entrambe le distribuzioni della statistica di test e confrontarle visivamente.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____

# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1

# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')

Modifica ed esegui il codice