Visualizar estadísticas de prueba
En este ejercicio, te acercarás a la hipótesis nula comparando la distribución de una estadística de prueba obtenida de dos formas distintas.
Primero, examinarás dos «poblaciones», agrupadas por tiempos tempranos y tardíos, y calcularás la distribución de la estadística de prueba. Después, baraja las dos poblaciones, de modo que los datos ya no estén ordenados temporalmente y cada una tenga una mezcla de tiempos tempranos y tardíos, y vuelve a calcular la distribución de la estadística de prueba.
Para empezar, hemos precargado los dos grupos de duraciones, group_duration_short y group_duration_long, y dos funciones, shuffle_and_split() y plot_test_statistic().
Este ejercicio forma parte del curso
Introducción al modelado lineal en Python
Instrucciones del ejercicio
- Usa
np.random.choice()para volver a muestreargroup_duration_shortygroup_duration_long, y resta los remuestreos para calculartest_statistic_unshuffled. - Usa
shuffle_and_split()sobre losgroup_duration_shortygroup_duration_longoriginales (en este orden) para crear dos nuevas poblaciones mezcladas. - Vuelve a muestrear las poblaciones barajadas y resta
resample_shortderesample_longpara calcular un nuevotest_statistic_shuffled. - Usa
plot_test_statistic()para trazar ambas distribuciones de la estadística de prueba y compáralas visualmente.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____
# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1
# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')