Prueba de hipótesis bootstrap sobre recuentos de esperma de abejas

Ahora vas a poner a prueba la siguiente hipótesis: de media, los zánganos tratados con insecticidas neonicotinoides tienen el mismo número de espermatozoides activos por mililitro de semen que los zánganos no tratados. Usarás la diferencia de medias como estadístico de prueba.

Como referencia, la firma de llamada de la función draw_bs_reps() que escribiste en el capítulo 2 es draw_bs_reps(data, func, size=1).

Este ejercicio forma parte del curso

Pensamiento estadístico en Python (Parte 2)

Instrucciones del ejercicio

Calcula la media del recuento de espermatozoides vivos de control menos la de treated.
Calcula la media de todos los recuentos de espermatozoides vivos. Para ello, primero concatena control y treated y calcula la media del array concatenado.
Genera conjuntos de datos desplazados para control y treated de modo que ambos conjuntos desplazados tengan la misma media. Esto ya está hecho por ti.
Genera 10.000 réplicas bootstrap de la media para cada uno de los dos arrays desplazados. Usa tu función draw_bs_reps().
Calcula las réplicas bootstrap de la diferencia de medias.
El código para calcular e imprimir el valor p ya está escrito. ¡Pulsa Enviar para ver el resultado!

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Compute the difference in mean sperm count: diff_means
diff_means = ____

# Compute mean of pooled data: mean_count
mean_count = ____

# Generate shifted data sets
control_shifted = control - np.mean(control) + mean_count
treated_shifted = treated - np.mean(treated) + mean_count

# Generate bootstrap replicates
bs_reps_control = ____(____,
                       np.mean, size=10000)
bs_reps_treated = ____(____,
                       np.mean, size=10000)

# Get replicates of difference of means: bs_replicates
bs_replicates = ____

# Compute and print p-value: p
p = np.sum(bs_replicates >= np.mean(control) - np.mean(treated)) \
            / len(bs_replicates)
print('p-value =', p)

Editar y ejecutar código

Este ejercicio forma parte del curso

Pensamiento estadístico en Python (Parte 2)

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Cuando hacemos inferencia estadística, hablamos el lenguaje de la probabilidad. Una distribución de probabilidad que describe tus datos tiene parámetros. Por tanto, uno de los grandes objetivos de la inferencia estadística es estimar los valores de esos parámetros, lo que nos permite describir nuestros datos de forma concisa y sin ambigüedades y extraer conclusiones. En este capítulo aprenderás a encontrar los parámetros óptimos, aquellos que mejor describen tus datos.

Exercise 1: Parámetros óptimos Exercise 2: ¿Con qué frecuencia hay no-hitters?Exercise 3: ¿Los datos siguen nuestra historia?Exercise 4: ¿Por qué es óptimo este parámetro?Exercise 5: Regresión lineal por mínimos cuadrados Exercise 6: EDA de alfabetización/fertilidad Exercise 7: Regresión lineal Exercise 8: ¿Por qué es óptimo?Exercise 9: La importancia del EDA: el cuarteto de Anscombe Exercise 10: La importancia del EDA Exercise 11: Regresión lineal en los datos adecuados de Anscombe Exercise 12: Regresión lineal en todos los datos de Anscombe

“Levantarme tirando de mis propias botas” es un modismo clásico que significa lograr una tarea difícil por ti mismo y sin ayuda. En inferencia estadística, quieres saber qué pasaría si pudieras repetir la adquisición de datos un número infinito de veces. Esta tarea es imposible, pero ¿podemos usar solo los datos que realmente tenemos para acercarnos al resultado de una infinidad de experimentos? ¡La respuesta es sí! La técnica para conseguirlo se llama, muy apropiadamente, bootstrap. Este capítulo te presentará esta herramienta extraordinariamente potente.

Exercise 1: Generar réplicas bootstrap Exercise 2: Fijando la terminología Exercise 3: Bootstrap a mano Exercise 4: Visualizar muestras bootstrap Exercise 5: Intervalos de confianza bootstrap Exercise 6: Generar muchas réplicas bootstrap Exercise 7: Réplicas bootstrap de la media y el SEM Exercise 8: Intervalos de confianza de datos de precipitación Exercise 9: Replicados bootstrap de otras estadísticas Exercise 10: Intervalo de confianza de la tasa de no-hitters Exercise 11: Bootstrap por pares Exercise 12: Una función para hacer pairs bootstrap Exercise 13: Bootstrap por pares con datos de alfabetización/fertilidad Exercise 14: Trazar regresiones bootstrap

Ahora ya sabes cómo definir y estimar parámetros dado un modelo. Pero queda la pregunta: ¿qué tan razonable es observar tus datos si un modelo es cierto? Esta pregunta se aborda con pruebas de hipótesis. Son la guinda del pastel de la inferencia. Al completar este capítulo, serás capaz de construir y poner a prueba hipótesis con cuidado usando hacker statistics.

Exercise 1: Formular y simular una hipótesis Exercise 2: Generar una muestra por permutación Exercise 3: Visualización del muestreo por permutación Exercise 4: Estadísticos de prueba y valores p Exercise 5: Estadísticos de prueba Exercise 6: ¿Qué es un valor p?Exercise 7: Generar réplicas por permutación Exercise 8: Mira antes de saltar: EDA antes de la contrastación de hipótesis Exercise 9: Prueba de permutación con datos de ranas Exercise 10: Pruebas de hipótesis con bootstrap Exercise 11: Una prueba de hipótesis bootstrap de una muestra Exercise 12: Contraste bootstrap de dos muestras para la diferencia de medias

Como viste en el capítulo anterior, las pruebas de hipótesis pueden ser algo delicadas. Tienes que definir la hipótesis nula, averiguar cómo simularla y dejar claro qué significa “más extremo” para poder calcular el valor p. Como cualquier habilidad, la práctica hace al maestro, y este capítulo te dará una buena práctica con pruebas de hipótesis.

Exercise 1: Pruebas A/B Exercise 2: La votación sobre la Ley de Derechos Civiles en 1964 Exercise 3: ¿Qué es equivalente?Exercise 4: Un análogo de tiempo en la web Exercise 5: ¿Qué tendrías que haber hecho primero?Exercise 6: Prueba de correlación Exercise 7: Simular una hipótesis nula sobre la correlación Exercise 8: Prueba de hipótesis sobre la correlación de Pearson Exercise 9: ¿Tienen consecuencias no deseadas los insecticidas neonicotinoides?Exercise 10: Prueba de hipótesis bootstrap sobre recuentos de esperma de abejas

Ejercicio actual

Cada año, desde hace más de 40 años, Peter y Rosemary Grant han ido a la isla Daphne Mayor, en las Galápagos, y han recopilado datos sobre los pinzones de Darwin. Aplicando tus habilidades de inferencia estadística, en este capítulo trabajarás con sus datos y presenciarás de primera mano, a través de los datos, la evolución en acción. ¡Es una forma emocionante de cerrar el curso!

Exercise 1: Picos de pinzones y la necesidad de la estadística Exercise 2: EDA de la profundidad del pico de los pinzones de Darwin Exercise 3: ECDF de profundidades de pico Exercise 4: Estimaciones de parámetros de la profundidad del pico Exercise 5: Prueba de hipótesis: ¿son más profundas las patas en 2012?Exercise 6: Variación en las formas de los picos Exercise 7: EDA de la longitud y profundidad del pico Exercise 8: Regresiones lineales Exercise 9: Mostrar los resultados de la regresión lineal Exercise 10: Cociente longitud/profundidad del pico Exercise 11: ¿Qué tan diferente es la razón?Exercise 12: Cálculo de la heredabilidad Exercise 13: EDA de la heredabilidad Exercise 14: Correlación entre datos de progenie y parentales Exercise 15: Correlación de Pearson entre descendencia y progenitores Exercise 16: Medir la heredabilidad Exercise 17: ¿La profundidad del pico es heredable en G. scandens?Exercise 18: Reflexiones finales