¿Se distribuyen normalmente los resultados de las Belmont Stakes?
Desde 1926, las Belmont Stakes son una carrera de 1,5 millas para caballos pura sangre de 3 años. Secretariat corrió la Belmont Stakes más rápida de la historia en 1973. Aunque ese fue el año más rápido, 1970 fue el más lento debido a condiciones inusualmente húmedas y barrosas. Con estos dos valores atípicos eliminados del conjunto de datos, calcula la media y la desviación estándar de los tiempos de los ganadores de Belmont. Muestra a partir de una distribución normal con esta media y desviación estándar usando la función rng.normal() y traza una CDF. Superpone la ECDF de los tiempos ganadores de Belmont. ¿Se aproximan a una distribución normal?
Nota: Justin extrajo los datos sobre las Belmont Stakes de la página de Wikipedia de Belmont.
Este ejercicio forma parte del curso
Pensamiento estadístico en Python (Parte 1)
Instrucciones del ejercicio
- Calcula la media y la desviación estándar de los tiempos de los ganadores de Belmont con los dos valores atípicos eliminados. El array de NumPy
belmont_no_outlierscontiene estos datos. - Toma 10.000 muestras de una distribución normal con esta media y desviación estándar usando
rng.normal(). - Calcula la CDF de las muestras teóricas y la ECDF de los datos de los ganadores de Belmont, asignando los resultados a
x_theor, y_theoryx, y, respectivamente. - Pulsa Enviar para trazar la CDF de tus muestras junto con la ECDF, etiqueta tus ejes y muestra la gráfica.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Compute mean and standard deviation: mu, sigma
# Sample out of a normal distribution with this mu and sigma: samples
# Get the CDF of the samples and of the data
# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()