ComenzarEmpieza gratis

¿Se distribuyen normalmente los resultados de las Belmont Stakes?

Desde 1926, las Belmont Stakes son una carrera de 1,5 millas para caballos pura sangre de 3 años. Secretariat corrió la Belmont Stakes más rápida de la historia en 1973. Aunque ese fue el año más rápido, 1970 fue el más lento debido a condiciones inusualmente húmedas y barrosas. Con estos dos valores atípicos eliminados del conjunto de datos, calcula la media y la desviación estándar de los tiempos de los ganadores de Belmont. Muestra a partir de una distribución normal con esta media y desviación estándar usando la función rng.normal() y traza una CDF. Superpone la ECDF de los tiempos ganadores de Belmont. ¿Se aproximan a una distribución normal?

Nota: Justin extrajo los datos sobre las Belmont Stakes de la página de Wikipedia de Belmont.

Este ejercicio forma parte del curso

Pensamiento estadístico en Python (Parte 1)

Ver curso

Instrucciones del ejercicio

  • Calcula la media y la desviación estándar de los tiempos de los ganadores de Belmont con los dos valores atípicos eliminados. El array de NumPy belmont_no_outliers contiene estos datos.
  • Toma 10.000 muestras de una distribución normal con esta media y desviación estándar usando rng.normal().
  • Calcula la CDF de las muestras teóricas y la ECDF de los datos de los ganadores de Belmont, asignando los resultados a x_theor, y_theor y x, y, respectivamente.
  • Pulsa Enviar para trazar la CDF de tus muestras junto con la ECDF, etiqueta tus ejes y muestra la gráfica.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Compute mean and standard deviation: mu, sigma



# Sample out of a normal distribution with this mu and sigma: samples


# Get the CDF of the samples and of the data



# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()
Editar y ejecutar código