I risultati del Belmont Stakes seguono una Normale?
Dal 1926, il Belmont Stakes è una corsa di 1,5 miglia per purosangue di 3 anni. Secretariat ha corso il Belmont Stakes più veloce della storia nel 1973. Anche se quello fu l’anno più rapido, il 1970 fu il più lento a causa di condizioni insolitamente bagnate e fangose. Rimuovendo questi due valori anomali dal set di dati, calcola la media e la deviazione standard dei tempi dei vincitori del Belmont. Estrai campioni da una distribuzione Normale con questa media e deviazione standard usando la funzione rng.normal() e traccia una CDF. Sovrapponi l’ECDF dei tempi vincenti del Belmont. Sembrano approssimativamente Normali?
Nota: Justin ha estratto i dati relativi al Belmont Stakes dalla pagina Wikipedia del Belmont.
Questo esercizio fa parte del corso
Pensare in modo statistico con Python (Parte 1)
Istruzioni dell'esercizio
- Calcola media e deviazione standard dei tempi dei vincitori del Belmont con i due valori anomali rimossi. L’array NumPy
belmont_no_outlierscontiene questi dati. - Estrai 10.000 campioni da una distribuzione Normale con questa media e deviazione standard usando
rng.normal(). - Calcola la CDF dei campioni teorici e l’ECDF dei dati dei vincitori del Belmont, assegnando i risultati rispettivamente a
x_theor, y_theorex, y. - Premi Invia per tracciare la CDF dei tuoi campioni insieme all’ECDF, etichettare gli assi e mostrare il grafico.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Compute mean and standard deviation: mu, sigma
# Sample out of a normal distribution with this mu and sigma: samples
# Get the CDF of the samples and of the data
# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()