Zijn de resultaten van de Belmont Stakes normaal verdeeld?
Sinds 1926 is de Belmont Stakes een race van 1,5 mijl voor 3-jarige volbloedpaarden. Secretariat liep in 1973 de snelste Belmont Stakes ooit. Dat was het snelste jaar; 1970 was het traagste door uitzonderlijk natte en modderige omstandigheden. Verwijder deze twee uitschieters uit de gegevens en bereken het gemiddelde en de standaardafwijking van de winnende tijden. Trek vervolgens steekproeven uit een normale verdeling met dit gemiddelde en deze standaardafwijking met de functie rng.normal() en plot een CDF. Leg daar de ECDF van de winnende Belmont-tijden overheen. Lijken deze op een normale verdeling?
Opmerking: Justin heeft de gegevens over de Belmont Stakes verzameld van de Belmont Wikipedia-pagina.
Deze oefening maakt deel uit van de cursus
Statistisch denken in Python (deel 1)
Oefeninstructies
- Bereken het gemiddelde en de standaardafwijking van de winnende tijden van de Belmont Stakes met de twee uitschieters verwijderd. De NumPy-array
belmont_no_outliersbevat deze gegevens. - Neem 10.000 steekproeven uit een normale verdeling met dit gemiddelde en deze standaardafwijking met
rng.normal(). - Bereken de CDF van de theoretische steekproeven en de ECDF van de Belmont-gegevens, en sla de resultaten respectievelijk op in
x_theor, y_theorenx, y. - Klik op Antwoord verzenden om de CDF van je steekproeven samen met de ECDF te plotten, voorzie je assen van labels en toon de plot.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compute mean and standard deviation: mu, sigma
# Sample out of a normal distribution with this mu and sigma: samples
# Get the CDF of the samples and of the data
# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()