Zijn de resultaten van de Belmont Stakes normaal verdeeld?

Sinds 1926 is de Belmont Stakes een race van 1,5 mijl voor 3-jarige volbloedpaarden. Secretariat liep in 1973 de snelste Belmont Stakes ooit. Dat was het snelste jaar; 1970 was het traagste door uitzonderlijk natte en modderige omstandigheden. Verwijder deze twee uitschieters uit de gegevens en bereken het gemiddelde en de standaardafwijking van de winnende tijden. Trek vervolgens steekproeven uit een normale verdeling met dit gemiddelde en deze standaardafwijking met de functie rng.normal() en plot een CDF. Leg daar de ECDF van de winnende Belmont-tijden overheen. Lijken deze op een normale verdeling?

Opmerking: Justin heeft de gegevens over de Belmont Stakes verzameld van de Belmont Wikipedia-pagina.

Deze oefening maakt deel uit van de cursus

Statistisch denken in Python (deel 1)

Bekijk cursus

Oefeninstructies

Bereken het gemiddelde en de standaardafwijking van de winnende tijden van de Belmont Stakes met de twee uitschieters verwijderd. De NumPy-array belmont_no_outliers bevat deze gegevens.
Neem 10.000 steekproeven uit een normale verdeling met dit gemiddelde en deze standaardafwijking met rng.normal().
Bereken de CDF van de theoretische steekproeven en de ECDF van de Belmont-gegevens, en sla de resultaten respectievelijk op in x_theor, y_theor en x, y.
Klik op Antwoord verzenden om de CDF van je steekproeven samen met de ECDF te plotten, voorzie je assen van labels en toon de plot.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute mean and standard deviation: mu, sigma



# Sample out of a normal distribution with this mu and sigma: samples


# Get the CDF of the samples and of the data



# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()

Code bewerken en uitvoeren