Sind die Ergebnisse der Belmont Stakes normalverteilt?
Seit 1926 ist das Belmont Stakes ein 1,5 Meilen langes Rennen für dreijährige Vollblutpferde. Secretariat lief 1973 das schnellste Belmont Stakes aller Zeiten. Während das das schnellste Jahr war, war 1970 aufgrund ungewöhnlich nasser und matschiger Bedingungen das langsamste. Entferne diese beiden Ausreißer aus dem Datensatz und berechne den Mittelwert und die Standardabweichung der Zeiten der Belmont-Sieger. Ziehe Stichproben aus einer Normalverteilung mit diesem Mittelwert und dieser Standardabweichung mit der Funktion rng.normal() und erstelle eine CDF. Lege die ECDF der Gewinnzeiten der Belmont-Sieger darüber. Sind diese annähernd normalverteilt?
Hinweis: Justin hat die Daten zu den Belmont Stakes von der Belmont-Wikipedia-Seite gescraped.
Diese Übung ist Teil des Kurses
Statistical Thinking in Python (Teil 1)
Anleitung zur Übung
- Berechne Mittelwert und Standardabweichung der Zeiten der Belmont-Sieger, nachdem die zwei Ausreißer entfernt wurden. Das NumPy-Array
belmont_no_outliersenthält diese Daten. - Ziehe 10.000 Stichproben aus einer Normalverteilung mit diesem Mittelwert und dieser Standardabweichung mit
rng.normal(). - Berechne die CDF der theoretischen Stichproben und die ECDF der Belmont-Daten und weise die Ergebnisse jeweils
x_theor, y_theorbzw.x, yzu. - Drücke auf Antwort senden, um die CDF deiner Stichproben zusammen mit der ECDF zu plotten, beschrifte die Achsen und zeige den Plot an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Compute mean and standard deviation: mu, sigma
# Sample out of a normal distribution with this mu and sigma: samples
# Get the CDF of the samples and of the data
# Plot the CDFs and show the plot
_ = plt.plot(x_theor, y_theor)
_ = plt.plot(x, y, marker='.', linestyle='none')
_ = plt.xlabel('Belmont winning time (sec.)')
_ = plt.ylabel('CDF')
plt.show()