Auf Normalverteilung testen
Ein leistungsfähiger Baukasten statistischer Werkzeuge, zu dem auch mehrere gängige Hypothesentests gehören, basiert auf der Annahme, dass die zugrundeliegenden Daten normalverteilt sind. Ein Histogramm kann zwar Hinweise darauf geben, ob die Daten ungefähr normalverteilt sind, verschiedene Hypothesentests erlauben es uns jedoch, diese Annahme direkt zu prüfen. Außerdem sind Histogramme sehr empfindlich gegenüber der Anzahl der Klassen, insbesondere bei kleinen Stichprobenumfängen.
In dieser Übung arbeitest du mit Gehaltsdaten von Mitarbeitenden der Stadt Austin in salary_df. Konkret betrachtest du hispanische Feuerwehrleute. Du analysierst, ob ihre Beschäftigungsjahre annähernd normalverteilt sind, und verwendest dazu den Anderson-Darling-Hypothesentest.
Diese Übung ist Teil des Kurses
Grundlagen der Inferenz in Python
Anleitung zur Übung
- Zeichne ein Histogramm, das die
Years of Employmentder Mitarbeitenden zeigt. - Führe einen Anderson-Darling-Test auf Normalverteilung durch, um zu prüfen, ob
Years of Employmentannähernd normalverteilt ist. - Ermittle, welche
critical_valuesvon der Test-statisticüberschritten werden. - Gib die
significance_level-Werte aus, bei denen die Nullhypothese verworfen würde.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Plot a histogram of the employees' "Years of Employment"
____.plot(kind="____")
plt.show()
# Conduct an Anderson-Darling test using the years of employment from salary_df
result = stats.____(____)
# Print which critical values the test statistic is greater than the critical values
print(result.____ > result.____)
# Print the significance levels at which the null hypothesis is rejected
print(result.____[result.____ > result.____])