Aan de slagGa gratis aan de slag

Toetsen op normaliteit

Een krachtige set statistische tools, waaronder diverse veelgebruikte hypothesetests, gaat uit van de aanname dat de onderliggende data normaal verdeeld is. Een histogram kan laten zien of de data ongeveer normaal verdeeld is, maar met verschillende hypothesetests kun je deze aanname direct toetsen. Bovendien zijn histogrammen erg gevoelig voor het aantal bins, zeker bij kleine steekproeven.

In deze oefening werk je met salarissen van medewerkers van de City of Austin in salary_df. Je richt je specifiek op Spaanstalige brandweerlieden. Je gaat onderzoeken of hun aantal dienstjaren ongeveer normaal verdeeld is met de Anderson-Darling-hypothesetoets.

Deze oefening maakt deel uit van de cursus

Basis van inferentie in Python

Cursus bekijken

Oefeninstructies

  • Maak een histogram van Years of Employment voor de medewerkers.
  • Voer een Anderson-Darling-toets voor normaliteit uit om te zien of Years of Employment ongeveer normaal verdeeld is.
  • Zoek uit voor welke critical_values de toetsstatistic groter is.
  • Print de significance_level(s) waarop de nulhypothese zou worden verworpen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Plot a histogram of the employees' "Years of Employment"
____.plot(kind="____")
plt.show()

# Conduct an Anderson-Darling test using the years of employment from salary_df
result = stats.____(____)

# Print which critical values the test statistic is greater than the critical values
print(result.____ > result.____)

# Print the significance levels at which the null hypothesis is rejected
print(result.____[result.____ > result.____])
Code bewerken en uitvoeren