Tester la normalité
Une puissante panoplie d’outils statistiques, qui inclut plusieurs tests d’hypothèse courants, repose sur l’hypothèse que les données sous-jacentes suivent une loi normale. Un histogramme peut suggérer si les données sont approximativement normales, mais différents tests d’hypothèse permettent de vérifier directement cette hypothèse. De plus, les histogrammes sont très sensibles au nombre de classes, surtout lorsque la taille de l’échantillon est faible.
Dans cet exercice, vous travaillerez avec des données de salaires d’employés de la ville d’Austin dans salary_df. En particulier, vous étudierez les pompiers hispaniques. Vous analyserez si leurs années d’ancienneté sont approximativement distribuées normalement à l’aide du test d’Anderson-Darling.
Cet exercice fait partie du cours
Fondements de l’inférence en Python
Instructions
- Tracez un histogramme des
Years of Employmentdes employés. - Réalisez un test d’Anderson-Darling de normalité pour voir si
Years of Employmentest approximativement distribué normalement. - Trouvez quelles
critical_valuessont dépassées par lastatisticdu test. - Affichez le ou les
significance_levelpour lesquels l’hypothèse nulle serait rejetée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot a histogram of the employees' "Years of Employment"
____.plot(kind="____")
plt.show()
# Conduct an Anderson-Darling test using the years of employment from salary_df
result = stats.____(____)
# Print which critical values the test statistic is greater than the critical values
print(result.____ > result.____)
# Print the significance levels at which the null hypothesis is rejected
print(result.____[result.____ > result.____])