Een normale verdeling fitten
Met relatief kleine gegevenssets heb je vaak niet genoeg data om goed onderbouwde inferentie te doen. Als je echter vermoedt dat de data een normale verdeling volgt, kan het redelijk zijn om een normale verdeling te fitten en daarmee te werken in plaats van met de ruwe data. In deze oefening werk je met dezelfde data over Spaanse/Latino brandweerlieden waarvan je eerder aantoonde dat die bij het 5%-niveau normaal verdeeld is. Je fitt een normale verdeling en gebruikt die om het percentage te vinden van medewerkers waarvan je over het algemeen zou verwachten dat ze minder dan 10 jaar ervaring hebben.
Deze DataFrame is voor je geladen in salary_df. De pakketten pandas als pd, NumPy als np, Matplotlib als plt en het stats-pakket van SciPy zijn ook al voor je geladen.
Deze oefening maakt deel uit van de cursus
Basis van inferentie in Python
Oefeninstructies
- Fit een normale verdeling op de kolom
Years of Employmenten sla de resulterende gemiddelde waarde en standaarddeviatie op. - Gebruik deze gemiddelde waarde en standaarddeviatie in een normale CDF om het percentage medewerkers met minder dan tien jaar ervaring te schatten.
- Print dit percentage uit.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit a normal distribution to the data
mu, std = ____
# Compute the percentage of employees with less than 10 years experience
percent = stats.____(____, loc=____, scale=____)
# Print out this percentage
____