90-, 95- en 99%-intervallen
Je bent data scientist bij een outdoor-avonturenbedrijf in Fairbanks, Alaska. Klanten hebben de laatste tijd last van SO2-vervuiling, wat leidt tot kostbare annuleringen. Het bedrijf heeft sensoren voor CO, NO2 en O3, maar niet voor SO2-niveaus.
Je hebt een model gebouwd dat SO2-waarden voorspelt op basis van de waarden van verontreinigende stoffen met sensoren (geladen als pollution_model, een statsmodels-object). Je wilt onderzoeken welke verontreinigende stof de grootste invloed heeft op de SO2-voorspelling van je model. Dit helpt je om te bepalen aan welke waarden je het meeste aandacht moet besteden bij het plannen van outdoor-tours. Om maximaal te informeren in je rapport, laat je meerdere niveaus van onzekerheid zien voor de modelschattingen.
Deze oefening maakt deel uit van de cursus
Je datavisualisaties verbeteren in Python
Oefeninstructies
- Vul de juiste intervalbreedtepercentages in (uit 90, 95 en 99%) op basis van de waardelijst in
alpha. - Kleur in de for-loop het interval met de toegewezen
color. - Geef de
width-percentagewaarde uit de loop door aanplt.hlines()om het label in de legenda te zetten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Add interval percent widths
alphas = [ 0.01, 0.05, 0.1]
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']
for alpha, color, width in zip(alphas, colors, widths):
# Grab confidence interval
conf_ints = pollution_model.conf_int(alpha)
# Pass current interval color and legend label to plot
plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
colors = ____, ____ = width, linewidth = 10)
# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')
plt.legend()
plt.show()