90-, 95- en 99%-intervallen

Je bent data scientist bij een outdoor-avonturenbedrijf in Fairbanks, Alaska. Klanten hebben de laatste tijd last van SO₂-vervuiling, wat leidt tot kostbare annuleringen. Het bedrijf heeft sensoren voor CO, NO₂ en O₃, maar niet voor SO₂-niveaus.

Je hebt een model gebouwd dat SO₂-waarden voorspelt op basis van de waarden van verontreinigende stoffen met sensoren (geladen als pollution_model, een statsmodels-object). Je wilt onderzoeken welke verontreinigende stof de grootste invloed heeft op de SO₂-voorspelling van je model. Dit helpt je om te bepalen aan welke waarden je het meeste aandacht moet besteden bij het plannen van outdoor-tours. Om maximaal te informeren in je rapport, laat je meerdere niveaus van onzekerheid zien voor de modelschattingen.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Bekijk cursus

Oefeninstructies

Vul de juiste intervalbreedtepercentages in (uit 90, 95 en 99%) op basis van de waardelijst in alpha.
Kleur in de for-loop het interval met de toegewezen color.
Geef de width-percentagewaarde uit de loop door aan plt.hlines() om het label in de legenda te zetten.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Add interval percent widths
alphas = [     0.01,  0.05,   0.1] 
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']

for alpha, color, width in zip(alphas, colors, widths):
    # Grab confidence interval
    conf_ints = pollution_model.conf_int(alpha)
    
    # Pass current interval color and legend label to plot
    plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
               colors = ____, ____ = width, linewidth = 10) 

# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')

plt.legend()
plt.show()

Code bewerken en uitvoeren