Aan de slagGa gratis aan de slag

90-, 95- en 99%-intervallen

Je bent data scientist bij een outdoor-avonturenbedrijf in Fairbanks, Alaska. Klanten hebben de laatste tijd last van SO2-vervuiling, wat leidt tot kostbare annuleringen. Het bedrijf heeft sensoren voor CO, NO2 en O3, maar niet voor SO2-niveaus.

Je hebt een model gebouwd dat SO2-waarden voorspelt op basis van de waarden van verontreinigende stoffen met sensoren (geladen als pollution_model, een statsmodels-object). Je wilt onderzoeken welke verontreinigende stof de grootste invloed heeft op de SO2-voorspelling van je model. Dit helpt je om te bepalen aan welke waarden je het meeste aandacht moet besteden bij het plannen van outdoor-tours. Om maximaal te informeren in je rapport, laat je meerdere niveaus van onzekerheid zien voor de modelschattingen.

Deze oefening maakt deel uit van de cursus

Je datavisualisaties verbeteren in Python

Cursus bekijken

Oefeninstructies

  • Vul de juiste intervalbreedtepercentages in (uit 90, 95 en 99%) op basis van de waardelijst in alpha.
  • Kleur in de for-loop het interval met de toegewezen color.
  • Geef de width-percentagewaarde uit de loop door aan plt.hlines() om het label in de legenda te zetten.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Add interval percent widths
alphas = [     0.01,  0.05,   0.1] 
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']

for alpha, color, width in zip(alphas, colors, widths):
    # Grab confidence interval
    conf_ints = pollution_model.conf_int(alpha)
    
    # Pass current interval color and legend label to plot
    plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
               colors = ____, ____ = width, linewidth = 10) 

# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')

plt.legend()
plt.show() 
Code bewerken en uitvoeren