90-, 95- und 99-%-Intervalle
Du bist Data Scientist bei einem Outdoor-Abenteuerunternehmen in Fairbanks, Alaska. In letzter Zeit gab es bei Kundinnen und Kunden Probleme mit SO2-Verschmutzung, was zu teuren Stornierungen führte. Das Unternehmen hat Sensoren für CO, NO2 und O3, aber nicht für SO2-Werte.
Du hast ein Modell gebaut, das SO2-Werte auf Basis der Werte der Schadstoffe mit Sensoren vorhersagt (geladen als pollution_model, ein statsmodels-Objekt). Du willst untersuchen, welcher Schadstoffwert den größten Einfluss auf die SO2-Vorhersage deines Modells hat. So weißt du, auf welche Schadstoffwerte du bei der Planung von Outdoor-Touren besonders achten solltest. Um möglichst viele Informationen in deinem Bericht zu vermitteln, zeige mehrere Ebenen von Unsicherheit für die Modellschätzungen.
Diese Übung ist Teil des Kurses
<Kurs>So verbesserst du deine Datenvisualisierungen in Python</Kurs>Übungsanweisungen
- Trage die passenden Prozentwerte für die Intervallbreite (aus 90, 95 und 99 %) entsprechend der Werteliste in
alphaein. - Färbe im for-Loop das Intervall mit seiner zugewiesenen
color. - Übergebe den Prozentwert
widthaus dem Loop anplt.hlines(), um die Legende zu beschriften.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Add interval percent widths
alphas = [ 0.01, 0.05, 0.1]
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']
for alpha, color, width in zip(alphas, colors, widths):
# Grab confidence interval
conf_ints = pollution_model.conf_int(alpha)
# Pass current interval color and legend label to plot
plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
colors = ____, ____ = width, linewidth = 10)
# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')
plt.legend()
plt.show()