90-, 95- und 99-%-Intervalle
Du bist Data Scientist bei einem Outdoor-Abenteuerunternehmen in Fairbanks, Alaska. In letzter Zeit gab es bei Kundinnen und Kunden Probleme mit SO2-Verschmutzung, was zu teuren Stornierungen führte. Das Unternehmen hat Sensoren für CO, NO2 und O3, aber nicht für SO2-Werte.
Du hast ein Modell gebaut, das SO2-Werte auf Basis der Werte der Schadstoffe mit Sensoren vorhersagt (geladen als pollution_model, ein statsmodels-Objekt). Du willst untersuchen, welcher Schadstoffwert den größten Einfluss auf die SO2-Vorhersage deines Modells hat. So weißt du, auf welche Schadstoffwerte du bei der Planung von Outdoor-Touren besonders achten solltest. Um möglichst viele Informationen in deinem Bericht zu vermitteln, zeige mehrere Ebenen von Unsicherheit für die Modellschätzungen.
Diese Übung ist Teil des Kurses
So verbesserst du deine Datenvisualisierungen in Python
Anleitung zur Übung
- Trage die passenden Prozentwerte für die Intervallbreite (aus 90, 95 und 99 %) entsprechend der Werteliste in
alphaein. - Färbe im for-Loop das Intervall mit seiner zugewiesenen
color. - Übergebe den Prozentwert
widthaus dem Loop anplt.hlines(), um die Legende zu beschriften.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Add interval percent widths
alphas = [ 0.01, 0.05, 0.1]
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']
for alpha, color, width in zip(alphas, colors, widths):
# Grab confidence interval
conf_ints = pollution_model.conf_int(alpha)
# Pass current interval color and legend label to plot
plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
colors = ____, ____ = width, linewidth = 10)
# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')
plt.legend()
plt.show()