Intervalles à 90, 95 et 99 %
Vous êtes data scientist pour une société d’aventures en plein air à Fairbanks, en Alaska. Récemment, des clients ont rencontré des problèmes liés à la pollution au SO2, entraînant des annulations coûteuses. L’entreprise dispose de capteurs pour le CO, le NO2 et l’O3, mais pas pour le SO2.
Vous avez construit un modèle qui prédit les valeurs de SO2 à partir des valeurs des polluants mesurés par capteurs (chargé sous le nom pollution_model, un objet statsmodels). Vous souhaitez déterminer quel polluant a l’effet le plus important sur la prédiction de SO2 par votre modèle. Cela vous aidera à savoir sur quelles valeurs de polluants vous concentrer lors de la planification des sorties en plein air. Pour maximiser la richesse de votre rapport, affichez plusieurs niveaux d’incertitude pour les estimations du modèle.
Cet exercice fait partie du cours
Améliorer vos visualisations de données en Python
Instructions
- Renseignez les bons pourcentages de largeur d’intervalle (parmi 90, 95 et 99 %) en fonction de la liste de valeurs dans
alpha. - Dans la boucle for, colorez l’intervalle avec sa
colorattribuée. - Transmettez la valeur de pourcentage
widthde la boucle àplt.hlines()pour étiqueter la légende.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add interval percent widths
alphas = [ 0.01, 0.05, 0.1]
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']
for alpha, color, width in zip(alphas, colors, widths):
# Grab confidence interval
conf_ints = pollution_model.conf_int(alpha)
# Pass current interval color and legend label to plot
plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
colors = ____, ____ = width, linewidth = 10)
# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')
plt.legend()
plt.show()