Intervalles à 90, 95 et 99 %

Vous êtes data scientist pour une société d’aventures en plein air à Fairbanks, en Alaska. Récemment, des clients ont rencontré des problèmes liés à la pollution au SO₂, entraînant des annulations coûteuses. L’entreprise dispose de capteurs pour le CO, le NO₂ et l’O₃, mais pas pour le SO₂.

Vous avez construit un modèle qui prédit les valeurs de SO₂ à partir des valeurs des polluants mesurés par capteurs (chargé sous le nom pollution_model, un objet statsmodels). Vous souhaitez déterminer quel polluant a l’effet le plus important sur la prédiction de SO₂ par votre modèle. Cela vous aidera à savoir sur quelles valeurs de polluants vous concentrer lors de la planification des sorties en plein air. Pour maximiser la richesse de votre rapport, affichez plusieurs niveaux d’incertitude pour les estimations du modèle.

Cet exercice fait partie du cours

<cours>Améliorer vos visualisations de données en Python</cours>

Voir le cours

Instructions de l’exercice

Renseignez les bons pourcentages de largeur d’intervalle (parmi 90, 95 et 99 %) en fonction de la liste de valeurs dans alpha.
Dans la boucle for, colorez l’intervalle avec sa color attribuée.
Transmettez la valeur de pourcentage width de la boucle à plt.hlines() pour étiqueter la légende.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Add interval percent widths
alphas = [     0.01,  0.05,   0.1] 
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']

for alpha, color, width in zip(alphas, colors, widths):
    # Grab confidence interval
    conf_ints = pollution_model.conf_int(alpha)
    
    # Pass current interval color and legend label to plot
    plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
               colors = ____, ____ = width, linewidth = 10) 

# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')

plt.legend()
plt.show()

Modifier et exécuter le code