Annoter des intervalles de confiance

Votre travail de data scientist sur les données de pollution est devenu légendaire, et vous hésitez entre des offres à Cincinnati (Ohio) et Indianapolis (Indiana). Vous souhaitez vérifier si les niveaux de SO₂ diffèrent significativement entre les deux villes, et surtout, laquelle présente des niveaux plus faibles. Pour cela, vous décidez d’examiner les différences de valeurs de SO₂ entre les villes (Indianapolis - Cincinnati) sur plusieurs années (fournies dans diffs_by_year).

Plutôt que d’afficher uniquement une p-value indiquant une différence significative entre les villes, vous choisissez d’examiner les intervalles de confiance à 95 % (colonnes lower et upper) des différences. Cela vous permet d’observer l’ampleur des écarts ainsi que les tendances au fil des années.

Cet exercice fait partie du cours

Améliorer vos visualisations de données en Python

Afficher le cours

Instructions

Fournissez à plt.hlines() les bornes de début et de fin (colonnes lower et upper) de vos intervalles de confiance.
Réglez l’épaisseur de l’intervalle à 5.
Tracez une ligne verticale représentant une différence de 0 avec plt.axvline().
Colorez la ligne nulle en 'orangered' pour qu’elle ressorte bien.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Améliorer vos visualisations de données en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Comment montrer l’ensemble de vos données tout en veillant à ce que le public ne passe pas à côté d’un point essentiel ? Nous expliquons ici comment guider l’attention grâce à des mises en évidence basées sur la couleur et du texte. Nous présentons aussi un jeu de données sur les principaux polluants aux États‑Unis.

Exercise 1: Mettre en valeur les données Exercise 2: Coder en dur une mise en évidence Exercise 3: Créer un surlignage par programmation Exercise 4: Comparer des groupes Exercise 5: Comparer avec deux KDE Exercise 6: Améliorer vos KDE Exercise 7: Beeswarms Exercise 8: Annotations Exercise 9: Une annotation textuelle simple Exercise 10: Annotations avec flèches Exercise 11: Combiner annotations et couleur

La couleur est un outil puissant pour encoder des valeurs en visualisation de données. Mais ce pouvoir s’accompagne de risques. Dans ce chapitre, nous expliquons comment choisir une palette de couleurs adaptée à votre visualisation en fonction du type de données représenté.

Exercise 1: La couleur dans les visualisations Exercise 2: Se débarrasser des couleurs superflues Exercise 3: Corriger les diagrammes en barres de Seaborn Exercise 4: Palettes de couleurs continues Exercise 5: Créer une palette continue personnalisée Exercise 6: Personnaliser une carte thermique à palette divergente Exercise 7: Adapter votre palette au contexte Exercise 8: Palettes catégorielles Exercise 9: Utiliser une palette catégorielle personnalisée Exercise 10: Gérer un trop grand nombre de catégories Exercise 11: Colorier des catégories ordinales Exercise 12: Choisir la bonne variable à encoder par la couleur

L’incertitude est omniprésente en data science, mais elle est souvent absente des visualisations alors qu’elle devrait y figurer. Ici, nous revenons sur la notion d’intervalle de confiance et sur la façon de le représenter, à la fois pour des estimations ponctuelles et des fonctions continues. Nous abordons également la technique de rééchantillonnage bootstrap pour évaluer l’incertitude et comment la visualiser correctement.

Exercise 1: Intervalles d’estimation ponctuelle Exercise 2: Intervalles de confiance de base Exercise 3: Annoter des intervalles de confiance

Exercice en cours

Exercise 4: Bandes de confiance Exercise 5: Créer une bande de confiance Exercise 6: Séparer de nombreuses bandes Exercise 7: Nettoyer les bandes en cas de chevauchements Exercise 8: Au-delà de 95 %Exercise 9: Intervalles à 90, 95 et 99 %Exercise 10: Bandes à 90 et 95 %Exercise 11: Utiliser l’épaisseur des bandes plutôt que la couleur Exercise 12: Visualiser le bootstrap Exercise 13: L’histogramme du bootstrap Exercise 14: Régressions bootstrapées Exercise 15: Beaucoup de bootstraps avec des beeswarms

La visualisation est souvent enseignée isolément, avec des bonnes pratiques présentées de manière générale. En réalité, vous devrez parfois assouplir les règles selon les contextes. Des visualisations exploratoires parfois brouillonnes jusqu’au réglage fin des tailles de police de votre livrable final : dans ce chapitre, nous voyons comment optimiser vos visualisations à chaque étape d’un flux de travail en data science.

Exercise 1: Premières explorations Exercise 2: Examen des données des marchés fermiers Exercise 3: Matrice de nuages de points des colonnes numériques Exercise 4: Approfondir avec des transformations de base Exercise 5: Explorer les tendances Exercise 6: La latitude est-elle liée au nombre de mois d’ouverture ?Exercise 7: Quel État est le plus favorable aux marchés ?Exercise 8: Popularité des produits vendus par État Exercise 9: Rendre vos visualisations efficaces Exercise 10: Empiler pour repérer les tendances Exercise 11: Utiliser un graphique comme légende Exercise 12: Ajuster vos graphiques Exercise 13: Nettoyer l’arrière-plan Exercise 14: Remixer un graphique Exercise 15: Améliorer la lisibilité Exercise 16: Bravo !