EDA : visualiser toutes vos données
Pour obtenir une vue d’ensemble graphique d’un jeu de données, il est souvent utile de tracer toutes vos données. Dans cet exercice, tracez tous les temps de passage pour toutes les nageuses lors des séries du 800 mètres. Les données sont disponibles dans les tableaux NumPy split_number et splits. Les tableaux sont organisés de sorte que splits[i,j] soit le temps de passage de la nageuse i pour split_number[j].
Cet exercice fait partie du cours
Études de cas en pensée statistique
Instructions
- Écrivez une boucle
forqui parcourt l’ensemble des passages de chaque nageuse pour :- Tracer le temps de passage en fonction du numéro de passage. Utilisez les arguments nommés
linewidth=1etcolor='lightgray'.
- Tracer le temps de passage en fonction du numéro de passage. Utilisez les arguments nommés
- Calculez les temps de passage moyens pour chaque distance. Vous pouvez le faire avec la fonction
np.mean()et l’argument nomméaxis=0. Cela indique ànp.mean()de calculer les moyennes sur les lignes, ce qui donne le temps moyen pour chaque numéro de passage. - Tracez les temps moyens (axe des ordonnées) en fonction du numéro de passage (axe des abscisses) en utilisant les arguments nommés
marker='.',linewidth=3etmarkersize=12. - Nommez les axes et affichez le tracé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot the splits for each swimmer
for splitset in ____:
_ = ____(____, ____, lw=1, color='lightgray')
# Compute the mean split times
mean_splits = ____
# Plot the mean split times
# Label axes and show plot
_ = plt.xlabel('split number')
_ = plt.ylabel('split time (s)')
plt.show()