1. Apprendre
  2. /
  3. Cours
  4. /
  5. ETL et ELT en Python

Connected

Exercice

Regrouper des données avec pandas

La sortie d'un pipeline de données est généralement un jeu de données « modélisé ». Ce jeu de données permet aux utilisateurs de données d'accéder facilement à l'information, sans avoir à effectuer beaucoup de manipulation. Regrouper des données avec pandas aide à créer des jeux de données modélisés.

pandas a été importé sous le nom pd, et le DataFrame raw_testing_scores contient des données sous la forme suivante :

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Instructions

100 XP
  • Utilisez .loc[] pour ne garder que les colonnes "city", "math_score", "reading_score" et "writing_score".
  • Regroupez le DataFrame par la colonne "city", puis calculez la moyenne des résultats en mathématiques, en lecture et en écriture pour chaque ville.
  • Utilisez la fonction transform() pour créer un DataFrame regroupé.