Regrouper des données avec pandas
Le résultat d'un pipeline de données est généralement un ensemble de données "modélisées". Cet ensemble de données permet aux consommateurs de données d'accéder facilement à l'information, sans avoir à effectuer beaucoup de manipulations. Le regroupement des données à l'adresse pandas
permet de créer des ensembles de données modélisés,
pandas
a été importé sous le nom de pd
, et le DataFrame raw_testing_scores
contient des données sous la forme suivante :
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Utilisez
.loc[]
pour ne conserver que les colonnes"city"
,"math_score"
,"reading_score"
, et"writing_score"
. - Regroupez le DataFrame par la colonne
"city"
et trouvez la moyenne des résultats en mathématiques, en lecture et en écriture de chaque ville. - Utilisez la fonction
transform()
pour créer un DataFrame groupé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())