Regrouper des données avec pandas

Le résultat d'un pipeline de données est généralement un ensemble de données "modélisées". Cet ensemble de données permet aux consommateurs de données d'accéder facilement à l'information, sans avoir à effectuer beaucoup de manipulations. Le regroupement des données à l'aide de pandas permet de créer des ensembles de données modélisés,

pandas a été importé sous le nom de pd, et le DataFrame raw_testing_scores contient des données sous la forme suivante :

              street_address       city  math_score  reading_score  writing_score

01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Instructions de l’exercice

Utilisez .loc[] pour ne conserver que les colonnes "city", "math_score", "reading_score", et "writing_score".
Regroupez le DataFrame par la colonne "city" et trouvez la moyenne des résultats en mathématiques, en lecture et en écriture de chaque ville.
Utilisez la fonction transform() pour créer un DataFrame groupé.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())

Modifier et exécuter le code