Raggruppare i dati con pandas
L'output di una data pipeline è in genere un insieme di dati "modellato". Questo insieme di dati offre ai fruitori un accesso semplice alle informazioni, senza dover effettuare molte manipolazioni. Raggruppare i dati con pandas aiuta a costruire insiemi di dati modellati.
pandas è stato importato come pd e il DataFrame raw_testing_scores contiene dati nel seguente formato:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Questo esercizio fa parte del corso
ETL and ELT in Python
Istruzioni dell'esercizio
- Usa
.loc[]per mantenere solo le colonne"city","math_score","reading_score"e"writing_score". - Raggruppa il DataFrame per la colonna
"city"e trova la media dei punteggi di matematica, lettura e scrittura di ciascuna città. - Usa la funzione
transform()per creare un DataFrame raggruppato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())