Raggruppare i dati con pandas

L'output di una data pipeline è in genere un insieme di dati "modellato". Questo insieme di dati offre ai fruitori un accesso semplice alle informazioni, senza dover effettuare molte manipolazioni. Raggruppare i dati con pandas aiuta a costruire insiemi di dati modellati.

pandas è stato importato come pd e il DataFrame raw_testing_scores contiene dati nel seguente formato:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza corso

Istruzioni dell'esercizio

Usa .loc[] per mantenere solo le colonne "city", "math_score", "reading_score" e "writing_score".
Raggruppa il DataFrame per la colonna "city" e trova la media dei punteggi di matematica, lettura e scrittura di ciascuna città.
Usa la funzione transform() per creare un DataFrame raggruppato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())

Modifica ed esegui il codice