Agrupar datos con pandas
La salida de una canalización de datos suele ser un conjunto de datos “modelado”. Este conjunto de datos ofrece a quienes consumen datos un acceso sencillo a la información, sin necesidad de mucha manipulación. Agrupar datos con pandas ayuda a construir conjuntos de datos modelados.
Se ha importado pandas como pd, y el DataFrame raw_testing_scores contiene datos con el siguiente formato:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Este ejercicio forma parte del curso
ETL and ELT con Python
Instrucciones del ejercicio
- Usa
.loc[]para quedarte solo con las columnas"city","math_score","reading_score"y"writing_score". - Agrupa el DataFrame por la columna
"city"y calcula la media de las puntuaciones de matemáticas, lectura y escritura de cada ciudad. - Usa la función
transform()para crear un DataFrame agrupado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())