Agrupar datos con pandas
El resultado de una canalización de datos suele ser un conjunto de datos "modelado". Este conjunto de datos proporciona a los consumidores de datos un acceso fácil a la información, sin tener que realizar grandes manipulaciones. Agrupar datos con pandas
ayuda a construir conjuntos de datos modelados,
pandas
se ha importado como pd
, y el DataFrame raw_testing_scores
contiene datos de la siguiente forma:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Este ejercicio forma parte del curso
Introducción a las canalizaciones de datos
Instrucciones de ejercicio
- Utiliza
.loc[]
para conservar sólo las columnas"city"
,"math_score"
,"reading_score"
y"writing_score"
. - Agrupa el DataFrame por la columna
"city"
, y halla la media de las puntuaciones de matemáticas, lectura y escritura de cada ciudad. - Utiliza la función
transform()
para crear un Marco de Datos agrupado.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())