ComenzarEmpieza gratis

Agrupar datos con pandas

La salida de una canalización de datos suele ser un conjunto de datos “modelado”. Este conjunto de datos ofrece a quienes consumen datos un acceso sencillo a la información, sin necesidad de mucha manipulación. Agrupar datos con pandas ayuda a construir conjuntos de datos modelados.

Se ha importado pandas como pd, y el DataFrame raw_testing_scores contiene datos con el siguiente formato:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Este ejercicio forma parte del curso

ETL and ELT con Python

Ver curso

Instrucciones del ejercicio

  • Usa .loc[] para quedarte solo con las columnas "city", "math_score", "reading_score" y "writing_score".
  • Agrupa el DataFrame por la columna "city" y calcula la media de las puntuaciones de matemáticas, lectura y escritura de cada ciudad.
  • Usa la función transform() para crear un DataFrame agrupado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())
Editar y ejecutar código