Agrupamento de dados com pandas

A saída de um pipeline de dados é normalmente um conjunto de dados "modelado". Esse conjunto de dados oferece aos consumidores de dados acesso fácil às informações, sem a necessidade de muita manipulação. O agrupamento de dados com pandas ajuda você a criar conjuntos de dados modelados,

pandas foi importado como pd, e o DataFrame raw_testing_scores contém dados no seguinte formato:

              street_address       city  math_score  reading_score  writing_score

01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Este exercicio faz parte do curso

ETL e ELT em Python

Ver curso

Instruções do exercicio

Use .loc[] para manter apenas as colunas "city", "math_score", "reading_score" e "writing_score".
Agrupe o DataFrame pela coluna "city" e encontre a média das pontuações de matemática, leitura e redação de cada cidade.
Use a função transform() para criar um DataFrame agrupado.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())

Editar e Executar Código