ComeçarComece gratuitamente

Agrupamento de dados com pandas

A saída de um pipeline de dados é normalmente um conjunto de dados "modelado". Esse conjunto de dados oferece aos consumidores de dados acesso fácil às informações, sem a necessidade de muita manipulação. O agrupamento de dados com pandas ajuda você a criar conjuntos de dados modelados,

pandas foi importado como pd, e o DataFrame raw_testing_scores contém dados no seguinte formato:

              street_address       city  math_score  reading_score  writing_score

01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Este exercício faz parte do curso

ETL e ELT em Python

Ver Curso

Instruções de exercício

  • Use .loc[] para manter apenas as colunas "city", "math_score", "reading_score" e "writing_score".
  • Agrupe o DataFrame pela coluna "city" e encontre a média das pontuações de matemática, leitura e redação de cada cidade.
  • Use a função transform() para criar um DataFrame agrupado.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())
Editar e executar código