Agrupamento de dados com pandas
A saída de um pipeline de dados é normalmente um conjunto de dados "modelado". Esse conjunto de dados oferece aos consumidores de dados acesso fácil às informações, sem a necessidade de muita manipulação. O agrupamento de dados com pandas
ajuda você a criar conjuntos de dados modelados,
pandas
foi importado como pd
, e o DataFrame raw_testing_scores
contém dados no seguinte formato:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Este exercício faz parte do curso
ETL e ELT em Python
Instruções de exercício
- Use
.loc[]
para manter apenas as colunas"city"
,"math_score"
,"reading_score"
e"writing_score"
. - Agrupe o DataFrame pela coluna
"city"
e encontre a média das pontuações de matemática, leitura e redação de cada cidade. - Use a função
transform()
para criar um DataFrame agrupado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())