1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 Python 的 ETL 和 ELT

Connected

道练习

使用 pandas 分组数据

数据管道的输出通常是"建模后"的数据集。该数据集能让数据消费者更容易获取信息,而无需进行大量处理。使用 pandas 对数据分组有助于构建这类建模数据集。

已将 pandas 以 pd 导入,raw_testing_scores DataFrame 的数据形式如下:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

说明

100 XP
  • 使用 .loc[] 仅保留 "city"、"math_score"、"reading_score" 和 "writing_score" 列。
  • 按 "city" 列对 DataFrame 分组,并计算各城市的数学、阅读和写作成绩的均值。
  • 使用 transform() 函数创建一个按组转换后的 DataFrame。