1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Gom nhóm dữ liệu với pandas

Đầu ra của một data pipeline thường là một bộ dữ liệu đã được "mô hình hóa". Bộ dữ liệu này giúp người dùng dữ liệu truy cập thông tin dễ dàng mà không cần thao tác quá nhiều. Gom nhóm dữ liệu với pandas giúp bạn xây dựng các bộ dữ liệu đã mô hình hóa.

pandas đã được import với tên pd, và DataFrame raw_testing_scores chứa dữ liệu dưới dạng sau:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Hướng dẫn

100 XP
  • Dùng .loc[] để chỉ giữ các cột "city", "math_score", "reading_score", và "writing_score".
  • Gom nhóm DataFrame theo cột "city", và tính giá trị trung bình điểm toán, đọc, và viết của mỗi thành phố.
  • Dùng hàm transform() để tạo một DataFrame đã được gom nhóm.