1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Xác thực dữ liệu đã tải vào Postgres Database

Trong bài tập này, cuối cùng bạn sẽ xây dựng một pipeline dữ liệu end-to-end. Pipeline này sẽ trích xuất điểm kiểm tra của trường học từ một tệp JSON và biến đổi dữ liệu để loại bỏ các hàng có điểm bị thiếu. Bên cạnh đó, mỗi trường sẽ được xếp hạng theo thành phố nơi trường tọa lạc, dựa trên tổng điểm của họ. Cuối cùng, tập dữ liệu đã được biến đổi sẽ được lưu vào Postgres database.

Để bạn bắt đầu nhanh hơn, các hàm extract() và transform() đã được xây dựng và sử dụng như dưới đây. Ngoài ra, pandas đã được import với tên pd. Chúc bạn làm tốt!

# Extract và làm sạch điểm kiểm tra.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Hướng dẫn 1/2

undefined XP
    1
    2
  • Cập nhật hàm load() để ghi DataFrame clean_data vào bảng scores_by_city trong database schools.
  • Nếu đã có dữ liệu trong bảng scores_by_city, hãy đảm bảo thay thế bằng dữ liệu đã cập nhật.