1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Lưu một DataFrame ở định dạng Parquet

Khi làm việc với Spark, bạn thường bắt đầu với CSV, JSON, hoặc các nguồn dữ liệu khác. Điều này mang lại nhiều linh hoạt về loại dữ liệu có thể nạp, nhưng không phải là định dạng tối ưu cho Spark. Định dạng Parquet là một kho dữ liệu dạng cột, cho phép Spark dùng kỹ thuật predicate pushdown. Nghĩa là Spark chỉ xử lý phần dữ liệu cần thiết để hoàn thành các phép toán bạn định nghĩa, thay vì đọc toàn bộ tập dữ liệu. Cách này giúp Spark linh hoạt hơn trong việc truy cập dữ liệu và thường cải thiện hiệu năng đáng kể trên các tập dữ liệu lớn.

Trong bài tập này, bạn sẽ thực hành tạo một tệp Parquet mới và sau đó xử lý một ít dữ liệu từ đó.

Đối tượng spark và các DataFrame df1 và df2 đã được thiết lập sẵn cho bạn.

Hướng dẫn

100 XP
  • Xem số lượng hàng của df1 và df2.
  • Kết hợp df1 và df2 vào một DataFrame mới tên df3 bằng phương thức union.
  • Lưu df3 thành tệp parquet có tên AA_DFW_ALL.parquet.
  • Đọc tệp AA_DFW_ALL.parquet và hiển thị số lượng bản ghi.