1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Introduction to Data Engineering

Connected

Bài tập

Ghi ra tệp

Trong video, bạn đã thấy rằng các tệp thường được nạp vào cơ sở dữ liệu MPP như Redshift để phục vụ phân tích.

Quy trình điển hình là ghi dữ liệu vào các tệp dữ liệu dạng cột. Sau đó, các tệp này được tải lên một hệ thống lưu trữ và từ đó có thể được sao chép vào kho dữ liệu. Với Amazon Redshift, hệ thống lưu trữ có thể là S3, chẳng hạn.

Bước đầu tiên là ghi tệp theo đúng định dạng. Trong bài này, bạn sẽ chọn định dạng tệp Apache Parquet.

Trong không gian làm việc của bạn có một DataFrame PySpark tên là film_sdf và một DataFrame pandas tên là film_pdf.

Hướng dẫn

100 XP
  • Ghi DataFrame pandas film_pdf ra tệp parquet có tên "films_pdf.parquet".
  • Ghi DataFrame PySpark film_sdf ra tệp parquet có tên "films_sdf.parquet".