1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Trích xuất dữ liệu từ các tệp parquet

Một trong những cách phổ biến nhất để nạp dữ liệu từ hệ thống nguồn là đọc dữ liệu từ tệp, chẳng hạn như tệp CSV. Khi dữ liệu ngày càng lớn, nhu cầu về định dạng tệp tốt hơn đã tạo ra các kiểu tệp theo cột mới, như parquet.

Trong bài tập này, bạn sẽ thực hành trích xuất dữ liệu từ một tệp parquet.

Hướng dẫn

100 XP
  • Đọc tệp parquet tại đường dẫn "sales_data.parquet" vào một DataFrame của pandas.
  • Kiểm tra kiểu dữ liệu của DataFrame bằng cách print().
  • In ra kích thước (shape) của DataFrame, cũng như phần đầu (head) của nó.