1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Pipeline nhanh

Trước khi bạn phân tích dữ liệu phức tạp hơn, quản lý muốn xem một ví dụ pipeline đơn giản gồm các bước cơ bản. Ở ví dụ này, bạn sẽ nạp một tệp dữ liệu, lọc một vài hàng, thêm một cột ID, rồi ghi ra dưới dạng dữ liệu JSON.

Ngữ cảnh spark đã được định nghĩa, và thư viện pyspark.sql.functions đã được đặt bí danh là F như thông lệ.

Hướng dẫn

100 XP
  • Nhập tệp 2015-departures.csv.gz vào một DataFrame. Lưu ý phần header đã được xác định sẵn.
  • Lọc DataFrame để chỉ giữ các chuyến bay có thời lượng lớn hơn 0 phút. Sử dụng chỉ số của cột, không dùng tên cột (hãy nhớ dùng .printSchema() để xem tên cột/thứ tự cột).
  • Thêm một cột ID.
  • Ghi tệp ra dưới dạng tài liệu JSON tên output.json.