Pipeline nhanh

Trước khi bạn phân tích dữ liệu phức tạp hơn, quản lý muốn xem một ví dụ pipeline đơn giản gồm các bước cơ bản. Ở ví dụ này, bạn sẽ nạp một tệp dữ liệu, lọc một vài hàng, thêm một cột ID, rồi ghi ra dưới dạng dữ liệu JSON.

Ngữ cảnh spark đã được định nghĩa, và thư viện pyspark.sql.functions đã được đặt bí danh là F như thông lệ.

Nhập tệp 2015-departures.csv.gz vào một DataFrame. Lưu ý phần header đã được xác định sẵn.
Lọc DataFrame để chỉ giữ các chuyến bay có thời lượng lớn hơn 0 phút. Sử dụng chỉ số của cột, không dùng tên cột (hãy nhớ dùng .printSchema() để xem tên cột/thứ tự cột).
Thêm một cột ID.
Ghi tệp ra dưới dạng tài liệu JSON tên output.json.

övning

Pipeline nhanh

Instruktioner

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning