1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Phân tách sâu hơn

Bạn đã biến đổi tập dữ liệu này sang một định dạng khác khá nhiều so với ban đầu, nhưng vẫn còn vài việc cần làm. Bạn cần chuẩn bị dữ liệu cột để dùng cho các phân tích sau và loại bỏ một số cột trung gian.

Ngữ cảnh spark đã sẵn sàng và pyspark.sql.functions được đặt bí danh là F. Các kiểu dữ liệu từ pyspark.sql.types đã được nhập sẵn. DataFrame split_df đang ở trạng thái như bạn để lại lần trước. Nhớ rằng bạn có thể dùng .printSchema() trên một DataFrame trong khu vực console để xem tên và kiểu cột.

⚠️ Lưu ý: Nếu bạn thấy AttributeError, hãy làm mới bài tập và bấm Run Solution mà không bấm Chạy mã.

Hướng dẫn

100 XP
  • Tạo một hàm mới tên retriever nhận hai đối số: các cột đã tách (cols) và tổng số cột (colcount). Hàm này cần trả về một danh sách các phần tử chưa được xác định thành cột (tức là mọi thứ sau phần tử thứ 4 trong danh sách).
  • Định nghĩa hàm dưới dạng một Spark UDF, trả về một Array các chuỗi (string).
  • Tạo cột mới dog_list bằng UDF và các cột hiện có trong DataFrame.
  • Xóa các cột _c0, colcount và split_cols.