Phân tách sâu hơn

Bạn đã biến đổi tập dữ liệu này sang một định dạng khác khá nhiều so với ban đầu, nhưng vẫn còn vài việc cần làm. Bạn cần chuẩn bị dữ liệu cột để dùng cho các phân tích sau và loại bỏ một số cột trung gian.

Ngữ cảnh spark đã sẵn sàng và pyspark.sql.functions được đặt bí danh là F. Các kiểu dữ liệu từ pyspark.sql.types đã được nhập sẵn. DataFrame split_df đang ở trạng thái như bạn để lại lần trước. Nhớ rằng bạn có thể dùng .printSchema() trên một DataFrame trong khu vực console để xem tên và kiểu cột.

⚠️ Lưu ý: Nếu bạn thấy AttributeError, hãy làm mới bài tập và bấm Run Solution mà không bấm Chạy mã.

Tạo một hàm mới tên retriever nhận hai đối số: các cột đã tách (cols) và tổng số cột (colcount). Hàm này cần trả về một danh sách các phần tử chưa được xác định thành cột (tức là mọi thứ sau phần tử thứ 4 trong danh sách).
Định nghĩa hàm dưới dạng một Spark UDF, trả về một Array các chuỗi (string).
Tạo cột mới dog_list bằng UDF và các cột hiện có trong DataFrame.
Xóa các cột _c0, colcount và split_cols.

Bài tập

Phân tách sâu hơn

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập