1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Tách thành các cột

Bạn đã làm sạch dữ liệu đáng kể bằng cách loại bỏ các hàng không hợp lệ khỏi DataFrame. Bây giờ bạn muốn tiếp tục biến đổi dữ liệu bằng cách tạo ra các cột có ý nghĩa cụ thể dựa trên nội dung của DataFrame.

Bạn đã có ngữ cảnh spark và phiên bản mới nhất của DataFrame annotations_df. pyspark.sql.functions có sẵn với bí danh F.

Hướng dẫn

100 XP
  • Tách nội dung cột '_c0' theo ký tự tab và lưu vào biến split_cols.
  • Thêm các cột sau dựa trên bốn phần tử đầu tiên trong biến trên: folder, filename, width, height vào một DataFrame tên split_df.
  • Thêm biến split_cols như một cột.