1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Số lượng trên mỗi ảnh

Nhiệm vụ tiếp theo trong việc xây dựng pipeline dữ liệu cho bộ dữ liệu này là tạo một vài cột phục vụ phân tích. Bạn được yêu cầu tính số lượng chó xuất hiện trong mỗi ảnh dựa trên cột dog_list đã tạo trước đó. Bạn cũng đã tạo DogType để việc phân tách dữ liệu trong một số cột trở nên chính xác hơn.

joined_df có sẵn theo định nghĩa gần nhất của bạn, và DogType (StructType) đã được định nghĩa. pyspark.sql.functions khả dụng với bí danh F.

Hướng dẫn

100 XP
  • Tạo một hàm Python để tách từng mục trong dog_list thành các phần phù hợp. Hãy chắc chắn chuyển đổi mọi chuỗi sang đúng kiểu dữ liệu, nếu không DogType sẽ không parse đúng.
  • Tạo một UDF dùng hàm ở trên.
  • Dùng UDF để tạo một cột mới tên là dogs.
  • Hiển thị số lượng chó trong cột mới cho 10 dòng đầu tiên.