1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

अभ्यास

Chỉnh sửa các cột của DataFrame

Trước đó, bạn đã lọc bỏ các hàng không giống tên hợp lệ. Dựa trên công việc đó, quản lý của bạn yêu cầu tạo hai cột mới - first_name và last_name. Cô ấy muốn bạn tách cột VOTER_NAME thành các từ theo dấu cách bất kỳ. Bạn sẽ coi từ cuối cùng là last_name, và tất cả các từ còn lại là first_name. Trong bài này, bạn sẽ dùng một số hàm mới gồm .split(), .size(), và .getItem(). Hàm .getItem(index) nhận một số nguyên để trả về phần tử tương ứng trong cột. Các hàm .split() và .size() nằm trong thư viện pyspark.sql.functions.

Lưu ý rằng các thao tác này thường phụ thuộc vào bài toán cụ thể. Đưa dữ liệu về đúng định dạng thường quan trọng hơn chi tiết nhỏ của định dạng. Nhiệm vụ làm sạch dữ liệu hiếm khi chỉ phục vụ một người — bám theo một định dạng đã xác định giúp chia sẻ dữ liệu dễ dàng hơn về sau (ví dụ, Paul không cần lo về tên nữa — Mary đã làm sạch bộ dữ liệu rồi).

DataFrame cử tri đã được lọc từ bài trước của bạn có sẵn dưới tên voter_df. Thư viện pyspark.sql.functions đã được nạp với bí danh F.

निर्देश

100 XP
  • Thêm cột mới tên splits chứa danh sách các khả năng của tên.
  • Dùng phương thức getItem() và tạo cột mới tên first_name.
  • Lấy phần tử cuối của danh sách splits và tạo cột tên last_name.
  • Xóa cột splits và hiển thị voter_df mới.