1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Lọc nội dung cột với Python

Bạn đã xem qua cách dùng các phép thao tác khác nhau trên các cột của DataFrame — giờ là lúc chỉnh sửa một tập dữ liệu thực tế. DataFrame voter_df chứa thông tin về các cử tri trong Hội đồng Thành phố Dallas vài năm gần đây. Bản rút gọn này có ngày bỏ phiếu, cùng tên và chức danh của người bỏ phiếu. Quản lý của bạn yêu cầu làm sạch dữ liệu này để sau đó tích hợp vào các báo cáo. Nhiệm vụ chính là loại bỏ mọi giá trị null hoặc ký tự lạ và trả về một tập con cử tri cụ thể để bạn có thể xác minh thông tin của họ.

Đây thường là một trong những bước đầu tiên khi làm sạch dữ liệu — loại bỏ bất cứ thứ gì rõ ràng là sai định dạng. Với tập dữ liệu này, hãy xem dữ liệu gốc và xem điều gì có vẻ không đúng ở cột VOTER_NAME.

Thư viện pyspark.sql.functions đã được import với bí danh F.

Hướng dẫn

100 XP
  • Hiển thị các giá trị VOTER_NAME duy nhất.
  • Lọc voter_df nơi VOTER_NAME có độ dài 1–20 ký tự.
  • Lọc bỏ voter_df nơi VOTER_NAME chứa _.
  • Tiếp tục hiển thị lại các giá trị VOTER_NAME duy nhất.