1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Thêm trường ID

Khi làm việc với dữ liệu, đôi khi bạn chỉ muốn truy cập một số trường nhất định và thực hiện các thao tác khác nhau. Trong bài này, hãy tìm tất cả các tên cử tri duy nhất từ DataFrame và thêm một số ID duy nhất. Lưu ý rằng Spark gán ID dựa trên partition của DataFrame — vì vậy giá trị ID có thể lớn hơn nhiều so với số hàng thực tế trong DataFrame.

Với cơ chế xử lý lazy của Spark, các ID thực ra chỉ được tạo khi có action được thực thi và có thể khá ngẫu nhiên tùy theo kích thước tập dữ liệu.

Phiên spark và một Spark DataFrame df chứa tệp DallasCouncilVotes.csv.gz đã có sẵn trong không gian làm việc của bạn. Thư viện pyspark.sql.functions đã được nạp với bí danh F.

Hướng dẫn

100 XP
  • Chọn các giá trị duy nhất từ cột VOTER NAME và tạo một DataFrame mới tên voter_df.
  • Đếm số hàng trong DataFrame voter_df.
  • Thêm cột ROW_ID bằng hàm thích hợp của Spark.
  • Hiển thị các hàng có 10 giá trị ROW_ID cao nhất.