1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Thêm mẹo về ID

Khi bạn đã xác định một quy trình Spark, khả năng cao bạn sẽ muốn dùng lại nhiều lần. Tùy nhu cầu, bạn có thể muốn bắt đầu ID từ một giá trị nhất định để không trùng với các lần chạy Spark trước đó. Cách này tương tự hành vi ID trong cơ sở dữ liệu quan hệ. Bạn được giao nhiệm vụ đảm bảo các ID đầu ra từ tác vụ Spark hàng tháng sẽ bắt đầu tại giá trị cao nhất của tháng trước.

Phiên làm việc spark và hai DataFrame, voter_df_march và voter_df_april, đã có sẵn trong không gian làm việc của bạn. Thư viện pyspark.sql.functions có sẵn với bí danh F.

Hướng dẫn

100 XP
  • Xác định ROW_ID lớn nhất trong voter_df_march và lưu vào biến previous_max_ID. Câu lệnh .rdd.max()[0] sẽ lấy ID lớn nhất.
  • Thêm cột ROW_ID vào voter_df_april bắt đầu từ giá trị previous_max_ID + 1.
  • Hiển thị các ROW_ID từ cả hai DataFrame và so sánh.