1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Exercise

ID với số phân vùng khác nhau

Bạn vừa hoàn thành việc thêm một trường ID vào DataFrame. Bây giờ, hãy xem điều gì xảy ra khi bạn làm điều tương tự trên các DataFrame có số lượng phân vùng khác nhau.

Để kiểm tra số phân vùng, dùng phương thức .rdd.getNumPartitions() trên một DataFrame.

Phiên làm việc spark và hai DataFrame, voter_df và voter_df_single, đã có sẵn trong không gian làm việc của bạn. Phần hướng dẫn sẽ giúp bạn khám phá sự khác biệt giữa các DataFrame. Thư viện pyspark.sql.functions có sẵn với bí danh F.

Instructions

100 XP
  • In ra số phân vùng của mỗi DataFrame.
  • Thêm một trường ROW_ID vào mỗi DataFrame.
  • Hiển thị 10 ID đầu tiên trong mỗi DataFrame.