1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercise

異なるパーティションでのID

データフレームに ID フィールドを追加し終えました。次は、パーティション数が異なるデータフレームで同じことを行うと何が起きるかを確認してみましょう。

パーティション数を確認するには、データフレームに対して .rdd.getNumPartitions() メソッドを使います。

ワークスペースには spark セッションと 2 つのデータフレーム voter_df と voter_df_single が用意されています。指示に従って両者の違いを見つけていきます。pyspark.sql.functions ライブラリはエイリアス F で使用できます。

Instructions

100 XP
  • それぞれのデータフレームのパーティション数を出力してください。
  • それぞれのデータフレームに ROW_ID フィールドを追加してください。
  • 各データフレームで、先頭 10 件の ID を表示してください。