1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. PySpark でデータをクレンジングする

Connected

Exercises

ID活用のさらなるテクニック

一度Sparkの処理を定義したら、それを何度も使いたくなることが多いです。要件によっては、IDが過去の実行と重ならないように、特定の値から開始したい場合があります。これは、リレーショナルデータベースでのIDの扱いに似ています。あなたのタスクは、毎月のSparkタスクから出力されるIDが、前月の最大値から始まることを確認することです。

作業スペースには spark セッションと2つのDataFrame、voter_df_march と voter_df_april が用意されています。pyspark.sql.functions ライブラリはエイリアス F で利用できます。

คำแนะนำ

100 XP
  • voter_df_march の ROW_ID の最大値を求め、変数 previous_max_ID に保存してください。.rdd.max()[0] を使うと最大IDを取得できます。
  • voter_df_april に ROW_ID 列を追加し、previous_max_ID + 1 から始まるようにしてください。
  • 両方のデータフレームで ROW_ID を表示し、比較してください。