PySpark のDataFrameの抽出とクレンジング

データを確認した後は、サブセットの作成、列名の変更、重複行の削除などのクレンジングが必要になることがよくあります。PySpark の DataFrame API には、これらを行うための演算子が用意されています。この演習では、people_df DataFrame から 'name'、'sex'、'date of birth' 列を抽出し、そのデータセットから重複行を削除し、重複削除の前後で行数を数えることが課題です。

作業スペースには、すでに SparkSession spark と DataFrame people_df が用意されています。