1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

PySpark のDataFrameの抽出とクレンジング

データを確認した後は、サブセットの作成、列名の変更、重複行の削除などのクレンジングが必要になることがよくあります。PySpark の DataFrame API には、これらを行うための演算子が用意されています。この演習では、people_df DataFrame から 'name'、'sex'、'date of birth' 列を抽出し、そのデータセットから重複行を削除し、重複削除の前後で行数を数えることが課題です。

作業スペースには、すでに SparkSession spark と DataFrame people_df が用意されています。

指示

100 XP
  • people_df から 'name'、'sex'、'date of birth' 列を選択して、people_df_sub DataFrame を作成します。
  • people_df_sub DataFrame の先頭 10 件を表示します。
  • people_df_sub DataFrame から重複を削除して、people_df_sub_nodup DataFrame を作成します。
  • 重複を削除する前後で、行数はいくつありますか?