1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

CSV の読み込みと集計の実行

小規模から大規模まで、さまざまな企業の Data Scientist の給与が記載されたスプレッドシートがあります。企業規模ごとに平均給与を集計し、大きな差があるかを確認したいとします。

ワークスペースにはすでに SparkSession の spark が用意されています!

指示

100 XP
  • CSV ファイルを DataFrame として読み込み、スキーマを自動推定します。
  • 行数の合計を返します。
  • 列 company_size でグループ化し、salary_in_usd を使って平均給与を計算します。