1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark入門

Connected

연습 문제

CSV の読み込みと集計の実行

小規模から大規模まで、さまざまな企業の Data Scientist の給与が記載されたスプレッドシートがあります。企業規模ごとに平均給与を集計し、大きな差があるかを確認したいとします。

ワークスペースにはすでに SparkSession の spark が用意されています!

지침

100 XP
  • CSV ファイルを DataFrame として読み込み、スキーマを自動推定します。
  • 行数の合計を返します。
  • 列 company_size でグループ化し、salary_in_usd を使って平均給与を計算します。