1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

RDD の収集

この演習では、PySpark で RDD と DataFrame の両方を扱います。目的は、RDD の操作と DataFrame のメソッドを用いてデータをグループ化し、集計を実行することです。

まず、従業員の給与データを含む CSV ファイルを PySpark に RDD として読み込みます。次に、経験レベルでグループ化し、DataFrame から各経験レベルの最大給与を計算します。これにより、両方のデータ形式の強みを比較して理解できます。

使用するデータセットは Data Scientist Salaries に関するもので、市場動向を見つけるのに役立ちます。データの読み込みと正規化はすでに行ってあります。ワークスペースには spark という SparkSession が用意されていることもお忘れなく。

指示

100 XP
  • DataFrame から RDD を作成します。
  • RDD と DataFrame の結果を収集して表示します。
  • "experience_level" でグループ化し、それぞれの最大給与を計算します。