1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

グループ化と集計 II

これまでに見た GroupedData のメソッドに加えて、.agg() メソッドもあります。 このメソッドでは、pyspark.sql.functions サブモジュールの任意の集約関数を使った、集約列式を渡すことができます。

このサブモジュールには、標準偏差の計算などに役立つ関数が多数含まれています。ここにあるすべての集約関数は、GroupedData テーブル内の列名を引数に取ります。

ワークスペースには、spark という SparkSession と Spark DataFrame の flights が既に用意されています。前の演習で作成したグループ化済みの DataFrame もそのまま使えます。

指示

100 XP
  • サブモジュール pyspark.sql.functions を F としてインポートします。
  • month 列と dest 列の両方でグループ化した GroupedData テーブル by_month_dest を作成します。2 つの列は別々の引数として、それぞれ文字列で渡してください。
  • by_month_dest DataFrame に対して .avg() メソッドを使い、各月・各目的地ごとの dep_delay の平均を求めます。
  • .agg() メソッドと関数 F.stddev() を使って、dep_delay の標準偏差を求めます。