PySpark の groupby

これまでに、dask フレームワークとその DataFrame 抽象化を使って計算する方法を見てきました。しかし、動画でも紹介したとおり、ビッグデータの世界ではデータ処理に Spark を選ぶケースがより一般的です。

この演習では、PySpark パッケージを使って Spark DataFrame を扱います。データは前の演習と同じで、1896 年から 2016 年までのオリンピック出場選手です。

Spark DataFrame の athlete_events_spark がワークスペースに用意されています。

この演習で使うメソッドは次のとおりです。

.printSchema()：Spark DataFrame のスキーマを表示します。
.groupBy()：集約のためにグループ化します。
.mean()：各グループの平均を計算します。
.show()：結果を表示します。

athlete_events_spark の型を確認します。
athlete_events_spark のスキーマを確認します。
年ごとにグループ化したオリンピアンの平均年齢を出力します。ここでは Spark はまだ実際の計算を行っていない点に注意してください。これは「遅延評価」と呼べます。
前の結果に対して .show() を呼び出し、平均年齢を実際に計算して表示します。