1. Învăţa
  2. /
  3. Courses
  4. /
  5. データエンジニアリング入門

Connected

exercise

PySpark の groupby

これまでに、dask フレームワークとその DataFrame 抽象化を使って計算する方法を見てきました。しかし、動画でも紹介したとおり、ビッグデータの世界ではデータ処理に Spark を選ぶケースがより一般的です。

この演習では、PySpark パッケージを使って Spark DataFrame を扱います。データは前の演習と同じで、1896 年から 2016 年までのオリンピック出場選手です。

Spark DataFrame の athlete_events_spark がワークスペースに用意されています。

この演習で使うメソッドは次のとおりです。

  • .printSchema():Spark DataFrame のスキーマを表示します。
  • .groupBy():集約のためにグループ化します。
  • .mean():各グループの平均を計算します。
  • .show():結果を表示します。

Instrucţiuni

100 XP
  • athlete_events_spark の型を確認します。
  • athlete_events_spark のスキーマを確認します。
  • 年ごとにグループ化したオリンピアンの平均年齢を出力します。ここでは Spark はまだ実際の計算を行っていない点に注意してください。これは「遅延評価」と呼べます。
  • 前の結果に対して .show() を呼び出し、平均年齢を実際に計算して表示します。