1. 学ぶ
  2. /
  3. コース
  4. /
  5. データエンジニアリング入門

Connected

演習

タスクをサブタスクへ分割する

この演習では、並列計算を使って、オリンピックの競技データセットで指定した年のアスリートの平均年齢を計算する関数 take_mean_age() を適用します。DataFrame の athlete_events は読み込まれており、主に次の2列を含みます。

  • Year: そのオリンピック種目が開催された年
  • Age: オリンピアンの年齢

ここでは、ワークロードを複数のプロセスに分散できる multiprocessor.Pool API を使用します。関数 parallel_apply() はサンプルコード内で定義されています。適用する関数、グループ化の方法、解析に必要なコア数を引数として受け取ります。各処理の計測には @print_timing デコレータが使われている点に注意してください。

指示

100 XP
  • コードを完成させ、まずは 1 コア、その後に 2、最後に 4 コアで take_mean_age を適用してください。