1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDaskによる並列プログラミング

Connected

演習

操作をつなげて実行する

データの読み込みとクリーニングが終わったので、分析を始めましょう。最初のタスクは政治家の生年月日を調べることです。生年月日は 'YYYY-MM-DD' のような文字列で、先頭の4文字が年です。

前の演習で作成したフィルタ済みの Dask bag filtered_bag は、環境内で利用できます。

指示

100 XP
  • Bag の .pluck() メソッドを使って 'birth_date' の文字列を取り出します。
  • ラムダ関数を書いて、'birth_date' の文字列から年の部分を取り出し、整数に変換します。
  • 新しい Bag birth_year_bag を使って、生年の最小値・最大値・平均を計算します。
  • dask.compute() 関数を使って、これら3つの集計を効率的に計算します。