1. Lära sig
  2. /
  3. Courses
  4. /
  5. データエンジニアリング入門

Connected

exercise

DataFrame を使う

前の演習では、タスクを分割して、低レベルな Python の multiprocessing.Pool API を使い、複数の処理ユニットで計算する方法を見ました。

低レベルの仕組みを理解することは大切ですが、実務でこの種の API を直接使うことはほとんどありません。複数グループに対する apply を並列化するには、例えば dask フレームワークと、その pandas DataFrame の抽象化を使う方が便利です。

pandas の DataFrame である athlete_events がワークスペースに用意されています。

Instruktioner 1 / 2

undefined XP
    1
    2
  • dd.from_pandas() を使って athletes_events DataFrame を 4 つのパーティションに分割します。

dd.from_pandas() の引数を忘れてしまった場合は、スライドを見直すか、コンソールで help(dd.from_pandas) を実行してください。