Menggunakan DataFrame
Pada latihan sebelumnya, Anda melihat cara memecah sebuah tugas dan menggunakan API level rendah Python multiprocessing.Pool untuk melakukan perhitungan pada beberapa unit pemrosesan.
Memahami hal ini pada level rendah memang penting, tetapi dalam praktiknya, Anda hampir tidak akan menggunakan jenis API seperti ini. Cara yang lebih praktis untuk melakukan parallel apply pada beberapa grup adalah dengan menggunakan kerangka kerja dask dan abstraksinya atas pandas DataFrame, misalnya.
pandas DataFrame, athlete_events, tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)