MulaiMulai sekarang secara gratis

Menggunakan DataFrame

Pada latihan sebelumnya, Anda melihat cara memecah sebuah tugas dan menggunakan API level rendah Python multiprocessing.Pool untuk melakukan perhitungan pada beberapa unit pemrosesan.

Memahami hal ini pada level rendah memang penting, tetapi dalam praktiknya, Anda hampir tidak akan menggunakan jenis API seperti ini. Cara yang lebih praktis untuk melakukan parallel apply pada beberapa grup adalah dengan menggunakan kerangka kerja dask dan abstraksinya atas pandas DataFrame, misalnya.

pandas DataFrame, athlete_events, tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Edit dan Jalankan Kode