Usando um DataFrame
No exercício anterior, você viu como dividir uma tarefa e usar a API de baixo nível multiprocessing.Pool do Python para fazer cálculos em várias unidades de processamento.
Entender isso em um nível mais baixo é essencial, mas, na prática, você quase nunca vai usar esse tipo de API. Uma forma mais conveniente de paralelizar um apply em vários grupos é usando o framework dask e sua abstração do DataFrame do pandas, por exemplo.
O DataFrame do pandas, athlete_events, está disponível no seu workspace.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)