Usando um DataFrame
No exercício anterior, você viu como dividir uma tarefa e usar o python multiprocessing.Pool
API de baixo nível para fazer cálculos em várias unidades de processamento.
É essencial entender isso em um nível inferior, mas, na realidade, você nunca usará esse tipo de APIs. Uma maneira mais conveniente de paralelizar uma aplicação em vários grupos é usar a estrutura dask
e sua abstração do pandas
DataFrame, por exemplo.
O DataFrame pandas
, athlete_events
, está disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução à engenharia de dados
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)