ComeçarComece de graça

Usando um DataFrame

No exercício anterior, você viu como dividir uma tarefa e usar a API de baixo nível multiprocessing.Pool do Python para fazer cálculos em várias unidades de processamento.

Entender isso em um nível mais baixo é essencial, mas, na prática, você quase nunca vai usar esse tipo de API. Uma forma mais conveniente de paralelizar um apply em vários grupos é usando o framework dask e sua abstração do DataFrame do pandas, por exemplo.

O DataFrame do pandas, athlete_events, está disponível no seu workspace.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Editar e executar o código