Utiliser un DataFrame
Dans l’exercice précédent, vous avez vu comment décomposer une tâche et utiliser l’API bas niveau multiprocessing.Pool de Python pour effectuer des calculs sur plusieurs unités de traitement.
Il est essentiel de comprendre cela au niveau inférieur, mais en pratique, vous n’utiliserez presque jamais ce type d’API. Une manière plus pratique de paralléliser un apply sur plusieurs groupes consiste, par exemple, à utiliser le framework dask et son abstraction du DataFrame pandas.
Le DataFrame pandas, athlete_events, est disponible dans votre espace de travail.
Cet exercice fait partie du cours
<cours>Introduction au data engineering</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)