Utilisation d'un DataFrame
Dans l'exercice précédent, vous avez vu comment diviser une tâche et utiliser le Python de bas niveau multiprocessing.Pool
API pour effectuer des calculs sur plusieurs unités de traitement.
Il est essentiel de le comprendre à un niveau inférieur, mais en réalité, vous n'utiliserez jamais ce type de APIs. Un moyen plus pratique de paralléliser une application sur plusieurs groupes consiste à utiliser le cadre dask
et son abstraction du DataFrame pandas
, par exemple.
Le DataFrame pandas
, athlete_events
, est disponible dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import dask.dataframe as dd
# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)