CommencerCommencer gratuitement

Utiliser un DataFrame

Dans l’exercice précédent, vous avez vu comment décomposer une tâche et utiliser l’API bas niveau multiprocessing.Pool de Python pour effectuer des calculs sur plusieurs unités de traitement.

Il est essentiel de comprendre cela au niveau inférieur, mais en pratique, vous n’utiliserez presque jamais ce type d’API. Une manière plus pratique de paralléliser un apply sur plusieurs groupes consiste, par exemple, à utiliser le framework dask et son abstraction du DataFrame pandas.

Le DataFrame pandas, athlete_events, est disponible dans votre espace de travail.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Modifier et exécuter le code