CommencerCommencer gratuitement

Utilisation d'un DataFrame

Dans l'exercice précédent, vous avez vu comment diviser une tâche et utiliser le Python de bas niveau multiprocessing.Pool API pour effectuer des calculs sur plusieurs unités de traitement.

Il est essentiel de le comprendre à un niveau inférieur, mais en réalité, vous n'utiliserez jamais ce type de APIs. Un moyen plus pratique de paralléliser une application sur plusieurs groupes consiste à utiliser le cadre dask et son abstraction du DataFrame pandas, par exemple.

Le DataFrame pandas, athlete_events, est disponible dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import dask.dataframe as dd

# Set the number of partitions
athlete_events_dask = dd.from_pandas(athlete_events, ____=____)
Modifier et exécuter le code