CommencerCommencer gratuitement

D’une tâche à des sous-tâches

Dans cet exercice, vous allez utiliser le calcul parallèle pour appliquer la fonction take_mean_age() qui calcule l’âge moyen des athlètes pour une année donnée dans le jeu de données des épreuves olympiques. Le DataFrame athlete_events a été chargé pour vous et contient, entre autres, deux colonnes :

  • Year : l’année où l’épreuve olympique a eu lieu
  • Age : l’âge de l’athlète olympique

Vous utiliserez l’API multiprocessor.Pool, qui permet de répartir la charge de travail sur plusieurs processus. La fonction parallel_apply() est définie dans l’exemple de code. Elle prend en entrée la fonction à appliquer, le regroupement utilisé et le nombre de cœurs nécessaires pour l’analyse. Notez que le décorateur @print_timing est utilisé pour chronométrer chaque opération.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Instructions

  • Complétez le code pour appliquer take_mean_age d’abord avec 1 cœur, puis avec 2 et enfin avec 4 cœurs.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Function to apply a function over multiple cores
@print_timing
def parallel_apply(apply_func, groups, nb_cores):
    with Pool(nb_cores) as p:
        results = p.map(apply_func, groups)
    return pd.concat(results)

# Parallel apply using 1 core
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 2 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)

# Parallel apply using 4 cores
parallel_apply(take_mean_age, athlete_events.groupby('Year'), ____)
Modifier et exécuter le code