CommencerCommencer gratuitement

Enchaîner des opérations

Maintenant que vous avez chargé et nettoyé les données, vous pouvez commencer à les analyser. Votre première tâche consiste à examiner les dates de naissance des responsables politiques. Les dates de naissance sont des chaînes au format 'YYYY-MM-DD'. Les 4 premiers caractères de la chaîne correspondent à l’année.

Le Dask bag filtré que vous avez créé dans l’exercice précédent, filtered_bag, est disponible dans votre environnement.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Utilisez la méthode .pluck() du bag pour extraire les chaînes 'birth_date'.
  • Écrivez une fonction lambda pour extraire l’année depuis les chaînes 'birth_date' et la convertir en entier.
  • Utilisez le nouveau bag birth_year_bag pour calculer les années de naissance minimale, maximale et moyenne.
  • Utilisez la fonction dask.compute() pour calculer efficacement ces trois agrégats.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____

# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)

# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____

# Compute the results efficiently and print them
print(____(____))
Modifier et exécuter le code