Enchaîner des opérations
Maintenant que vous avez chargé et nettoyé les données, vous pouvez commencer à les analyser. Votre première tâche consiste à examiner les dates de naissance des responsables politiques. Les dates de naissance sont des chaînes au format 'YYYY-MM-DD'. Les 4 premiers caractères de la chaîne correspondent à l’année.
Le Dask bag filtré que vous avez créé dans l’exercice précédent, filtered_bag, est disponible dans votre environnement.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Utilisez la méthode
.pluck()du bag pour extraire les chaînes'birth_date'. - Écrivez une fonction lambda pour extraire l’année depuis les chaînes
'birth_date'et la convertir en entier. - Utilisez le nouveau bag
birth_year_bagpour calculer les années de naissance minimale, maximale et moyenne. - Utilisez la fonction
dask.compute()pour calculer efficacement ces trois agrégats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))