Filtrer des bags Dask
Les données sur les personnalités politiques avec lesquelles vous travaillez proviennent de différentes sources, et elles ne sont donc pas très propres. Beaucoup de dictionnaires n’ont pas certaines clés dont vous pourriez avoir besoin pour votre analyse. Vous devez exclure les éléments dont des clés importantes sont manquantes.
Une fonction appelée has_birth_date() est disponible dans l’environnement. Elle vérifie si le dictionnaire en entrée contient la clé 'birth_date'. Elle renvoie True si la clé est présente et False sinon.
def has_birth_date(dictionary):
return 'birth_date' in dictionary
Le bag que vous avez créé dans l’exercice précédent est disponible dans votre environnement sous le nom dict_bag.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Utilisez la méthode
.count()dedict_bagpour afficher le nombre d’éléments qu’il contient. - Utilisez la fonction
has_birth_date()pour filtrer les éléments qui n’ont pas la clé'birth_date'. - Affichez le nombre d’éléments que contient
filtered_bag.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the number of elements in dict_bag
print(____)
# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)
# Print the number of elements in filtered_bag
print(____)