CommencerCommencer gratuitement

Filtrer des bags Dask

Les données sur les personnalités politiques avec lesquelles vous travaillez proviennent de différentes sources, et elles ne sont donc pas très propres. Beaucoup de dictionnaires n’ont pas certaines clés dont vous pourriez avoir besoin pour votre analyse. Vous devez exclure les éléments dont des clés importantes sont manquantes.

Une fonction appelée has_birth_date() est disponible dans l’environnement. Elle vérifie si le dictionnaire en entrée contient la clé 'birth_date'. Elle renvoie True si la clé est présente et False sinon.

def has_birth_date(dictionary):
  return 'birth_date' in dictionary

Le bag que vous avez créé dans l’exercice précédent est disponible dans votre environnement sous le nom dict_bag.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Utilisez la méthode .count() de dict_bag pour afficher le nombre d’éléments qu’il contient.
  • Utilisez la fonction has_birth_date() pour filtrer les éléments qui n’ont pas la clé 'birth_date'.
  • Affichez le nombre d’éléments que contient filtered_bag.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the number of elements in dict_bag
print(____)

# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)

# Print the number of elements in filtered_bag
print(____)
Modifier et exécuter le code