Aan de slagGa gratis aan de slag

Dask-bags filteren

De politicusdata waar je mee werkt komt uit verschillende bronnen en is daarom niet erg schoon. Veel van de dictionaries missen sleutels die je nodig kunt hebben voor je analyse. Je moet de elementen met belangrijke ontbrekende sleutels eruit filteren.

Een functie met de naam has_birth_date() is beschikbaar in de omgeving. Deze controleert of de invoerdictionary de sleutel 'birth_date' bevat. Hij retourneert True als de sleutel in de dictionary staat en False als dat niet zo is.

def has_birth_date(dictionary):
  return 'birth_date' in dictionary

De bag die je in de vorige oefening hebt gemaakt, is in je omgeving beschikbaar als dict_bag.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de .count()-methode van dict_bag om het aantal elementen dat hij bevat af te drukken.
  • Gebruik de functie has_birth_date() om de elementen te filteren die de sleutel 'birth_date' niet hebben.
  • Druk het aantal elementen af dat filtered_bag bevat.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the number of elements in dict_bag
print(____)

# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)

# Print the number of elements in filtered_bag
print(____)
Code bewerken en uitvoeren