Dask-bags filteren
De politicusdata waar je mee werkt komt uit verschillende bronnen en is daarom niet erg schoon. Veel van de dictionaries missen sleutels die je nodig kunt hebben voor je analyse. Je moet de elementen met belangrijke ontbrekende sleutels eruit filteren.
Een functie met de naam has_birth_date() is beschikbaar in de omgeving. Deze controleert of de invoerdictionary de sleutel 'birth_date' bevat. Hij retourneert True als de sleutel in de dictionary staat en False als dat niet zo is.
def has_birth_date(dictionary):
return 'birth_date' in dictionary
De bag die je in de vorige oefening hebt gemaakt, is in je omgeving beschikbaar als dict_bag.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Gebruik de
.count()-methode vandict_bagom het aantal elementen dat hij bevat af te drukken. - Gebruik de functie
has_birth_date()om de elementen te filteren die de sleutel'birth_date'niet hebben. - Druk het aantal elementen af dat
filtered_bagbevat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the number of elements in dict_bag
print(____)
# Filter out records using the has_birth_date() function
filtered_bag = dict_bag.____(____)
# Print the number of elements in filtered_bag
print(____)