Operaties ketenen
Nu je de data hebt geladen en opgeschoond, kun je beginnen met analyseren. Je eerste taak is om naar de geboortedata van de politici te kijken. De geboortedata zijn strings in het formaat 'YYYY-MM-DD'. De eerste 4 tekens van de string zijn het jaar.
De gefilterde Dask-bag die je in de vorige oefening hebt gemaakt, filtered_bag, is beschikbaar in je omgeving.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Gebruik de
.pluck()-methode van de bag om'birth_date'-strings te extraheren. - Schrijf een lambda-functie om de jaarstring uit de
'birth_date'-strings te halen en deze om te zetten naar een geheel getal. - Gebruik de nieuwe bag
birth_year_bagom de minimale, maximale en gemiddelde geboortejaren te berekenen. - Gebruik de functie
dask.compute()om de drie aggregaties efficiënt te berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))