Operationen verketten
Jetzt, da du die Daten geladen und bereinigt hast, kannst du mit der Analyse beginnen. Deine erste Aufgabe ist es, dir die Geburtsdaten der Politiker anzuschauen. Die Geburtsdaten liegen als Strings im Format 'YYYY-MM-DD' vor. Die ersten 4 Zeichen im String sind das Jahr.
Der gefilterte Dask-Bag filtered_bag, den du in der letzten Übung erstellt hast, steht in deiner Umgebung zur Verfügung.
Diese Übung ist Teil des Kurses
Parallele Programmierung mit Dask in Python
Anleitung zur Übung
- Verwende die
.pluck()-Methode des Bags, um die'birth_date'-Strings zu extrahieren. - Schreibe eine Lambda-Funktion, die aus den
'birth_date'-Strings die Jahreszeichenfolge extrahiert und in eine ganze Zahl umwandelt. - Verwende den neuen Bag
birth_year_bag, um das minimale, maximale und durchschnittliche Geburtsjahr zu berechnen. - Verwende die Funktion
dask.compute(), um die drei Aggregationen effizient zu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Select the 'birth_date' from each dictionary in the bag
birth_date_bag = filtered_bag.____
# Extract the year as an integer from the birth_date strings
birth_year_bag = birth_date_bag.____(lambda x: ____)
# Calculate the min, max and mean birth years
min_year = ____
max_year = ____
mean_year = ____
# Compute the results efficiently and print them
print(____(____))